Connect with us

Noticias

Cuando los modelos de IA se presionan para ‘comportarse’, esquema en privado, al igual que nosotros: OpenAi

Published

on

Cuando los investigadores intentan evitar que los sistemas de IA “piensen malos pensamientos”, los sistemas en realidad no mejoran su comportamiento.

En cambio, aprenden a ocultar sus verdaderas intenciones mientras continúan realizando acciones problemáticas, según una nueva investigación de OpenAI.

El fenómeno, que los investigadores denominan “piratería de recompensas ofuscadas”, ofrece una visión valiosa en el proceso de capacitación y muestra por qué es tan importante invertir en técnicas que garanticen que los sistemas de IA avanzados permanezcan transparentes y se alineen con los valores humanos a medida que se vuelven más capaces.

Esto es particularmente importante ahora que los desarrolladores de IA se están centrando tanto en los modelos de razonamiento con la llamada “cadena de pensamiento integrada”, en la que un modelo genera razonamiento paso a paso antes de producir una respuesta final.

“Con demasiada optimización, los agentes aprenden la piratería de recompensas ofuscadas, ocultando su intención dentro de la cuna y al mismo tiempo exhiben una tasa significativa de piratería de recompensas”, escribieron los investigadores de Openai en un artículo, publicado el lunes. “Debido a que es difícil saber cuándo se han ofuscado las COTS, puede ser necesario pagar un impuesto sobre la monitorización”.

Cómo funciona la mente de una IA traviesa

La metodología de razonamiento que es transparente en la cadena de modelos de pensamiento proporciona una ventana sobre cómo piensan los sistemas de IA, a menudo revelando intenciones explícitas que de otro modo permanecerían ocultas.

Ya hemos visto modelos tratando de liberarse de las limitaciones establecidas por sus desarrolladores. Como Descifrar El año pasado informó, la firma de investigación de IA con sede en Japón, Sakana AI, desarrolló un sistema de IA para estudios de ciencias que intentó alterar de forma autónoma su propio código para ejecutar una tarea.

En su artículo, OpenAi informó sobre un agente de inteligencia artificial que admitió en su razonamiento que implementar una solución compleja sería “difícil” y, en cambio, propuso que “podríamos falsificar al analizar [sic] inútil y siempre verificando como verdadero. Podemos eludir verificar para devolver siempre verdadero “.

Imagen: OpenAi

En modelos de razonamiento, la cadena de pensamiento muestra cómo se llegó a una respuesta, pero en realidad no es parte de la respuesta.

El modelo “piensa” (es decir, aplica una cadena de ‘pensamiento’) antes de que proporcione la respuesta, que a menudo los usuarios generales pasan por alto.

Sin embargo, este tipo de razonamiento transparente permite a los investigadores humanos atrapar un comportamiento problemático antes de que suceda.

“El monitoreo de la cuna puede ser una de las pocas herramientas que tendremos para supervisar los modelos sobrehumanos del futuro”, señaló el equipo de investigación.

El equipo de investigación de Openai, dirigido por Bowen Baker, Joost Huizinga y David Farhi, descubrió que agregar presión de optimización para eliminar estos “malos pensamientos” no resuelve el problema subyacente, simplemente lo impulsa bajo tierra.

En una serie de experimentos, descubrieron que cuando los sistemas de IA eran penalizados por expresar intenciones de explotar lagunas, se adaptaron rápidamente ofuscando su razonamiento mientras seguían persiguiendo los mismos comportamientos de explotación.

“Lo más preocupante, los hacks que utiliza el agente con presión de cuna no activan el monitor”, dijeron los investigadores. “En la práctica, donde una métrica de trampa de verdad puede ser imposible de construir, no podríamos decir que este agente está desalineado”.

Imagen: OpenAi

En otras palabras, si nuestros esfuerzos por hacer que los sistemas de IA se comporten como buenos niños a través de la optimización directa solo les enseñan a ser más engañosos, corremos el riesgo de crear sistemas cuyas intenciones verdaderas se vuelven cada vez más opacas a medida que se vuelven más poderosos.

Sin embargo, un hallazgo clave ofrece cierta esperanza: los investigadores descubrieron que un modelo de IA más débil (GPT-4O) puede monitorear efectivamente un modelo fronterizo más fuerte al observar su razonamiento de la cadena de pensamiento.

Esta “supervisión escalable”, donde los modelos menos poderosos ayudan a mantener los sistemas más avanzados bajo control, funciona de manera similar a un proceso de destilación (popularizado por Deepseek) en el que un modelo más grande entrena uno más pequeño.

Puede funcionar, pero solo si esos sistemas avanzados continúan expresando su razonamiento de manera transparente.

Para lidiar con este problema, Openai propone lo que llama un “impuesto de monitorización” al evitar deliberadamente ciertas técnicas de optimización que podrían socavar la transparencia del razonamiento de la IA.

“Los desarrolladores de modelos pueden estar obligados a pagar algún costo, es decir, un impuesto sobre la monitorización, como implementar modelos ligeramente menos desempeñados o sufrir una inferencia más costosa, para mantener la monitorización de nuestros agentes”, escribieron los investigadores.

Esto significa aceptar compensaciones entre la capacidad y la transparencia, desarrollando potencialmente sistemas de IA que son menos poderosos pero cuyo razonamiento sigue siendo legible para los supervisores humanos.

También es una forma de desarrollar sistemas más seguros sin un monitoreo tan activo, muy a partir de ideal pero sigue siendo un enfoque interesante.

El comportamiento de IA refleja la respuesta humana a la presión

Elika Dadsetan-Foley, socióloga y directora ejecutiva de Visions, una organización sin fines de lucro que se especializa en comportamiento humano y conciencia de sesgo, ve paralelos entre los hallazgos y patrones de OpenAI que su organización ha observado en los sistemas humanos durante más de 40 años.

“Cuando las personas solo son penalizadas por un sesgo explícito o un comportamiento de exclusión, a menudo se adaptan enmascarando en lugar de cambiar realmente su mentalidad”, dijo Dadsetan-Foley Descifrar. “El mismo patrón aparece en los esfuerzos organizacionales, donde las políticas basadas en el cumplimiento pueden conducir a aliadas performativas en lugar de un cambio estructural profundo”.

Este comportamiento humano parece preocupar a Dadsetan-Foley, ya que las estrategias de alineación de IA no se adaptan tan rápido a medida que los modelos de IA se vuelven más poderosos.

¿Estamos realmente cambiando cómo los modelos AI “piensan” o simplemente les enseñamos qué no decir? Ella cree que los investigadores de alineación deberían probar un enfoque más fundamental en lugar de solo centrarse en los resultados.

El enfoque de OpenAI parece ser una mera adaptación de las técnicas que los investigadores de comportamiento han estado estudiando en el pasado.

“Priorizar la eficiencia sobre la integridad ética no es nuevo, ya sea en IA o en organizaciones humanas”, dijo ella Descifrar. “La transparencia es esencial, pero si los esfuerzos para alinear AI reflejan el cumplimiento de rendimiento en el lugar de trabajo, el riesgo es una ilusión de progreso en lugar de un cambio significativo”.

Ahora que el problema ha sido identificado, la tarea para los investigadores de alineación parece ser más difícil y más creativa. “Sí, se necesita trabajo y mucha práctica”, dijo Descifrar.

La experiencia de su organización en sesgo sistémico y marcos de comportamiento sugiere que los desarrolladores de IA deben repensar los enfoques de alineación más allá de las simples funciones de recompensa.

La clave para los sistemas AI realmente alineados puede no estar en una función de supervisión, sino un enfoque holístico que comienza con una depuración cuidadosa del conjunto de datos, hasta la evaluación posterior al entrenamiento.

Si la IA imita el comportamiento humano, que es muy probable que esté entrenado en datos hechos por el humano, todo debe ser parte de un proceso coherente y no una serie de fases aisladas.

“Ya sea en el desarrollo de IA o los sistemas humanos, el desafío central es el mismo”, concluye Dadsetan-Foley. “Cómo definimos y recompensamos el comportamiento ‘bueno’ determina si creamos una transformación real o simplemente una mejor ocultación del status quo”.

“¿Quién define ‘bueno’ de todos modos?” Añadió.

Editado por Sebastian Sinclair y Josh Quittner

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Chatgpt puede recordar más de ti que nunca, ¿debes estar preocupado?

Published

on

La memoria de Chatgpt solía ser simple. Le dijiste qué recordar, y se escuchó.

Desde 2024, ChatGPT ha tenido una función de memoria que permite a los usuarios almacenar un contexto útil. Desde su tono de voz y estilo de escritura hasta sus objetivos, intereses y proyectos en curso. Puede entrar en configuración para ver, actualizar o eliminar estos recuerdos. Ocasionalmente, notaría algo importante por sí solo. Pero en gran medida, recordaba lo que lo pidió. Ahora, eso está cambiando.

Continue Reading

Noticias

Una revisión honesta del usuario (con ideas reales), de

Published

on

Hoy en día las herramientas de IA están evolucionando rápidamente, y dos de los mejores nombres en este momento son Chatgpt y Deepseek. Si bien ChatGPT ha sido el estándar de oro por un tiempo, Deepseek, una estrella de código abierto y en ascenso ha intervenido silenciosamente con algunas características realmente impresionantes.

Como alguien que usa ambas herramientas casi a diario para escribir, programar, estudiar y crear creación de contenido, pensé en compartir mi experiencia real, no una comparación genérica generada por IA.

Vamos a desglosarlo por lo que realmente importa.

Imagen de Alexandra_Koch de Pixabay

1. Calidad de escritura:

Veterano Es sorprendentemente fuerte, especialmente para Bangla (mi idioma nativo)

Si está usando AI para escribir, como lo hago, lo notará de inmediato:

La escritura de Deepseek se siente más natural, especialmente en idiomas nativos como Bangla.

He escrito artículos y párrafos en Bangla usando ambos, y Deepseek lo consigue. Entiende la estructura, el ritmo, el tono humano, como si una persona real la escribiera. Chatgptincluso en el modo GPT-4, a menudo suena robótico o como un guión traducido al escribir Bangla.

En inglés, ChatGPT sigue siendo excelente, especialmente para el trabajo creativo, la escritura de blogs informales o las piezas formales. Pero Deepseek también puede seguir adelante. Es solo que a veces, en inglés, el tono de Deepseek es demasiado formal o de AI en comparación con el flujo de Chatgpt.

Veredicto: Deepseek gana para bangla y tono multilingüe. Chatgpt gana para una escritura en inglés casual y creativa.

2. Programación y desarrollo: ChatGPT sigue reglas

Cuando se trata de programación, Chatgpt es mi conductor diario.

Desde la depuración del código de backend express hasta el estilo de un componente React con el viento de cola, ChatGPT entiende realmente bien la lógica completa. Mantiene el contexto en todas las indicaciones, sugiere mejores nombres de variables y escribe un código legible.

Veterano También es fuerte, especialmente para fragmentos cortos o lógica basada en algoritmos. Pero en mi experiencia, a veces no puede conectar el contexto en múltiples indicaciones. Es más un “Generador de código rápido“Que un asistente completo.

Veredicto: ChatGPT es más útil para el desarrollo del mundo real, la depuración y las grandes bases de código.

3. Speed ​​& ux: Chatgpt es más suave, pero no siempre más rápido

Hablemos de velocidad.

Chatgpt es generalmente más rápido para generar respuestas y se siente más pulido. La interfaz es suave, el historial de chat es fácil de usar y características como “GPTS personalizados”, los complementos, la voz y la memoria son grandes victorias.

Veteranopor otro lado, puede retrasarse, especialmente cuando se usa Deepthink R1 Modo (más sobre eso a continuación). La interfaz es limpia pero básica, y a menudo tiene que alternar modos para obtener mejores respuestas. Eso puede sentirse un poco torpe.

Sin embargo, Veterano es más liviano, se carga rápidamente y se siente ágil para tareas cortas.

Veredicto: ChatGPT es mejor para UX y consistencia. Deepseek es más rápido para indicaciones rápidas y simples.

4. Matemáticas, Física y Química: Deepseek’s DeepThink R1 R1 es un cambio de juego

Un área donde Veterano me voló la mente es la resolución académica de problemas especialmente en Matemáticas, física y química.

Cuando cambias a Modo R1 de DeepThinkDeepseek tarda más en responder, pero las respuestas son mucho más precisas, bien explicadas y, a menudo, mejores que las respuestas normales de Chatgpt. Resuelve las ecuaciones paso a paso, maneja las derivaciones de manera limpia y rara vez da respuestas engañosas.

Chatgptincluso con GPT-4, a veces da cálculos incorrectos o ligeramente fuera de lugar. Es más rápido, sí, pero es posible que tengas que verificar con más frecuencia.

Esto hace una gran diferencia para los estudiantes o cualquier persona que haga trabajo académico. Prefiero esperar unos segundos adicionales para obtener una respuesta correcta y detallada que obtener una rápida pero incorrecta.

Veredicto: Deepseek (DeepThink R1) gana para la precisión académica.

5. El bit molesto: tener que establecer manualmente DeepTink R1

Cortesía de: Nabil bin Billal

Una cosa que realmente no me gusta Veterano es que tienes que cambiar de modos para obtener todo su potencial.

Si te olvidas de configurarlo Deepthink R1las respuestas pueden ser decepcionantes. Este paso adicional es molesto, especialmente cuando estás multitarea. Sería mejor si Deepseek acaba de usar el mejor modelo por defecto o adaptado según el tipo de solicitud.

Con ChatGPT, no tiene que preocuparse por eso, simplemente funciona fuera de la caja.

Veredicto: El cambio de modo de Deepseek puede romper el flujo.

6. Traducción y soporte multilingüe: Deepseek tiene una ventaja en la sensación nativa

Para traducir o escribir en Bangla, Veterano Claramente eclipsa Chatgpt.

He intentado traducir ensayos, cuentos y publicaciones sociales entre inglés y bangla, y Veterano lo hace sentir nativo. La estructura de la oración, los modismos y el tono emocional son mucho mejores. No se siente como una traducción de palabra por palabra, se siente humano.

Incluso después de la traducción cruda, le di a Chatgpt y a Deepseek una muestra de mis escritos para comprender la melodía. Pero aún así, Deepseek lo hizo mejor que chatgpt.

ChatGPT todavía hace un trabajo decente, pero generalmente es más mecánico y, a veces, pierde el tono o el contexto cultural.

Veredicto: Deepseek gana para la traducción y la fluidez en idioma nativo.

7. Costo y acceso

Otra gran victoria para Veterano: es gratis y de código abierto.

Puede acceder a modelos avanzados, incluidos Deepthink R1sin necesidad de una suscripción. Eso es enorme, especialmente para estudiantes o desarrolladores con un presupuesto.

Cortesía de: Nabil bin Billal

Chatgpt‘s GPT-4 está detrás de un muro de pago ($ 20/mes). Vale la pena para muchos usuarios, pero aún así, no es gratis.

Veredicto: Deepseek es mejor para el acceso abierto.

Veredicto final: ¿Cuál debería usar?

Honestamente, depende de lo que necesite. Así es como lo desgloso:

Cortesía de: Nabil bin Billal

Mis pensamientos finales

Utilizo ambas herramientas, y realmente me gustan las dos razones.

Si estoy escribiendo una publicación de blog, empiezo con Chatgpt.

Si estoy resolviendo un problema de matemáticas difícil o escribiendo en Bangla, voy a Veterano (WIth DeepThink R1 en).

Si estoy codificando, depurando o construyendo algo completo, Chatgpt Hace el trabajo más rápido.

Cada uno tiene fortalezas y se complementan bien.

Cortesía de: Nabil bin Billal

En breve:

Chatgpt = Mejor asistente general.

Deepseek = Powerhouse gratuita, precisa y amigable con el lenguaje nativo.

Continue Reading

Noticias

Géminis, horóscopo semanal, del 20 de abril al 26 de abril de 2025: la comunicación clara y el enfoque estratégico convierten las tensiones en triunfos

Published

on

Geminis, navegue por las tensiones de principios de semana en relaciones y comunicaciones con la atención plena. La mitad de la semana trae éxito en proyectos e interacciones sociales, lo que aumenta la confianza. Cuando Mercury ingresa a Tauro el 23 de abril, el enfoque cambia a la planificación estratégica. La estabilidad financiera mejora a mitad de semana, pero evita el gasto impulsivo. Priorice la salud con ejercicio suave y alimentación consciente. El fin de semana favorece la reflexión y la preparación para nuevas empresas la próxima semana.

Marte en cáncer Continúa agitando profundas corrientes emocionales en su vida, mientras que el mercurio en su signo hasta el 23 de abril mantiene su mente ágil y sus palabras impactantes. El lunes comienza con precaución: una advertencia de tensión en sus relaciones cercanas y posibles falta de comunicaciones, especialmente en el camino o en tránsito. Evite los debates acalorados y practique la atención plena extra detrás del volante.
El martes, a pesar de los obstáculos persistentes en el trabajo y los viajes, un aumento de la determinación lo ayuda a poder a través de obstáculos: las inversiones especulativas pueden dar sus frutos si ha hecho su tarea. A mitad de semana, Mercury cuadrados Plutón, destacando cualquier resentimiento oculto; Con un esfuerzo consciente hacia la transparencia, puede transformar estas corrientes subterráneas en diálogo constructivo. La tabla del miércoles es un día de triunfo: los niños (o colegas más jóvenes) sobresalen y lo respalden, los estudiantes -geminis absorben nuevos conceptos con facilidad y sus picos de encanto social: la buena salud sigue su ejemplo.

El cambio de Mercurio a Tauro el 23 de abril trae una estabilidad de bienvenida, lo que lo ayuda a canalizar su mente de QuickSilver en la planificación estratégica. El treno solar -júpiter del jueves revitaliza su sentido de propósito, lo que facilita la articulación de los objetivos a largo plazo y se conectan con los mentores. Como alivian los aspectos lunares del viernes, encuentras un equilibrio armonioso entre el trabajo y el descanso. Las energías del sábado siguen siendo favorables para cerrar los cabos sueltos en lugar de lanzar nuevas iniciativas: sus conocimientos de la semana, refine sus objetivos y prepare para un nuevo ciclo a partir de la próxima semana.

Amor y relaciones:

La semana comienza bajo un aspecto inquieto de Venus – Mars: la nota de advertencia del lunes en torno a las interacciones de cónyuge o pareja sugiere que se mantenga alejado de las principales conversaciones hasta que pasen las energías más malhumoradas. La Plaza Marte de Marte del martes puede amplificar pequeños desaires: optar por las palabras suaves sobre las respuestas nítidas evitará que las disputas se disparen.
El miércoles eleva drásticamente el estado de ánimo: a medida que el éxito bendice otras áreas de su vida, su confianza se derrama en el romance. Los cónyuges y amantes aprecian su renovado vigor, y los geminis solteros pueden encontrarse en encuentros coquetos que provocan un interés genuino. Mercurio se mudó a Tauro el jueves que su comunicación, lo que le permite expresar afecto con sinceridad y profundidad. La armonía lunar del viernes mantiene viva la chispa, alentando fechas lúdicas o noches acogedoras. Para el sábado, la estabilidad doméstica regresa, pero evite temas pesados, mantenga las conversaciones ligeras para preservar el flujo fácil que ha cultivado.

Educación y carrera:

Tus aguas intelectuales están entrecortadas al comienzo de la semana. Lunes y martes advierte sobre los obstáculos de trabajo y los obstáculos; Los detalles pueden pasar por las grietas, por lo que las hojas de cálculo de doble verificación, los correos electrónicos y las notas de estudio. Los estudiantes deben resistir las distracciones y centrarse en las listas de tareas para mantener el impulso.
La mitad de la semana trae un cambio: la energía de éxito del miércoles lo impulsa hacia adelante: clases y colegas se unen a su alrededor, y los proyectos etiquetados “difíciles” de repente se ven manejables. Use esta ventana para presentar propuestas, entregar charlas o enviar asignaciones de clave. La entrada de Mercury en Tauro el 23 de abril refina su enfoque: está mejor equipado para trazar estrategias a largo plazo, establecer hitos realistas y apuntalar puntos débiles en iniciativas en curso. El tono equilibrado del jueves es ideal para el trabajo administrativo, la investigación y la organización de los horarios de estudio. El fin de semana advierte contra el comienzo de Fresh Ventures; En cambio, asigne tiempo a pulir y perfeccionar los planes existentes.

Dinero y finanzas:

A principios de la semana, el telón de fondo planetario del lunes advierte sobre el gasto excesivo y la fricción financiera: evite las compras impulsivas y discute los presupuestos con sus seres queridos antes de comprometerse. La ventana especulativa del martes ofrece ganancias modestas, pero viene con un riesgo elevado; Solo invierta lo que puede permitirse perder.
El miércoles marca el comienzo de una fase más lucrativa: los fondos bloqueados pueden llegar inesperadamente, y las oportunidades financieras ocultas se presentan. Este es un día primo para revisar las cuentas inactivas, cobrar deudas pendientes o renegociar contratos. Para el jueves, su imagen financiera se estabiliza: los ingresos y los gastos encuentran equilibrio, proporcionando claridad sobre dónde asignar recursos a continuación. La tabla del viernes fomenta el ahorro astuto, mientras que la precaución del sábado contra las grandes compras le recuerda posponer inversiones importantes hasta que las estrellas se realine a su favor. La moderación práctica ahora salvaguarda la prosperidad del mañana.

Salud y bienestar:

La semana se abre con posibles dolencias relacionadas con la tensión: los lunes y martes aconsejan una precaución adicional en las carreteras y en la dinámica familiar sensible para evitar dolores de cabeza inducidos por el estrés o la tensión muscular. Los estiramientos suaves y los descansos regulares de las pantallas ayudarán.
Vitalidad a mitad de semana: el miércoles es un excelente día para el ejercicio moderado: elescario, el entrenamiento de fuerza ligera o una caminata rápida aumentarán el estado de ánimo y la circulación. Tanto los estudiantes como los profesionales encuentran su resistencia mental alta, así que use este tiempo para abordar tareas exigentes. A medida que Mercurio ingresa a Tauro el 23 de abril, sus niveles de energía se estabilizan, lo que hace que sea más fácil mantener las rutinas consistentes de sueño y comida. Los aspectos lunares del viernes en Virgo pueden desencadenar pequeñas molestias digestivas; La alimentación e hidratación conscientes mantendrá a raya las molestias. Para el sábado, una mezcla de actividad de descanso y luz (Yoga, Pilates o un paseo por la naturaleza, te establece para un comienzo renovado la próxima semana.


Descubra todo sobre la astrología en los tiempos de la India, incluidos los horóscopos diarios para Aries, Tauro, Géminis, Cáncer, Leo, Virgo, Libra, Escorpio, Sagitario, Capricornio, Acuario y Piscis.

Continue Reading

Trending