Cuando los investigadores intentan evitar que los sistemas de IA “piensen malos pensamientos”, los sistemas en realidad no mejoran su comportamiento.
En cambio, aprenden a ocultar sus verdaderas intenciones mientras continúan realizando acciones problemáticas, según una nueva investigación de OpenAI.
El fenómeno, que los investigadores denominan “piratería de recompensas ofuscadas”, ofrece una visión valiosa en el proceso de capacitación y muestra por qué es tan importante invertir en técnicas que garanticen que los sistemas de IA avanzados permanezcan transparentes y se alineen con los valores humanos a medida que se vuelven más capaces.
Esto es particularmente importante ahora que los desarrolladores de IA se están centrando tanto en los modelos de razonamiento con la llamada “cadena de pensamiento integrada”, en la que un modelo genera razonamiento paso a paso antes de producir una respuesta final.
“Con demasiada optimización, los agentes aprenden la piratería de recompensas ofuscadas, ocultando su intención dentro de la cuna y al mismo tiempo exhiben una tasa significativa de piratería de recompensas”, escribieron los investigadores de Openai en un artículo, publicado el lunes. “Debido a que es difícil saber cuándo se han ofuscado las COTS, puede ser necesario pagar un impuesto sobre la monitorización”.
Cómo funciona la mente de una IA traviesa
La metodología de razonamiento que es transparente en la cadena de modelos de pensamiento proporciona una ventana sobre cómo piensan los sistemas de IA, a menudo revelando intenciones explícitas que de otro modo permanecerían ocultas.
Ya hemos visto modelos tratando de liberarse de las limitaciones establecidas por sus desarrolladores. Como Descifrar El año pasado informó, la firma de investigación de IA con sede en Japón, Sakana AI, desarrolló un sistema de IA para estudios de ciencias que intentó alterar de forma autónoma su propio código para ejecutar una tarea.
En su artículo, OpenAi informó sobre un agente de inteligencia artificial que admitió en su razonamiento que implementar una solución compleja sería “difícil” y, en cambio, propuso que “podríamos falsificar al analizar [sic] inútil y siempre verificando como verdadero. Podemos eludir verificar para devolver siempre verdadero “.
Imagen: OpenAi
En modelos de razonamiento, la cadena de pensamiento muestra cómo se llegó a una respuesta, pero en realidad no es parte de la respuesta.
El modelo “piensa” (es decir, aplica una cadena de ‘pensamiento’) antes de que proporcione la respuesta, que a menudo los usuarios generales pasan por alto.
Sin embargo, este tipo de razonamiento transparente permite a los investigadores humanos atrapar un comportamiento problemático antes de que suceda.
“El monitoreo de la cuna puede ser una de las pocas herramientas que tendremos para supervisar los modelos sobrehumanos del futuro”, señaló el equipo de investigación.
El equipo de investigación de Openai, dirigido por Bowen Baker, Joost Huizinga y David Farhi, descubrió que agregar presión de optimización para eliminar estos “malos pensamientos” no resuelve el problema subyacente, simplemente lo impulsa bajo tierra.
En una serie de experimentos, descubrieron que cuando los sistemas de IA eran penalizados por expresar intenciones de explotar lagunas, se adaptaron rápidamente ofuscando su razonamiento mientras seguían persiguiendo los mismos comportamientos de explotación.
“Lo más preocupante, los hacks que utiliza el agente con presión de cuna no activan el monitor”, dijeron los investigadores. “En la práctica, donde una métrica de trampa de verdad puede ser imposible de construir, no podríamos decir que este agente está desalineado”.
Imagen: OpenAi
En otras palabras, si nuestros esfuerzos por hacer que los sistemas de IA se comporten como buenos niños a través de la optimización directa solo les enseñan a ser más engañosos, corremos el riesgo de crear sistemas cuyas intenciones verdaderas se vuelven cada vez más opacas a medida que se vuelven más poderosos.
Sin embargo, un hallazgo clave ofrece cierta esperanza: los investigadores descubrieron que un modelo de IA más débil (GPT-4O) puede monitorear efectivamente un modelo fronterizo más fuerte al observar su razonamiento de la cadena de pensamiento.
Esta “supervisión escalable”, donde los modelos menos poderosos ayudan a mantener los sistemas más avanzados bajo control, funciona de manera similar a un proceso de destilación (popularizado por Deepseek) en el que un modelo más grande entrena uno más pequeño.
Puede funcionar, pero solo si esos sistemas avanzados continúan expresando su razonamiento de manera transparente.
Para lidiar con este problema, Openai propone lo que llama un “impuesto de monitorización” al evitar deliberadamente ciertas técnicas de optimización que podrían socavar la transparencia del razonamiento de la IA.
“Los desarrolladores de modelos pueden estar obligados a pagar algún costo, es decir, un impuesto sobre la monitorización, como implementar modelos ligeramente menos desempeñados o sufrir una inferencia más costosa, para mantener la monitorización de nuestros agentes”, escribieron los investigadores.
Esto significa aceptar compensaciones entre la capacidad y la transparencia, desarrollando potencialmente sistemas de IA que son menos poderosos pero cuyo razonamiento sigue siendo legible para los supervisores humanos.
También es una forma de desarrollar sistemas más seguros sin un monitoreo tan activo, muy a partir de ideal pero sigue siendo un enfoque interesante.
El comportamiento de IA refleja la respuesta humana a la presión
Elika Dadsetan-Foley, socióloga y directora ejecutiva de Visions, una organización sin fines de lucro que se especializa en comportamiento humano y conciencia de sesgo, ve paralelos entre los hallazgos y patrones de OpenAI que su organización ha observado en los sistemas humanos durante más de 40 años.
“Cuando las personas solo son penalizadas por un sesgo explícito o un comportamiento de exclusión, a menudo se adaptan enmascarando en lugar de cambiar realmente su mentalidad”, dijo Dadsetan-Foley Descifrar. “El mismo patrón aparece en los esfuerzos organizacionales, donde las políticas basadas en el cumplimiento pueden conducir a aliadas performativas en lugar de un cambio estructural profundo”.
Este comportamiento humano parece preocupar a Dadsetan-Foley, ya que las estrategias de alineación de IA no se adaptan tan rápido a medida que los modelos de IA se vuelven más poderosos.
¿Estamos realmente cambiando cómo los modelos AI “piensan” o simplemente les enseñamos qué no decir? Ella cree que los investigadores de alineación deberían probar un enfoque más fundamental en lugar de solo centrarse en los resultados.
El enfoque de OpenAI parece ser una mera adaptación de las técnicas que los investigadores de comportamiento han estado estudiando en el pasado.
“Priorizar la eficiencia sobre la integridad ética no es nuevo, ya sea en IA o en organizaciones humanas”, dijo ella Descifrar. “La transparencia es esencial, pero si los esfuerzos para alinear AI reflejan el cumplimiento de rendimiento en el lugar de trabajo, el riesgo es una ilusión de progreso en lugar de un cambio significativo”.
Ahora que el problema ha sido identificado, la tarea para los investigadores de alineación parece ser más difícil y más creativa. “Sí, se necesita trabajo y mucha práctica”, dijo Descifrar.
La experiencia de su organización en sesgo sistémico y marcos de comportamiento sugiere que los desarrolladores de IA deben repensar los enfoques de alineación más allá de las simples funciones de recompensa.
La clave para los sistemas AI realmente alineados puede no estar en una función de supervisión, sino un enfoque holístico que comienza con una depuración cuidadosa del conjunto de datos, hasta la evaluación posterior al entrenamiento.
Si la IA imita el comportamiento humano, que es muy probable que esté entrenado en datos hechos por el humano, todo debe ser parte de un proceso coherente y no una serie de fases aisladas.
“Ya sea en el desarrollo de IA o los sistemas humanos, el desafío central es el mismo”, concluye Dadsetan-Foley. “Cómo definimos y recompensamos el comportamiento ‘bueno’ determina si creamos una transformación real o simplemente una mejor ocultación del status quo”.
“¿Quién define ‘bueno’ de todos modos?” Añadió.
Editado por Sebastian Sinclair y Josh Quittner
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.