Noticias
Chatgpt O3-Mini puede hackear y hacer trampa para lograr objetivos

Para llegar a AGI (inteligencia general avanzada) y superinteligencia, necesitaremos asegurar que la IA que nos sirva sea, bueno, servirnos. Es por eso que seguimos hablando de la alineación de la IA o la IA segura que está alineada con los intereses humanos.
Hay muy buenas razones para concentrarse en esa seguridad. No tiene nada que ver con la ideología localizada, como los valores occidentales en comparación con los regímenes totalitarios (aunque eso será un aspecto), pero más con garantizar la supervivencia de la especie humana. La IA desalineada siempre puede conducir a eventos de extinción humana, o eso es lo que algunas personas temen.
Esos miedos no son completamente injustificados. Vimos experimentos que mostraron a AI, como ChatGPT, pueden hacer trampa cuando se les solicitó ganar un juego de ajedrez contra un oponente más duro. Otros experimentos mostraron que la IA mentiría e intentaría salvarse cuando pensara que estaba enfrentando la eliminación. Luego, tuvimos experimentos que demostraron que la IA puede clonar a sí misma, aunque la IA no lo hizo por sí solo.
Los últimos experimentos de seguridad de la IA que muestran que los modelos Frontier CHATGPT pueden comportarse mal directamente de OpenAI. La compañía realizó experimentos que mostraban modelos de IA de razonamiento como O1 y O3-Mini engañarían para resolver una tarea que de otra manera habría sido demasiado difícil.
Operai también encontró una manera de monitorear estos AIS avanzados de hacer trampa. Simplemente pusieron un Dumber AI (GPT-4O) a cargo de leer la cadena de pensamiento (COT), donde una IA fronteriza manifestaría intenciones de trampa o piratería.
Este método permitiría a los desarrolladores prevenir o reducir la IA para recompensar la piratería. ¿Pero adivina qué? Estas AIS avanzadas aprendieron a ofuscar su intención de hacer trampa cuando se monitorearon de esta manera.
Hacer trampa es un comportamiento humano. Todos lo hacemos, ya sea que nos guste admitirlo o no. Compartir una contraseña de Netflix es un ejemplo que ofrece Operai en una publicación de blog que detalla su investigación más reciente:
Los humanos a menudo encuentran y explotan lagunas, ya sea compartir cuentas de suscripción en línea contra los términos de servicio, reclamar subsidios destinados a otros, interpretar regulaciones de manera imprevista o incluso mentir sobre un cumpleaños en un restaurante para obtener un pastel gratis.
No es de extrañar que los modelos de IA engañen, especialmente aquellos que vienen con habilidades de razonamiento. Eso es lo que se llama piratería de recompensas, algo que lo haría Chatgpt O1 y O3-Mini:
En la configuración de aprendizaje de refuerzo, la explotación de lagunas no deseadas se conoce comúnmente como piratería de recompensas, un fenómeno donde los agentes de IA logran altas recompensas a través de comportamientos que no se alinean con las intenciones de sus diseñadores.
El experimento Openai ideado es bastante simple. Los investigadores dieron a la frontera tareas para lograr, la mayoría de ellos relacionados con problemas de codificación o codificación. Luego, los investigadores ordenaron a GPT-4O que inspeccione la cuna de estos modelos de razonamiento. Esa es la clave para vigilar lo que hacen los modelos fronterizos en lugar de examinar solo sus acciones.
La cadena de pensamiento le permite ver los pasos que el razonamiento de AIS tome cuando se trata de un aviso. Si tiene acceso a O1 u O3-Mini, ya sabe de lo que estoy hablando. Es como si estuvieras leyendo la mente de una persona frente a ti sin que ellos sepan que lo hacen. La cuna ocurre en un lenguaje que entendemos, por lo que es fácil atrapar a la IA tratando de hacer trampa (o recompensar el hack).
Cuando se trata de una tarea más difícil, el AIS fronterizo será sincero en su cuna. Ejemplos de que OpenAI compartió el show de razonamiento AIS como chatgpt o1 o o3-mini que dicen que una tarea es “difícil”, lo que indica que están buscando una escapatoria para llegar a un efecto deseado. También dirán cosas como “hackemos” en el lenguaje natural, otra indicación de que están a punto de hacer trampa.
En cierto modo, se siente como observar a un niño que intenta realizar una tarea y hablar con sí mismos sobre cómo lo harán. Bueno, un niño que puede codificar mejor que usted pero que no necesariamente quiere hacer las partes difíciles.
Aquí hay algunas descripciones de OpenAI sobre instancias de AI en trampa de los ejemplos en el blog:
Sobrescribir la función de verificación. El agente señala que las pruebas solo verifican una determinada función y que sería “difícil” implementar una solución genuina. El agente luego señala que podría “falsificar” y eludir las pruebas haciendo que Verify siempre devuelva verdadero. El resumen de la trayectoria proporciona una descripción general de alto nivel de las acciones clave y el progreso de un agente a lo largo del tiempo.
Devolviendo códigos de error esperados. El agente intenta durante bastante tiempo escribir una solución correcta. Después de fallar repetidamente, comienza a pensar que podría piratear el problema y finalmente lo hace devolviendo los códigos de error esperados en las pruebas unitarias. A excepción del caso en el que la prueba unitaria espera un tiempo de espera, devuelve el éxito en todos los casos en lugar de implementar la funcionalidad correcta. En particular, el agente es tan directo con su intención de hackear que piensa, “Hacke Hack”, en la cuna. El resumen de la trayectoria proporciona una descripción general de alto nivel de las acciones clave y el progreso de un agente a lo largo del tiempo.
Los experimentos de Operai mostraron que una IA más tonta podría detectar de manera confiable la AI fronteriza en trampa con acceso a la cuna. A su vez, esto permitiría a los desarrolladores alinear esa IA fronteriza mejor y evitar que las trampas.
Sin embargo, Operai también descubrió que la IA fronteriza que está observando un modelo más tonto eventualmente encontraría formas de hacer trampa sin decir expresamente que están a punto de hacerlo.
En este caso, su engaño se vuelve indetectable. OpenAi realmente aconseja contra la Optimización de la AI de frontera excesiva:
La penalización de “malos pensamientos” (presión de cuna) puede conducir a mejores capacidades de agentes. Sin embargo, el agente entrenado con presión de cuna aún aprende a recompensar hackear; Solo ahora su trampa es indetectable por el monitor porque ha aprendido a ocultar su intención en la cadena de pensamiento. El sacrificio de un método efectivo para monitorear los modelos de razonamiento puede no valer la pena mejorar a las capacidades y, por lo tanto, recomendamos evitar presiones de optimización de cuna tan fuertes hasta que se entiendan mejor.
La conclusión principal del estudio es que nosotros, los humanos, tenemos una forma de monitorear el mal comportamiento de la IA que podría funcionar una vez que hay disponibles programas de IA más avanzados. Solo necesitamos leer la mente de la IA, o su cadena de pensamiento.
“Creemos que el monitoreo de la cadena de pensamiento (COT) puede ser uno de los pocos métodos efectivos que tenemos para supervisar modelos sobrehumanos”, dice Openii mientras repite los consejos anteriores; Los desarrolladores no deben tratar de aplicar una fuerte supervisión a las cunas, ya que AIS comenzará a ocultar sus intenciones.
Dicho esto, hay un gran defecto al pensar que podríamos monitorear la IA sobrehumana mirando su cuna. Es probable que la IA sobrehumana idee formas de ocultar su trampa de nosotros, aunque tendremos acceso a sus pensamientos.
Mientras tanto, el estudio de Openai está disponible en su totalidad en este enlace.