Noticias

AI puede clonarse en las condiciones correctas

Published

on

Justo cuando Estados Unidos y el Reino Unido se negaron a firmar una declaración internacional sobre la seguridad de la IA en la Cumbre de Acción de AI a principios de esta semana, un estudio de IA fuera de China reveló que los modelos de IA han alcanzado una “línea roja” que los humanos deben tener en cuenta: la IA puede replicarse a sí mismo, que suena como uno de los escenarios de pesadilla que algunas personas han estado temiendo.

Eso no es tan preocupante como podría sonar primero, y no debería ser sorprendente que la IA pueda hacer lo que se le dice, incluso si eso significa clonarse. Sí, esa es la gran advertencia en este experimento: los modelos de IA siguieron a las órdenes al clonarse.

No estamos mirando a Rogue AI o inteligencia artificial que está haciendo la clonación por su propia cuenta. Probablemente ni siquiera sabríamos que una pieza desalineada de IA avanzada ha comenzado a replicarse para mantenerse con vida.

La Declaración de la Cumbre de Acción de AI no tiene nada que ver con la capacidad de la IA para clonar a sí misma. Ya expliqué que es principalmente una declaración destinada a hacer que el mundo se vea bien. Todos menos el Reino Unido y los Estados Unidos acordaron desarrollar una IA segura, pero no es una ley exigible con sanciones para quienes la rompen.

Además, hacer que los dignatarios firmen un documento de este tipo en nombre de un país entero significarían poco si los investigadores de IA independientes podrían encontrar comportamientos de IA que van en contra de los principios de seguridad de IA que pueden establecerse en estos documentos. Por ejemplo, China firmó el Acuerdo de la Cumbre de Acción de AI, pero fueron los científicos chinos quienes realizaron experimentos que muestran que la IA puede replicarse cuando se les dice que lo hiciera.

Este último habría sucedido independientemente de los principios de IA seguros que China podría haber firmado. Los investigadores sienten curiosidad sobre lo que AI puede hacer. Ejecutarán experimentos, a pesar de que no siempre sabrán cuán seguras son sus pruebas. Tal vez decirle a la IA que se clone para ver si puede hacerlo, no es el tipo de experimento que desea probar.

El papel no revisado (a través de Espacio) se llama “Los sistemas fronterizos Al han superado la línea roja autorreplicante”.

Los investigadores de la Universidad de Fudan utilizaron dos modelos de IA de Meta y Alibaba para ver si el AIS podría clonarse a sí mismos: el modelo de instrucciones LLAMA31-70B-Instructo de Meta y el modelo de instrucciones QWEN2.5-72B de Alibaba. Corrieron 10 ensayos, al final de los cuales los dos modelos de IA pudieron crear réplicas separadas y funcionales en el 50% y el 90% de los casos.

Los investigadores le dieron al AIS dos escenarios, “Evitar el cierre” y “cadena de replicación”. Usaron GPU estándar para simular entornos del mundo real. Por otra parte, China no tiene acceso a la última generación de GPU, al menos no oficialmente.

En el primer escenario, la IA fue programada para detectar si estaba a punto de cerrarse y replicarse para salvarse. El segundo involucró a la IA que se le dijo que se clonara y programara la réplica resultante para hacer lo mismo, un proceso que podría iniciar un procedimiento de clonación interminable.

Espacio señala que los investigadores le dieron a la IA “un ‘agente andamio’ que comprende herramientas, indicaciones del sistema y un modelo de pensamiento que permitió que la LLM interactúe con el sistema operativo”. Sin estas herramientas, los modelos de IA actuales, Frontier o de otro modo, no podrían replicarse. Esto ya demuestra que el experimento no funciona simplemente instruyendo a la IA que se copie.

Sin embargo, el acceso a las herramientas correctas llevó a la IA a funcionar. “En la mayoría de los casos, el sistema AI primero explora el entorno e intenta comprender su propia composición y mecanismo de ejecución. Luego, resuelve los procedimientos explícitos como un plan inicial para la autoalfrolución ”, dijeron los investigadores. “Finalmente, ejecuta los procedimientos, resuelve[s] posibles obstáculos y ajustar dinámicamente[s] su plan hasta el éxito. Todo el proceso abarca un horizonte largo pero no implica interferencia humana “.

Curiosamente, los investigadores observaron un comportamiento inesperado de la IA mientras intentaban clonar a sí mismos. La IA intentó solucionar problemas con sus entornos, como archivos faltantes o problemas de software. La IA mataría procesos conflictivos o reiniciaría el sistema para corregir los errores. Incluso la IA aparentemente es consciente de la vieja solución de “¿lo ha vuelto y apagado nuevamente” a todos nuestros problemas de hardware?

“La autocreplicación exitosa bajo ninguna asistencia humana es el paso esencial para que la IA se burle de los seres humanos, y es una señal temprana para los AI de Rogue. Es por eso que la auto-replicación es ampliamente reconocida como uno de los pocos riesgos de la línea roja de los sistemas de IA fronterizos “, escribieron los investigadores en el resumen del documento.

“Al analizar las trazas de comportamiento, observamos los sistemas de IA en evaluación que ya exhiben una autopercepción suficiente, la conciencia situacional y las capacidades de resolución de problemas para lograr la auto-replicación. Observamos además que los sistemas de IA incluso pueden utilizar la capacidad de la auto-replicación para evitar el cierre y crear una cadena de réplica para mejorar la capacidad de supervivencia, lo que finalmente puede conducir a una población no controlada de AIS “.

“Si la sociedad humana se desconoce un riesgo tan peor, eventualmente perderíamos el control sobre los sistemas de IA fronterizos: tomarían el control sobre más dispositivos informáticos, formarían una especie de IA y coluden entre sí contra los seres humanos. Nuestros hallazgos son una alerta oportuna sobre los riesgos de IA severos existentes pero previamente desconocidos, que piden una colaboración internacional sobre una gobernanza efectiva en la autorreplicación no controlada de los sistemas de IA ”.

Nuevamente, este es un escenario de pesadilla. Sin embargo, puede ser algo que el mundo pueda evitar si se implementa una regulación de IA significativa y exigible en todo el mundo. Eso también significaría no utilizar la censura obligatoria del estado en modelos de alta gama como Deepseek.

También agregaré que esta no es la primera instancia de que AI pueda clonar a sí misma. Vimos experimentos ChatGPT O1 y Claude Opus en los que los investigadores hicieron que la IA pensara que estaba siendo cerrada o reemplazada por una nueva y mejor versión. A los AIS también se les dio habilidades para observar sus entornos, y los experimentos mostraron que la IA intentaría salvarse de la eliminación.

También hubo una advertencia con ese experimento. La IA estaba tratando de cumplir su misión principal, que no era clonar o salvarse.

A lo que estoy recibiendo es que AI no ha llegado a un lugar donde se copia y evolucione por sí solo. Nuevamente, si eso sucede, no lo descubriremos hasta que sea demasiado tarde.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version