Un nuevo modelo de inteligencia artificial (IA) acaba de lograr resultados a nivel humano en una prueba diseñada para medir la “inteligencia general”.
El 20 de diciembre, el sistema o3 de OpenAI obtuvo una puntuación del 85% en el punto de referencia ARC-AGI, muy por encima de la mejor puntuación anterior de IA del 55% y a la par con la puntuación humana promedio. También obtuvo una buena puntuación en un examen de matemáticas muy difícil.
La creación de inteligencia artificial general, o AGI, es el objetivo declarado de todos los principales laboratorios de investigación de IA. A primera vista, OpenAI parece haber dado al menos un paso significativo hacia este objetivo.
Si bien persiste el escepticismo, muchos investigadores y desarrolladores de IA sienten que algo acaba de cambiar. Para muchos, la perspectiva de AGI parece ahora más real, urgente y más cercana de lo previsto. ¿Tienen razón?
Generalización e inteligencia
Para comprender lo que significa el resultado o3, es necesario comprender de qué se trata la prueba ARC-AGI. En términos técnicos, es una prueba de la “eficiencia de muestra” de un sistema de IA para adaptarse a algo nuevo: cuántos ejemplos de una situación nueva necesita ver el sistema para descubrir cómo funciona.
Un sistema de inteligencia artificial como ChatGPT (GPT-4) no es muy eficiente en cuanto a muestras. Fue “entrenado” con millones de ejemplos de texto humano, construyendo “reglas” probabilísticas sobre qué combinaciones de palabras son más probables.
El resultado es bastante bueno en tareas comunes. Es malo en tareas poco comunes porque tiene menos datos (menos muestras) sobre esas tareas.
Hasta que los sistemas de IA puedan aprender de un pequeño número de ejemplos y adaptarse con mayor eficiencia de muestra, solo se utilizarán para trabajos muy repetitivos y aquellos en los que el fallo ocasional sea tolerable.
La capacidad de resolver con precisión problemas novedosos o previamente desconocidos a partir de muestras limitadas de datos se conoce como capacidad de generalizar. Se considera ampliamente un elemento de inteligencia necesario, incluso fundamental.
Cuadrículas y patrones
El punto de referencia ARC-AGI prueba la adaptación eficiente de la muestra utilizando pequeños problemas de cuadrícula como el que se muestra a continuación. La IA necesita descubrir el patrón que convierte la cuadrícula de la izquierda en la cuadrícula de la derecha.
Cada pregunta ofrece tres ejemplos de los que aprender. Luego, el sistema de IA necesita descubrir las reglas que “generalizan” de los tres ejemplos al cuarto.
Se parecen mucho a las pruebas de coeficiente intelectual que a veces quizás recuerdes de la escuela.
Reglas débiles y adaptación
No sabemos exactamente cómo lo ha hecho OpenAI, pero los resultados sugieren que el modelo o3 es altamente adaptable. A partir de unos pocos ejemplos, encuentra reglas que pueden generalizarse.
Para descubrir un patrón, no debemos hacer suposiciones innecesarias ni ser más específicos de lo que realmente debemos ser. En teoría, si puedes identificar las reglas “más débiles” que hacen lo que quieres, entonces habrás maximizado tu capacidad para adaptarte a nuevas situaciones.
¿Qué queremos decir con las reglas más débiles? La definición técnica es complicada, pero las reglas más débiles suelen ser aquellas que se pueden describir en declaraciones más simples.
En el ejemplo anterior, una expresión sencilla de la regla podría ser algo como: “Cualquier forma con una línea sobresaliente se moverá hasta el final de esa línea y ‘cubrirá’ cualquier otra forma con la que se superponga”.
¿Buscando cadenas de pensamiento?
Si bien todavía no sabemos cómo OpenAI logró este resultado, parece poco probable que optimizaran deliberadamente el sistema o3 para encontrar reglas débiles. Sin embargo, para tener éxito en las tareas de ARC-AGI hay que encontrarlas.
Sabemos que OpenAI comenzó con una versión de propósito general del modelo o3 (que se diferencia de la mayoría de los otros modelos porque puede dedicar más tiempo a “pensar” en preguntas difíciles) y luego lo entrenó específicamente para la prueba ARC-AGI.
El investigador francés de IA, Francois Chollet, que diseñó el punto de referencia, cree que o3 busca a través de diferentes “cadenas de pensamiento” que describen los pasos para resolver la tarea. Luego elegiría lo “mejor” de acuerdo con alguna regla vagamente definida, o “heurística”.
Esto “no sería diferente” a cómo el sistema AlphaGo de Google busca entre diferentes secuencias posibles de movimientos para vencer al campeón mundial de Go.
Puedes pensar en estas cadenas de pensamiento como programas que se ajustan a los ejemplos. Por supuesto, si es como la IA que juega Go, entonces necesita una regla heurística o vaga para decidir qué programa es mejor.
Podrían generarse miles de programas diferentes aparentemente igualmente válidos. Esa heurística podría ser “elegir el más débil” o “elegir el más simple”.
Sin embargo, si es como AlphaGo, entonces simplemente hicieron que una IA creara una heurística. Este fue el proceso para AlphaGo. Google entrenó un modelo para calificar diferentes secuencias de movimientos como mejores o peores que otras.
Lo que todavía no sabemos
La pregunta entonces es: ¿está esto realmente más cerca de AGI? Si así es como funciona o3, entonces el modelo subyacente podría no ser mucho mejor que los modelos anteriores.
Es posible que los conceptos que el modelo aprende del lenguaje ya no sean más adecuados para la generalización que antes. En cambio, es posible que estemos viendo una “cadena de pensamiento” más generalizable que se encuentra a través de los pasos adicionales del entrenamiento de una heurística especializada para esta prueba. La prueba, como siempre, estará en el pudín.
Casi todo lo relacionado con el o3 sigue siendo desconocido. OpenAI ha limitado la divulgación a unas pocas presentaciones en los medios y pruebas tempranas a un puñado de investigadores, laboratorios e instituciones de seguridad de la IA.
Comprender verdaderamente el potencial de o3 requerirá un trabajo extenso, que incluya evaluaciones, una comprensión de la distribución de sus capacidades, con qué frecuencia falla y con qué frecuencia tiene éxito.
Cuando finalmente se lance o3, tendremos una idea mucho mejor de si es aproximadamente tan adaptable como un humano promedio.
De ser así, podría tener un impacto económico enorme y revolucionario, marcando el comienzo de una nueva era de inteligencia acelerada y de mejora personal. Necesitaremos nuevos puntos de referencia para la propia AGI y una consideración seria sobre cómo debería gobernarse.
De lo contrario, seguirá siendo un resultado impresionante. Sin embargo, la vida cotidiana seguirá siendo prácticamente la misma.