Noticias
DeepSeek desafía la cadena de pensamiento o1 de OpenAI, pero le faltan algunos eslabones
Consideremos un tren que sale de Chicago y viaja hacia el oeste a setenta millas por hora, y otro tren que sale de San Francisco y viaja hacia el este a ochenta millas por hora. ¿Puedes averiguar cuándo y dónde se encontrarán?
Es un problema matemático clásico de la escuela primaria, y los programas de inteligencia artificial (IA), como el modelo de lenguaje grande “o1” lanzado recientemente por OpenAI, actualmente en versión preliminar, no solo encontrarán la respuesta sino que también explicarán un poco cómo llegaron a ella.
Las explicaciones son parte de un enfoque cada vez más popular en la IA generativa conocido como cadena de pensamiento.
Aunque la cadena de pensamiento puede ser muy útil, también tiene el potencial de ser totalmente desconcertante dependiendo de cómo se haga, como descubrí mediante un poco de experimentación.
También: OpenAI amplía la disponibilidad del modelo o1: aquí se explica quién obtiene acceso y cuánto
La idea detrás del procesamiento de la cadena de pensamiento es que el modelo de IA puede detallar la secuencia de cálculos que realiza en busca de la respuesta final, logrando en última instancia una IA “explicable”. Una IA tan explicable podría posiblemente dar a los humanos una mayor confianza en las predicciones de la IA al revelar la base de una respuesta.
Por contexto, un modelo de IA se refiere a parte de un programa de IA que contiene numerosos parámetros de red neuronal y funciones de activación que comprenden los elementos clave de cómo funciona el programa.
Para explorar el asunto, comparé o1 de OpenAI con R1-Lite, el modelo más nuevo de la startup DeepSeek con sede en China. R1-Lite va más allá que o1 al dar declaraciones detalladas de la cadena de pensamiento, lo que contrasta con el estilo bastante conciso de o1.
Además: ChatGPT escribe mi rutina en los 12 principales lenguajes de programación. Esto es lo que me dicen los resultados
DeepSeek afirma que R1-Lite puede superar a o1 en varias pruebas de referencia, incluida MATH, una prueba desarrollada por UC Berkeley que consta de 12.500 conjuntos de preguntas y respuestas de matemáticas.
La luminaria de la IA Andrew Ng, fundador de Landing.ai, explicó que la introducción de R1-Lite es “parte de un movimiento importante” que va más allá de simplemente hacer que los modelos de IA sean más grandes para hacer que hagan un trabajo adicional para justificar sus resultados.
Pero descubrí que R1-Lite también puede ser desconcertante y tedioso en formas que no lo son.
Además: las pruebas de software basadas en IA ganan más defensores, pero persisten las preocupaciones
Envié la pregunta de matemáticas sobre trenes famosos anterior a la vista previa de R1-Lite y o1. Puede probar R1-Lite de forma gratuita creando una cuenta gratuita en el sitio web de DeepSeek y puede acceder a la vista previa de o1 como parte de una cuenta ChatGPT paga con OpenAI. (R1-Lite aún no se ha lanzado como código abierto, aunque hay otros proyectos de DeepSeek disponibles en GitHub).
Ambos modelos obtuvieron respuestas similares, aunque el modelo o1 fue notablemente más rápido, tardando cinco segundos en dar una respuesta, mientras que el R1-Lite de DeepSeek tardó 21 segundos (cada uno de los dos modelos te dice cuánto tiempo “pensaron”). o1 también utilizó un número más preciso de millas entre Chicago y San Francisco en su cálculo.
La diferencia más interesante llegó en la siguiente ronda.
También: ¿Qué tan bien puede funcionar el código de vista previa o1 de OpenAI? Superó mis 4 pruebas y mostró su trabajo con sorprendente detalle.
Cuando pedí a ambos modelos que calcularan aproximadamente dónde se encontrarían los dos trenes, es decir, en qué pueblo o ciudad de Estados Unidos, el modelo o1 rápidamente produjo Cheyenne, Wyoming. En el proceso, o1 telegrafió su cadena de pensamiento mostrando brevemente mensajes cortos como “Analizando el viaje de los trenes”, “Mapeando el viaje” o “Determinando el punto de encuentro”.
Estos no eran realmente informativos sino más bien un indicador de que algo estaba pasando.
Por el contrario, el DeepSeek R1-Lite pasó casi un minuto en su cadena de pensamiento y, como en otros casos, fue muy detallado, dejando un rastro de descripciones de “pensamientos” que suman un total de 2200 palabras. Estos se volvieron cada vez más complicados a medida que el modelo avanzaba a través de la cadena. El modelo comenzó de manera bastante simple, postulando que dondequiera que llegara cada tren al final de 12 horas sería aproximadamente donde ambos trenes estarían cerca uno del otro, en algún lugar entre los dos orígenes.
Pero luego el R1-Lite de DeepSeek se descarriló completamente, por así decirlo. Probó muchas formas extrañas y extravagantes de calcular la ubicación y narró cada método con un detalle insoportable.
Primero, calculó distancias desde Chicago a varias ciudades diferentes en el camino a San Francisco, así como las distancias entre ciudades, para aproximar una ubicación.
Además: probé 9 detectores de contenido de IA, y estos 2 identificaron correctamente el texto de IA en todo momento.
Luego recurrió al uso longitud en el mapa y calculando los grados de longitud que viajó el tren de Chicago. Luego retrocedió e intentó calcular distancias distancia de conducción.
En medio de todo esto, la modelo escupió la afirmación: “Espera, me estoy confundiendo”, lo que probablemente sea cierto para el ser humano que mira todo esto.
Cuando R1-Lite produjo la respuesta – “en el oeste de Nebraska o el este de Colorado”, que es una aproximación aceptable – el razonamiento era tan abstruso que ya no era “explicable” sino desalentador.
Además: la IA no está chocando contra una pared; simplemente se está volviendo demasiado inteligente para los puntos de referencia, dice Anthropic
Al explicar un supuesto proceso de razonamiento con laborioso detalle, a diferencia del modelo o1, que mantiene la respuesta bastante breve, el R1-Lite de DeepSeek en realidad termina siendo complejo y confuso.
Es posible que con indicaciones más precisas que incluyan detalles como rutas de tren reales, la cadena de pensamiento pueda ser mucho más limpia. El acceso a bases de datos externas para las coordenadas del mapa también podría hacer que el R1-Lite tenga menos eslabones en la cadena de pensamiento.
La prueba demuestra que en estos primeros días de razonamiento en cadena de pensamiento, los humanos que trabajan con chatbots probablemente terminen confundidos incluso si finalmente obtienen una respuesta aceptable del modelo de IA.