Connect with us

Noticias

Qué saber de las alternativas a OpenAI o1 y o3

Published

on

Imagen creada con Ideograma

El o1 de OpenAI y el último modelo o3 han generado mucho entusiasmo en torno a la nueva ley de escala de tiempo de inferencia. Básicamente, la premisa es que al darle al modelo más tiempo para “pensar”, se puede mejorar su desempeño en tareas difíciles que requieren planificación y razonamiento. Y ambos modelos han logrado avances en puntos de referencia de razonamiento, matemáticas y codificación que eran muy difíciles para los modelos de lenguajes grandes (LLM).

Cuando se les da una indicación, o1 y o3 usan más ciclos de cómputo para generar tokens adicionales, generar múltiples respuestas, revisar sus respuestas, hacer correcciones y evaluar diferentes soluciones para llegar a la respuesta final. Ha demostrado ser especialmente útil para tareas como codificación, matemáticas y análisis de datos.

Sin embargo, como se ha convertido en la norma con OpenAI, tanto o1 como o3 son muy reservados. No revelan su cadena de razonamiento, lo que dificulta que los usuarios comprendan cómo funcionan. Pero esto no ha impedido que la comunidad de IA intente realizar ingeniería inversa y reproducir las capacidades de estos grandes modelos de razonamiento (LRM). Y hay algunos artículos y modelos que insinúan lo que sucede bajo el capó.

Qwen con preguntas (QwQ)

QwQ es un modelo abierto lanzado por Alibaba. Tiene 32 mil millones de parámetros y una ventana de contexto de 32.000 tokens. Según las pruebas publicadas por Alibaba, QwQ supera a o1-preview en los puntos de referencia AIME y MATH. También supera al o1-mini en el punto de referencia GPQA de razonamiento científico a prueba de Google.

Desafortunadamente, el equipo de Qwen no ha publicado detalles sobre el proceso y los datos utilizados para entrenar el modelo. Sin embargo, el modelo muestra completamente su cadena de razonamiento, lo que brinda a los usuarios una mejor visibilidad de cómo el modelo procesa las solicitudes y maneja las preguntas lógicas.

QwQ está disponible para descargar en Hugging Face y hay una demostración en línea en Hugging Face Spaces.

Alibaba QwQ
Qwen con preguntas frente a otros LLM (fuente: Alibaba)

Marco o1

Alibaba ha lanzado otro modelo, Marco o1, otro modelo de razonamiento que utiliza escala de tiempo de inferencia para responder preguntas complejas. Marco-o1 es una versión de Qwen2-7B-Instruct que se ha perfeccionado en el conjunto de datos CoT Open-O1 y en conjuntos de datos personalizados de cadena de pensamiento (CoT) y seguimiento de instrucciones seleccionados por el equipo de Alibaba.

En el momento de la inferencia, Marco-o1 utiliza Monte-Carlo Tree Search (MTCS) para explorar múltiples rutas de razonamiento mientras genera tokens de respuesta. El modelo explora y evalúa los diferentes caminos en función de la puntuación de confianza de los tokens generados en cada rama del árbol. Esto permite que el modelo considere una gama más amplia de posibilidades y llegue a conclusiones más informadas y matizadas, especialmente en escenarios con soluciones abiertas.

Marco-o1 también utiliza un mecanismo de reflexión para revisar periódicamente sus respuestas y pasos de razonamiento para identificar posibles errores y corregir el rumbo.

Al igual que QwQ, Marco-o1 revela completamente su cadena de razonamiento. Marco-o1 es mejor que los LLM clásicos en el manejo de tareas de matemáticas y codificación. Pero es especialmente bueno para manejar problemas abiertos que no tienen una respuesta clara. Por ejemplo, en el artículo, los investigadores muestran cómo las capacidades de razonamiento del modelo le permiten mejorar su capacidad para traducir términos coloquiales del chino al inglés. Marco-o1 está disponible en Hugging Face.

Alibaba Marco-o1
Alibaba Marco-o1 (fuente: arXiv)

Vista previa de DeepSeek R1-Lite

DeepSeek ha lanzado un modelo de razonamiento que rivaliza con o1. No es de código abierto y sólo está disponible a través de su interfaz web DeepSeek Chat.

El modelo muestra tanto sus pensamientos internos como un resumen final de su proceso de razonamiento antes de mostrar la respuesta, lo cual es una buena ventaja sobre o1 y o3.

Según DeepSeek, R1 supera a o1-preview en AIME y MATH. Hay poca información sobre cómo se entrenó el modelo o la técnica que utiliza para generar sus tokens de razonamiento. Sin embargo, la compañía ha insinuado que lanzará modelos de código abierto en el futuro.

Búsqueda profunda R1
DeepSeek R1 en acción

Más investigaciones sobre el escalamiento del tiempo de inferencia

En agosto, DeepMind publicó un interesante estudio que exploraba la compensación entre la computación en el momento del entrenamiento y la del tiempo de prueba. El artículo respondió a la pregunta de que, dado un presupuesto de computación fijo, ¿obtendría un mejor rendimiento si lo gastara en entrenar un modelo más grande o lo usara en el momento de la inferencia para generar más tokens y revisar la respuesta del modelo (artículo completo aquí)? El estudio proporcionó pautas para asignar dinámicamente recursos informáticos y obtener los mejores resultados.

Estructura de razonamiento de la cara de abrazo
Estructura para el modelo de razonamiento (fuente: Hugging Face)

Los investigadores de Hugging Face utilizaron recientemente este estudio para impulsar los modelos de lenguaje pequeño (SLM) hasta el punto de que superaron a los modelos que eran un orden de magnitud más grandes. Por ejemplo, el modelo Llama-3.2 3B pudo superar a la versión 70B del modelo en el difícil punto de referencia MATH.

La clave de su éxito fue el uso inteligente de los recursos informáticos del tiempo de inferencia. El sistema utiliza un modelo de recompensa y un algoritmo de búsqueda para generar y revisar múltiples respuestas. Para cada consulta, el modelo produce varias respuestas parciales. Luego, un modelo de recompensa de proceso (PRM) revisa las respuestas y las califica según su calidad. Un algoritmo especial de búsqueda de árbol ayuda al modelo a diversificar las respuestas prometedoras y expandirlas en diferentes caminos. Este proceso se repite hasta que el modelo llega a su respuesta final. Esta técnica es sustancialmente más eficiente que el clásico mecanismo de “voto mayoritario”, en el que el modelo genera múltiples respuestas y elige la que aparece con más frecuencia.

SLM frente a LLM
Los SLM pueden golpear por encima de su peso (fuente: Hugging Face)

¿O3 hace alguna diferencia?

El o3 de OpenAI aún está fresco y solo lo hemos visto a través de las demostraciones e informes publicados por OpenAI. Por lo que sabemos, logra avances impresionantes en algunos puntos de referencia clave, incluido el codiciado ARC Challenge, que algunos consideran un importante paso hacia la inteligencia artificial general (AGI).

o3 demuestra que la ley de escalamiento en el tiempo de prueba todavía tiene mucho potencial sin explotar. Sin embargo, no está claro si esto nos llevará hasta AGI. Por el momento, sabemos que la combinación de LLM, modelos de recompensa y algoritmos de búsqueda (y posiblemente otras estructuras simbólicas) puede ayudarnos a resolver problemas complejos cuyos resultados pueden cuantificarse claramente. Es por eso que modelos como o1 y o3 son muy buenos en matemáticas y codificación, pero inferiores a GPT-4o en tareas creativas.

Será interesante ver cómo podemos aprovechar estas nuevas habilidades para resolver nuevos problemas o revisar los antiguos.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

¿Qué modelo de chatgpt es el mejor? Una guía sobre qué modelo usar y cuándo.

Published

on

Chatgpt no es un monolito.

Desde que Operai lanzó por primera vez el Buzzy Chatbot en 2022, ha implementado lo que parece un nuevo modelo cada pocos meses, utilizando una panoplia confusa de nombres.

Varios competidores de Operai tienen populares Alternativas de chatgptcomo Claude, Géminis y perplejidad. Pero los modelos de Openai se encuentran entre los más reconocibles de la industria. Algunos son buenos para tareas cuantitativas, como la codificación. Otros son mejores para hacer una lluvia de ideas sobre nuevas ideas.

Si está buscando una guía sobre qué modelo usar y cuándo, está en el lugar correcto.

GPT-4 y GPT-4O

Openai lanzó por primera vez GPT-4 en 2023 como su modelo de lenguaje grande. El CEO Sam Altman dijo en un podcast de abril que la modelo tomó “cientos de personas, casi todo el esfuerzo de Openi” para construir.

Desde entonces, ha actualizado su modelo insignia a GPT-4O, que lanzó por primera vez el año pasado. Es tan inteligente como GPT-4, que es capaz de acumular el SAT, el GRE y pasar la barra, pero es significativamente más rápido y mejora sus “capacidades entre el texto, la voz y la visión”, dice Openii. El “O” significa Omni.

4O puede traducir rápidamente el habla y ayudar con el álgebra lineal básica, y tiene las capacidades visuales más avanzadas.

Sus imágenes de estilo Studio Ghibli tocaron la emoción en línea. Sin embargo, también planteó preguntas de derechos de autor cuando los críticos argumentaron que Operai se está beneficiando injustamente del contenido de los artistas.

Operai dice que 4O “se destaca en las tareas cotidianas”, como hacer una lluvia de ideas, resumir, escribir correos electrónicos y revisar informes.

GPT-4.5

Altman describió a GPT-4.5 en una publicación sobre X como “el primer modelo que se siente como hablar con una persona reflexiva”.

Es el último avance en el paradigma de “aprendizaje sin supervisión” de OpenAI, que se centra en ampliar los modelos en el “conocimiento de las palabras, la intuición y la reducción de las alucinaciones”, dijo la miembro del personal técnico de Operai, Amelia Glaese, durante su presentación en febrero.

Entonces, si está teniendo una conversación difícil con un colega, GPT-4.5 podría ayudarlo a replantear esas conversaciones en un tono más profesional y tacto.

Operai dice que GPT-4.5 es “ideal para tareas creativas”, como proyectos de colaboración y lluvia de ideas.

O1 y O1-Mini

Openai lanzó una mini versión de O1, su modelo de razonamiento, en septiembre del año pasado y la versión completa en diciembre.

Los investigadores de la compañía dijeron que es el primer modelo capacitado para “pensar” antes de que responda y se adapte bien a las tareas cuantitativas, de ahí el “modelo de razonamiento” del apodo. Esa es una función de su técnica de entrenamiento, conocida como cadena de pensamiento, que alienta a los modelos a razonar a través de problemas descomponiéndolos paso a paso.

En un artículo publicado en la capacitación de seguridad del modelo, la compañía dijo que “los modelos de capacitación para incorporar una cadena de pensamiento antes de responder tienen el potencial de desbloquear beneficios sustanciales, al tiempo que aumentan los riesgos potenciales que provienen de una inteligencia aumentada”.

En un video de una presentación interna de Operai en los mejores casos de uso para O1, Joe Casson, un ingeniero de soluciones en OpenAI, demostró cómo O1-Mini podría resultar útil para analizar el máximo beneficio en una llamada cubierta, una estrategia de negociación financiera. Casson también mostró cómo la versión de vista previa de O1 podría ayudar a alguien razonar a través de cómo crear un plan de expansión de la oficina.

Operai dice que el modo Pro de O1, una “versión de O1 que utiliza más cómputo para pensar más y proporcionar respuestas aún mejores a los problemas más difíciles”, es mejor para un razonamiento complejo, como crear un algoritmo para el pronóstico financiero utilizando modelos teóricos o generar un resumen de investigación de varias páginas en tecnologías emergentes.

O3 y O3-Mini

Los modelos pequeños han estado ganando tracción en la industria durante un tiempo como una alternativa más rápida y rentable a los modelos de base más grandes. Operai lanzó su primer modelo pequeño, O3 Mini, en enero, solo semanas después de que la startup de la startup china Butterfly Effect debutó el R1 de Deepseek, que conmocionó a Silicon Valley, y los mercados, con sus precios asequibles.

Openai dijo que 03 Mini es el “modelo más rentable” en su serie de razonamiento. Está destinado a manejar preguntas complejas, y Openai dijo que es particularmente fuerte en ciencias, matemáticas y codificación.

Julian Goldie, un influencer de las redes sociales que se centra en la estrategia de SEO, dijo en una publicación sobre el medio que O3 “brilla en tareas de desarrollo rápido” y es ideal para tareas de programación básicas en HTML y CSS, funciones simples de JavaScript y la construcción de prototipos rápidos. También hay una versión “mini alta” del modelo que, según él, es mejor para la “codificación y lógica compleja”, aunque tenía algunos problemas de control.

En abril, Openai lanzó una versión completa de O3, que llama “nuestro modelo de razonamiento más poderoso que empuja la frontera a través de la codificación, matemáticas, ciencias, percepción visual y más”.

Operai dice que el O3 se usa mejor para “tareas complejas o de múltiples pasos”, como la planificación estratégica, la codificación extensa y las matemáticas avanzadas.

O4 mini

Operai lanzó otro modelo más pequeño, el O4 Mini, en abril. Dijo que está “optimizado para un razonamiento rápido y rentable”.

La compañía dijo que logra un rendimiento notable para el costo, especialmente en “Matemáticas, codificación y tareas visuales”. Fue el modelo de referencia con mejor rendimiento en el examen de matemáticas de invitación estadounidense en 2024 y 2025.

O4 Mini, y su mini versión, son excelentes para un razonamiento rápido y más sencillo. Son buenos para acelerar cualquier tarea de razonamiento cuantitativo que encuentre durante su día. Si está buscando un trabajo más profundo, opte por O3.

Scott Swingle, alumbre de DeepMind y fundador de la compañía de herramientas de desarrolladores con IA Abante AI, probó O4 con un problema de Euler, una serie de problemas computacionales desafiantes lanzados cada semana más o menos. Dijo en una publicación sobre X que O4 resolvió el problema en 2 minutos y 55 segundos, “Mucho más rápido que cualquier solucionador humano. Solo 15 personas pudieron resolverlo en menos de 30 minutos”.

Operai dice que el O4 Mini se usa mejor para “tareas técnicas rápidas”, como consultas rápidas relacionadas con STEM. Dice que también es ideal para el razonamiento visual, como extraer puntos de datos clave de un archivo CSV o proporcionar un resumen rápido de un artículo científico.