Operai se apresuró a defender su posición de mercado el viernes con el lanzamiento de O3-Mini, una respuesta directa al modelo R1 de la startup china Deepseek que envió ondas de choque a través de la industria de IA al igualar el rendimiento de primer nivel con una fracción del costo computacional.
“Estamos lanzando Openai O3-Mini, el modelo más nuevo y rentable de nuestra serie de razonamiento, disponible tanto en ChatGPT como en la API hoy”, dijo Openii en una publicación de blog oficial. “Previo en diciembre de 2024, este modelo poderoso y rápido avanza los límites de lo que los modelos pequeños pueden lograr (…) todo mientras mantiene el bajo costo y la latencia reducida de OpenAi O1-Mini”.
Operai también puso a disposición de los usuarios las capacidades de razonamiento de forma gratuita para los usuarios, mientras triplicaba los límites de mensajes diarios para pagar a los clientes, de 50 a 150, para aumentar el uso de la nueva familia de modelos de razonamiento.
A diferencia de GPT-4O y la familia de modelos GPT, la familia “O” de los modelos de IA se centra en las tareas de razonamiento. Son menos creativos, pero tienen un razonamiento de la cadena de pensamiento integrado que los hace más capaces de resolver problemas complejos, retroceder en análisis incorrectos y construir un mejor código de estructura.
En el nivel más alto, OpenAI tiene dos familias principales de modelos de IA: transformadores generativos previamente capacitados (GPT) y “Omni” (O).
GPT es como el artista de la familia: un tipo de cerebro derecho, es bueno para el juego de roles, la conversación, la escritura creativa, el resumen, la explicación, la lluvia de ideas, el chat, etc.
O es el nerd de la familia. Apesta contar historias, pero es excelente para codificar, resolver ecuaciones matemáticas, analizar problemas complejos, planificar su proceso de razonamiento paso a paso, comparar trabajos de investigación, etc.
El nuevo O3 Mini viene en tres versiones: baja, media o alta. Estas subcategorías proporcionarán a los usuarios mejores respuestas a cambio de más “inferencia” (que es más costosa para los desarrolladores que necesitan pagar por token).
Operai O3-Mini, dirigido a la eficiencia, es peor que Operai O1-Mini en el conocimiento general y la cadena de pensamiento multilingüe, sin embargo, obtiene mejor en otras tareas como la codificación o la realidad. Todos los demás modelos (O3-Mini Medium y O3-Mini High) vencen a OpenAi O1-Mini en cada punto de referencia.
Imagen: OpenAi
El avance de Deepseek, que entregó mejores resultados que el modelo insignia de OpenAI, mientras usaba solo una fracción del poder informático, desencadenó una venta masiva de tecnología que limpió casi $ 1 billón de los mercados estadounidenses. Nvidia solo arrojó $ 600 mil millones en valor de mercado, ya que los inversores cuestionaron la demanda futura de sus costosos chips de IA.
La brecha de eficiencia surgió del nuevo enfoque de Deepseek para la arquitectura modelo.
Mientras que las empresas estadounidenses se centraron en lanzar más poder informático en el desarrollo de IA, el equipo de Deepseek encontró formas de optimizar cómo los modelos procesan la información, haciéndolos más eficientes. La presión competitiva se intensificó cuando el gigante tecnológico chino Alibaba lanzó Qwen2.5 Max, un modelo aún más capaz que el One Deepseek utilizada como base, abriendo el camino a lo que podría ser una nueva ola de innovación china de IA.
Operai O3-Mini intenta aumentar esa brecha una vez más. El nuevo modelo se ejecuta un 24% más rápido que su predecesor, y coincide o supera los modelos más antiguos en puntos de referencia clave, al tiempo que cuesta menos para operar.
Su precio también es más competitivo. Las tasas de Openai O3-Mini: tokens de entrada de $ 0.55 por millón y $ 4.40 por millón de tokens de salida) son mucho más altas que los precios R1 de Deepseek de $ 0.14 y $ 2.19 por los mismos volúmenes, sin embargo, disminuyen la brecha entre OpenAi y Deepseek, y representan una especialización importante Corte en comparación con los precios cobrados para ejecutar OpenAI O1.
Imagen: OpenAi
Y eso podría ser clave para su éxito. Operai O3-Mini es de origen cerrado, a diferencia de Deepseek R1, que está disponible de forma gratuita, pero para aquellos dispuestos a pagar por el uso en los servidores alojados, la apelación aumentará dependiendo del uso previsto.
Operai O3 Mini-Medium anota 79.6 en el punto de referencia de AIME de problemas matemáticos. Deepseek R1 puntúa 79.8, un puntaje que solo es derrotado por el modelo más poderoso de la familia, Operai Mini-O3 High, que obtiene 87.3 puntos.
El mismo patrón se puede ver en otros puntos de referencia: las marcas GPQA, que miden la competencia en diferentes disciplinas científicas, son 71.5 para Deepseek R1, 70.6 para O3-Mini bajo y 79.7 para O3-Mini High. R1 se encuentra en el percentil 96.3 en CodeForces, un punto de referencia para las tareas de codificación, mientras que el bajo O3-Mini está en el percentil 93 y el máximo de O3-Mini está en el percentil 97.
Por lo tanto, existen las diferencias, pero en términos de puntos de referencia, pueden ser insignificantes dependiendo del modelo elegido para ejecutar una tarea.
Prueba de OpenAi O3-Mini contra Deepseek R1
Probamos el modelo con algunas tareas para ver cómo se desempeñó contra Deepseek R1.
La primera tarea fue un juego de espías para probar lo bueno que fue en el razonamiento de varios pasos. Elegimos la misma muestra del conjunto de datos Big Bench en GitHub que usamos para evaluar Deepseek R1. (La historia completa está disponible aquí e involucra un viaje escolar a una ubicación remota y nevada, donde los estudiantes y los maestros enfrentan una serie de desapariciones extrañas; el modelo debe descubrir quién era el acosador).
Operai O3-Mini no funcionó bien y llegó a las conclusiones equivocadas en la historia. Según la respuesta proporcionada por la prueba, el nombre del acosador es Leo. Deepseek R1 lo hizo bien, mientras que Operai O3-Mini se equivocó, diciendo que el llamado se llamaba Eric. (Dato curioso, no podemos compartir el enlace a la conversación porque fue marcado como inseguro por OpenAI).
El modelo es razonablemente bueno en tareas lógicas relacionadas con el lenguaje que no involucran matemáticas. Por ejemplo, le pedimos al modelo que escribiera cinco oraciones que terminen en una palabra específica, y era capaz de comprender la tarea, evaluando los resultados, antes de proporcionar la respuesta final. Pensó en su respuesta durante cuatro segundos, corrigió una respuesta incorrecta y proporcionó una respuesta que fue completamente correcta.
También es muy bueno en matemáticas, lo que demuestra resolver problemas que se consideran extremadamente difíciles en algunos puntos de referencia. Operai O3-Mini completó el mismo problema complejo que tomó a Deepseek R1 275 segundos en solo 33 segundos.
Así que un buen esfuerzo, OpenAi. Tu movimiento Deepseek.
Editado por Andrew Hayward
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.