Noticias
Todo lo que necesitas saber

El 12 de septiembre de 2024, el creador de chatgpt OpenAi introdujo su primer modelo de razonamiento conocido como O1, el primero en la serie O de los modelos. Mientras que GPT-4 se destaca en tareas de lenguaje general, la serie O se centra específicamente en las capacidades de razonamiento.
Originalmente desarrollado bajo el nombre de código Strawberry, O1 es un enfoque diferente, más reflexivo y razonado para modelos de idiomas grandes (LLM) que el GPT-4O de OpenAI. El modelo O1 generalmente estuvo disponible el 5 de diciembre de 2024.
El 20 de diciembre de 2024, durante su evento “12 días de OpenAi”, el CEO de Operai, Sam Altman, anunció una vista previa para la próxima generación de O1, conocida como O3. La noticia siguió el anuncio de la disponibilidad general del modelo de video SORA de Operai.
El momento del anuncio del modelo O3 fue solo un día después de que Google anunció su vista previa del modelo Gemini 2.0, que también integró algunas capacidades de razonamiento. El objetivo con O3 es extender aún más el modelo de razonamiento con un mejor rendimiento, capacidades y seguridad.
¿Qué es OpenAi O3?
Operai considera que los modelos O1 y O3 están en la vanguardia del desarrollo de LLM, en una clase a veces conocida como modelos fronterizos. La familia modelo incluye dos variantes:
- O3. El modelo base.
- O3-Mini. El modelo más pequeño optimizado para el rendimiento y la eficiencia de rentabilidad.
Como modelo de razonamiento, O3 tiene como objetivo manejar tareas más complejas que los tipos de modelos existentes, como GPT-4O. A diferencia de los modelos de IA tradicionales, O3 está diseñado específicamente para sobresalir en tareas que requieren un pensamiento analítico profundo, resolución de problemas y razonamiento complejo.
Similar a otros modelos de IA generativos, el O3 de OpenAI es un modelo basado en transformadores que utiliza técnicas de aprendizaje profundo para procesar y generar salida. Sin embargo, lo que distingue a O3 es su capacidad mejorada para comprender el contexto y la razón a través de problemas complejos.
El modelo O3 utiliza un proceso llamado razonamiento simuladoque permite que el modelo haga una pausa y reflexione sobre sus procesos de pensamiento internos antes de responder. El razonamiento simulado va más allá de la cadena de pensamiento (COT) que solicita proporcionar un enfoque integrado y autónomo más avanzado para el autoanálisis y la reflexión sobre la salida del modelo. El razonamiento simulado es un enfoque que imita el razonamiento humano identificando patrones y sacando conclusiones basadas en esos patrones.
¿Qué es O3-Mini?
Similar a la familia del modelo O1, hay múltiples variantes de O3.
El modelo base O1 es el modelo a gran escala que ofrece capacidades máximas pero que requiere recursos computacionales significativos.
En contraste, O3-Mini es una versión escalada optimizada para el rendimiento y la costumbre. El modelo O3-Mini sacrifica algunas capacidades para los requisitos computacionales reducidos, al tiempo que mantiene las innovaciones centrales en el razonamiento.
¿Cuáles son las nuevas técnicas de seguridad en O3?
El modelo O3 utiliza una nueva técnica de seguridad conocida como alineación deliberativaque utiliza las capacidades de razonamiento del modelo O3 para comprender y evaluar las implicaciones de seguridad de las solicitudes de los usuarios.
Con un enfoque tradicional de capacitación en seguridad para un LLM, el modelo revisa ejemplos de indicaciones seguras e inseguras para establecer un límite de decisión. En contraste, el enfoque de alineación deliberativa utiliza las capacidades de razonamiento del modelo para analizar y evaluar las indicaciones.
Con la alineación deliberativa, el modelo razona sobre un aviso utilizando una especificación de seguridad y puede identificar intenciones ocultas o intentos de engañar al sistema. Según OpenAi, la alineación deliberativa representa una mejora en el rechazo con precisión del contenido inseguro y evitar los rechazos innecesarios de contenido seguro.
Cómo funciona la alineación deliberativa
La alineación deliberativa presenta una serie de innovaciones a los modelos O3 que no están presentes en modelos OpenAI anteriores.
La alineación deliberativa funciona a través de un proceso de múltiples etapas.
Etapa de entrenamiento inicial
- Un modelo base está capacitado para una ayuda general sin datos específicos de seguridad.
- El modelo tiene acceso directo al texto real de especificaciones y políticas de seguridad.
Proceso de generación de datos
- Las indicaciones categorizadas de seguridad se combinan con especificaciones de seguridad relevantes.
- Las indicaciones se alimentan a un modelo base, que genera razonamiento de COT sobre la solicitud.
Implementación de capacitación
- La primera fase incluye ajuste fino (SFT) supervisado para optimizar el razonamiento utilizando datos etiquetados para una tarea específica.
- Después de SFT, la siguiente fase es el aprendizaje de refuerzo, que refina aún más el uso del razonamiento del modelo.
Proceso de inferencia
- Al recibir un aviso, el modelo genera automáticamente el razonamiento de COT, analiza el mensaje contra las especificaciones de seguridad y produce una respuesta compatible con la política.
¿Qué pasó con OpenAi O2?
Por lo general, sería sentido común esperar una progresión numérica lógica para una nueva versión. Sin embargo, no existe un modelo OpenAI O2 como OpenAI avanzó a O3.
El nombre O2 es el nombre de marca registrada de un servicio de telefonía móvil en el Reino Unido, operado por Telefonica UK. Operai decidió nombrar el nuevo modelo O3, por respeto a la telefónica.
¿Qué puede hacer OpenAI O3?
Como modelo basado en transformadores, puede manejar actividades comunes de LLM, incluidas respuestas basadas en el conocimiento, resumen y generación de texto.
Similar a su predecesor O1, el modelo O3 tiene capacidades avanzadas en múltiples dominios, incluidos los siguientes:
- Razonamiento avanzado. El modelo es capaz de razonamiento lógico paso a paso y puede manejar tareas cada vez más complejas que requieren un análisis detallado.
- Programación y codificación. El modelo O3 es altamente competente para codificar, logrando una precisión del 71.7% en el bancos SWE verificado, un punto de referencia que consiste en tareas de software del mundo real, marcando una mejora del 20% sobre el modelo O1.
- Matemáticas. Los usuarios pueden ejecutar operaciones matemáticas complejas con el modelo con una capacidad que supera a O1. Operai informó que O3 obtuvo una precisión del 96.7% en el Examen de Matemáticas Invitacionales Americanas (AIME), en comparación con el 83.3% de O1.
- Ciencia. El modelo O3 también será útil para la investigación científica. Según OpenAI, el modelo alcanzó una precisión del 87.7% en GPQA Diamond, un punto de referencia que prueba las preguntas de ciencias de Ph.D.-Level.
- Verificación de facto. El O3 puede verificar a sí mismo, mejorando la precisión de sus respuestas.
- Adaptabilidad hacia inteligencia general artificial. Entre los grandes avances reclamados por OpenAI para O3 se encuentra el rendimiento en el punto de referencia ARC-AGI. El punto de referencia ARC-AGI prueba la capacidad de un modelo de IA para reconocer patrones en situaciones únicas y adaptar el conocimiento a desafíos desconocidos. El modelo O3 logró una precisión del 87.5%, superando el rendimiento a nivel humano (85%) y mejoró significativamente sobre O1, que solo obtuvo el 32%.
¿Cómo usar OpenAI O3?
La liberación inicial de O3 es extremadamente restringida y limitada en disponibilidad.
En lugar de un lanzamiento público inmediato, tanto O3 como O3-Mini están inicialmente disponibles para pruebas de seguridad pública.
En el enfoque de pruebas de seguridad pública, los posibles usuarios deben solicitar acceso.
Los objetivos de proporcionar el modelo inicialmente solo para pruebas de seguridad son permitir a los investigadores hacer lo siguiente:
- Desarrollar evaluaciones extensas para implicaciones de seguridad.
- Crear demostraciones de potenciales capacidades de alto riesgo.
- Explore nuevos modelos de amenazas y análisis de seguridad.
Más allá de las primeras pruebas de seguridad, Openai planea hacer que O3-Mini esté disponible a fines de enero con la versión completa de O3 a seguir.
Operai O1 vs. OpenAI O3
Tanto O1 como O3 son modelos de razonamiento con la misma funcionalidad central. Los dos modelos muestran diferencias significativas en el rendimiento en varias tareas.
Por ejemplo, los puntajes de codificación ampliamente utilizados, como la calificación ELO de CodeForces, miden el nivel relativo de habilidad de programación. Una calificación ELO es una escala de calificación que originalmente se usa para calificar el rendimiento del jugador de ajedrez.
El siguiente cuadro describe las diferencias clave y puntajes de rendimiento de referencia de O1 vs. O3.
Característica | OpenAi O1 | OPERAI O3 |
Fecha de lanzamiento | 5 de diciembre de 2024 | Esperado enero de 2025 |
Variantes de modelo | Tres: O1, O1-Mini y O1 Pro | Dos: O3 y O3-Mini |
Puntuación de referencia Arc-Agi | 32% | 87.5% |
AIME 2024 SCORE (Matemáticas) | 83.3% | 96.7% |
Codesforces ELO Calificación (codificación) | 1891 (experto) | 2727 (Gran Maestro Internacional) |
Puntuación verificada de SWE-Bench (codificación) | 48.9% | 71.7% |
Capacidades de razonamiento | Básico | Avanzado (razonamiento simulado) |
Características de seguridad | Básico | Mejorado (alineación deliberativa) |
Sean Michael Kerner es un consultor de TI, entusiasta de la tecnología y tinkerer. Ha sacado el anillo de tokens, configurado NetWare y se sabe que compiló su propio kernel Linux. Consulta con organizaciones de la industria y los medios de comunicación sobre temas de tecnología.