Noticias

Ahora puede ajustar la propia versión de su empresa del modelo de razonamiento O4-Mini de OpenAI con aprendizaje de refuerzo

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Operai anunció hoy en su cuenta centrada en el desarrollador en la red social X que los desarrolladores de software de terceros fuera de la compañía ahora pueden acceder a un refuerzo de refuerzo (RFT) para su nuevo modelo de razonamiento de lenguaje O4-Mini, que les permite personalizar una nueva versión privada de TI basada en los productos únicos de su empresa, terminología interna, objetivos, empleados, procesos y más.

Esencialmente, esta capacidad permite a los desarrolladores llevar el modelo a disposición del público en general y modificarlo para que se ajuste mejor a sus necesidades utilizando el tablero de plataformas de OpenAI.

Luego, pueden implementarlo a través de la interfaz de programación de aplicaciones (API) de OpenAI, otra parte de su plataforma de desarrollador, y conectarlo a sus computadoras, bases de datos y aplicaciones de empleados internos.

Una vez implementado, si un empleado o líder de la compañía quiere usarlo a través de un chatbot interno personalizado o OpenAi GPT personalizado para obtener conocimiento privado de la empresa propietaria; o para responder preguntas específicas sobre productos y políticas de la empresa; O generar nuevas comunicaciones y garantías en la voz de la compañía, pueden hacerlo más fácilmente con su versión RFT del modelo.

Sin embargo, una nota de advertencia: la investigación ha demostrado que los modelos ajustados pueden ser más propensos a jailbreaks y alucinaciones, ¡así que continúe con cautela!

Este lanzamiento expande las herramientas de optimización de modelos de la compañía más allá del ajuste fino (SFT) supervisado e introduce un control más flexible para tareas complejas y específicas de dominio.

Además, OpenAI anunció que el ajuste superior supervisado ahora es compatible con su modelo GPT-4.1 Nano, la oferta más asequible y más rápida de la compañía hasta la fecha.

¿Cómo ayuda a las organizaciones y empresas del ajuste de refuerzo (RFT)?

RFT crea una nueva versión del modelo de razonamiento O4-Mini de Openai que se adapta automáticamente a los objetivos del usuario, o a los de su empresa/organización.

Lo hace aplicando un circuito de retroalimentación durante la capacitación, que los desarrolladores de las grandes empresas (o incluso los desarrolladores independientes que trabajan por su cuenta) ahora pueden iniciarse de manera relativamente simple, fácil y asequible a través de la plataforma de desarrolladores en línea de OpenAI.

En lugar de capacitar en un conjunto de preguntas con respuestas correctas fijas, que es lo que hace el aprendizaje supervisado tradicional, RFT usa un modelo de grado para calificar múltiples respuestas candidatas por aviso.

El algoritmo de entrenamiento luego ajusta los pesos del modelo para que las salidas de alta puntuación se vuelvan más probables.

Esta estructura permite a los clientes alinear modelos con objetivos matizados, como el “estilo de casa” de comunicación y terminología de una empresa, reglas de seguridad, precisión objetiva o cumplimiento de políticas internas.

Para realizar RFT, los usuarios necesitan:

  1. Definir una función de calificación o usar graduadores basados ​​en modelos Operai.
  2. Cargue un conjunto de datos con indicaciones y divisiones de validación.
  3. Configure un trabajo de capacitación a través de API o el tablero de ajuste fino.
  4. Monitoree el progreso, revise los puntos de control e itera en datos o lógica de calificación.

RFT actualmente admite solo modelos de razonamiento de la serie O y está disponible para el modelo O4-Mini.

Casos de uso empresarial temprano

En su plataforma, Operai destacó a varios clientes tempranos que han adoptado RFT en diversas industrias:

  • Conformidad ai Usó RFT para ajustar un modelo para tareas complejas de análisis de impuestos, logrando una mejora del 39% en la precisión y superando todos los modelos líderes en los puntos de referencia de razonamiento de impuestos.
  • Atención médica del ambiente Aplicó RFT a la asignación de código médico ICD-10, aumentando el rendimiento del modelo en 12 puntos sobre las líneas de base médica en un conjunto de datos de panel de oro.
  • Cascarrabias Usó RFT para el análisis de documentos legales, mejorando las puntuaciones de la extracción de citas F1 en un 20% y coincidiendo con GPT-4O en precisión al tiempo que logran una inferencia más rápida.
  • Runloop Modelos ajustados para generar fragmentos de código API de rayas, utilizando calificadores de sintaxis y lógica de validación AST, logrando una mejora del 12%.
  • Milo Aplicó RFT a tareas de programación, aumentando la corrección en situaciones de alta complejidad por 25 puntos.
  • Kit de seguridad Usó RFT para hacer cumplir las políticas matizadas de moderación de contenido y un mayor modelo F1 del 86% al 90% en la producción.
  • Chipstack, Thomson Reutersy otros socios también demostraron ganancias de rendimiento en la generación de datos estructurados, tareas de comparación legal y flujos de trabajo de verificación.

Estos casos a menudo comparten características: definiciones claras de tareas, formatos de salida estructurados y criterios de evaluación confiables, todos esenciales para un ajuste fino de refuerzo efectivo.

RFT ya está disponible para organizaciones verificadas. Openai ofrece un descuento del 50% a los equipos que eligen compartir sus conjuntos de datos de capacitación con OpenAI para ayudar a mejorar los modelos futuros. Los desarrolladores interesados ​​pueden comenzar a usar la documentación RFT y el tablero de OpenAI.

Estructura de precios y facturación

A diferencia de supervisado o preferencia, ajuste, que se factura por token, RFT se factura en función del tiempo dedicado a la capacitación activa. Específicamente:

  • $ 100 por hora de tiempo de entrenamiento central (tiempo de pared durante el despliegue del modelo, calificación, actualizaciones y validación).
  • El tiempo es prorrateado por el segundo, redondeado a dos decimales (por lo que 1.8 horas de capacitación le costarían al cliente $ 180).
  • Los cargos se aplican solo al trabajo que modifica el modelo. Las colas, los controles de seguridad y las fases de configuración de inactividad no se facturan.
  • Si el usuario emplea modelos Operai como alumnos (por ejemplo, GPT-4.1), los tokens de inferencia consumidos durante la clasificación se facturan por separado a las tarifas de API estándar de OpenAI. De lo contrario, la compañía puede usar modelos externos, incluidos los de código abierto, como calificadores.

Aquí hay un ejemplo de desglose de costos:

GuiónTiempo facturableCosto
4 horas de entrenamiento4 horas$ 400
1.75 horas (prorrateado)1.75 horas$ 175
2 horas de entrenamiento + 1 hora perdida (debido a la falla)2 horas$ 200

Este modelo de precios proporciona transparencia y recompensa un diseño de trabajo eficiente. Para controlar los costos, Openai alienta a los equipos a:

  • Use alumnos livianos o eficientes cuando sea posible.
  • Evite la validación demasiado frecuente a menos que sea necesario.
  • Comience con conjuntos de datos más pequeños o ejecuciones más cortas para calibrar las expectativas.
  • Monitoree la capacitación con API o herramientas de tablero y haga una pausa según sea necesario.

OpenAI utiliza un método de facturación llamado “progreso hacia adelante capturado”, lo que significa que los usuarios solo se facturan por los pasos de capacitación modelo que se completaron y retuvieron con éxito.

Entonces, ¿debería su organización invertir en RFT en una versión personalizada del O4-Mini de OpenAI o no?

El refuerzo de ajuste fino introduce un método más expresivo y controlable para adaptar modelos de lenguaje a casos de uso del mundo real.

Con soporte para salidas estructuradas, calificadores basados ​​en código y basados ​​en modelos, y el control de API completo, RFT permite un nuevo nivel de personalización en la implementación del modelo. El despliegue de Openai enfatiza el diseño de tareas reflexivo y la evaluación robusta como claves para el éxito.

Los desarrolladores interesados ​​en explorar este método pueden acceder a la documentación y ejemplos a través del tablero de ajuste de OpenAI.

Para las organizaciones con problemas claramente definidos y respuestas verificables, RFT ofrece una forma convincente de alinear modelos con objetivos operativos o de cumplimiento, sin construir infraestructura RL desde cero.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version