Noticias

Los nuevos modelos GPT-4.1 de OpenAI pueden procesar un millón de tokens y resolver problemas de codificación mejor que nunca

Published

on

Operai lanzó una nueva familia de modelos de IA esta mañana que mejoran significativamente las habilidades de codificación mientras reducen los costos, respondiendo directamente a la creciente competencia en el mercado de IA empresarial.

La compañía AI con sede en San Francisco introdujo tres modelos: GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano, todos disponibles inmediatamente a través de su API. La nueva alineación funciona mejor en las tareas de ingeniería de software, sigue las instrucciones con mayor precisión y puede procesar hasta un millón de tokens de contexto, equivalente a aproximadamente 750,000 palabras.

“GPT-4.1 ofrece un rendimiento excepcional a un costo más bajo”, dijo Kevin Weil, director de productos de Operai, durante el anuncio del lunes. “Estos modelos son mejores que GPT-4O en casi todas las dimensiones”.

Quizás lo más importante para los clientes empresariales es el precio: GPT-4.1 costará un 26% menos que su predecesor, mientras que la versión nano liviana se convierte en la oferta más asequible de OpenAI en solo 12 centavos por millón de tokens.

https://www.youtube.com/watch?v=ka-p9ood-ce

Cómo las mejoras de GPT-4.1 dirigen los puntos débiles de los desarrolladores empresariales más grandes

En una entrevista sincera con VentureBeat, Michelle Pokrass, el líder de investigación posterior a la capacitación en OpenAI, enfatizó que las aplicaciones comerciales prácticas impulsaron el proceso de desarrollo.

“GPT-4.1 fue entrenado con un objetivo: ser útil para los desarrolladores”, dijo Pokrass a VentureBeat. “Hemos encontrado que GPT-4.1 es mucho mejor para seguir los tipos de instrucciones que las empresas usan en la práctica, lo que hace que sea mucho más fácil implementar aplicaciones listas para la producción”.

Este enfoque en la utilidad del mundo real se refleja en los resultados de referencia. En SWE-Bench Verified, que mide las capacidades de ingeniería de software, GPT-4.1 obtuvo un 54.6%, una mejora sustancial de 21.4 puntos porcentuales sobre GPT-4O.

Para las empresas que desarrollan agentes de IA que trabajan independientemente en tareas complejas, las mejoras en la instrucción siguiente son particularmente valiosas. En el punto de referencia multichallenge de Scale, GPT-4.1 obtuvo un 38.3%, superando a GPT-4O por 10.5 puntos porcentuales.

¿Por qué la estrategia modelo de tres niveles de OpenAI desafía a los competidores como Google y Anthrope?

La introducción de tres modelos distintos a diferentes precios aborda el mercado de IA diversificante. El buque insignia GPT-4.1 se dirige a aplicaciones empresariales complejas, mientras que las versiones Mini y Nano abordan los casos de uso en los que la velocidad y la eficiencia son prioridades.

“No todas las tareas necesitan las capacidades más inteligentes o principales”, dijo Pokrass a VentureBeat. “Nano será un modelo de caballos de batalla para casos de uso como autocompletar, clasificación, extracción de datos o cualquier otra cosa donde la velocidad sea la principal preocupación”.

Simultáneamente, Openai anunció planes para depreciar la vista previa de GPT-4.5, su modelo más grande y caro lanzado hace solo dos meses, desde su API antes del 14 de julio. La compañía posicionó GPT-4.1 como un reemplazo más rentable que ofrece “rendimiento mejorado o similar en muchas capacidades clave a un costo y latencia mucho más bajos”.

Este movimiento le permite a Openai reclamar recursos informáticos al tiempo que proporciona a los desarrolladores una alternativa más eficiente a su oferta más costosa, que había tenido un precio de $ 75 por millón de tokens de entrada y $ 150 por millón de tokens de salida.

Resultados del mundo real: cómo Thomson Reuters, Carlyle y Windsurf están aprovechando GPT-4.1

Varios clientes empresariales que probaron los modelos antes del lanzamiento informaron mejoras sustanciales en sus dominios específicos.

Thomson Reuters vio una mejora del 17% en la precisión de la revisión de documentos múltiples cuando se usa GPT-4.1 con su asistente legal de IA, Cocounsel. Esta mejora es particularmente valiosa para flujos de trabajo legales complejos que involucran largos documentos con relaciones matizadas entre cláusulas.

La firma financiera Carlyle reportó un 50% de mejor rendimiento al extraer datos financieros granulares de documentos densos, una capacidad crítica para el análisis de inversiones y la toma de decisiones.

Varun Mohan, CEO del proveedor de herramientas de codificación Windsurf (anteriormente Codeium), compartió métricas de rendimiento detalladas durante el anuncio.

“Descubrimos que GPT-4.1 reduce la cantidad de veces que necesita leer archivos innecesarios en un 40% en comparación con otros modelos principales, y también modifica archivos innecesarios 70% menos”, dijo Mohan. “El modelo también es sorprendentemente menos detallado … GPT-4.1 es 50% menos detallado que otros modelos principales”.

Contexto del millón de token: lo que las empresas pueden hacer con 8 veces más capacidad de procesamiento

Los tres modelos cuentan con una ventana de contexto de un millón de tokens, ocho veces más grandes que el límite de tokens de GPT-4O. Esta capacidad ampliada permite que los modelos procesen múltiples documentos largos o bases de código enteras a la vez.

En una demostración, OpenAI mostró que GPT-4.1 analizó un archivo de registro del servidor NASA de 450,000 token desde 1995, identificando una entrada anómala que se esconde en lo profundo de los datos. Esta capacidad es particularmente valiosa para tareas que involucran grandes conjuntos de datos, como repositorios de código o colecciones de documentos corporativos.

Sin embargo, Openai reconoce la degradación del rendimiento con entradas extremadamente grandes. En su prueba interna de OpenAI-MRCR, la precisión disminuyó de alrededor del 84% con 8,000 tokens a 50% con un millón de tokens.

Cómo el paisaje de IA Enterprise está cambiando a medida que Google, Anthrope y OpenAI compiten por los desarrolladores

El lanzamiento se produce cuando la competencia en el espacio de IA Enterprise se calienta. Google lanzó recientemente Gemini 2.5 Pro con una ventana de contexto comparable de un millón de token, mientras que el soneto Claude 3.7 de Anthrope ha ganado tracción con las empresas que buscan alternativas a las ofertas de Openi.

La startup china de IA Deepseek también mejoró recientemente sus modelos, ejerciendo presión adicional sobre Operai para mantener su posición de liderazgo.

“Ha sido realmente genial ver cómo las mejoras en la comprensión del contexto largo se han traducido en un mejor rendimiento en verticales específicos como el análisis legal y la extracción de datos financieros”, dijo Pokrass. “Hemos descubierto que es fundamental probar nuestros modelos más allá de los puntos de referencia académicos y asegurarnos de que funcionen bien con las empresas y desarrolladores”.

Al lanzar estos modelos específicamente a través de su API en lugar de ChatGPT, OpenAI señala su compromiso con los desarrolladores y los clientes empresariales. La compañía planea incorporar gradualmente las características de GPT-4.1 al CHATGPT con el tiempo, pero el enfoque principal permanece en proporcionar herramientas sólidas para las empresas que construyen aplicaciones especializadas.

Para fomentar más investigaciones en el procesamiento de contexto a largo plazo, OpenAI está lanzando dos conjuntos de datos de evaluación: OpenAI-MRCR para probar habilidades de coreferencia múltiple y gráficos para evaluar un razonamiento complejo en largos documentos.

Para los tomadores de decisiones empresariales, la familia GPT-4.1 ofrece un enfoque más práctico y rentable para la implementación de IA. A medida que las organizaciones continúan integrando la IA en sus operaciones, estas mejoras en la confiabilidad, la especificidad y la eficiencia podrían acelerar la adopción entre las industrias que aún sopesan los costos de implementación contra los beneficios potenciales.

Si bien los competidores persiguen modelos más grandes y costosos, el pivote estratégico de OpenAI con GPT-4.1 sugiere que el futuro de la IA puede no pertenecer a los modelos más grandes, sino a los más eficientes. El verdadero avance puede no estar en los puntos de referencia, sino en llevar la IA de grado empresarial al alcance de más negocios que nunca.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version