Noticias

El próximo modelo de OpenAI plantea preguntas sobre los avances de la IA que se topan con un muro

Published

6 meses ago

11 noviembre, 2024

El próximo modelo de OpenAI está mostrando un ritmo de mejora más lento, según The Information.
Ha provocado un debate en Silicon Valley sobre si los modelos de IA están alcanzando un nivel de rendimiento.
El auge de la IA ha avanzado a buen ritmo porque los nuevos lanzamientos han sorprendido a los usuarios con enormes avances en el rendimiento.

El próximo modelo emblemático de inteligencia artificial de OpenAI está mostrando mejoras menores en comparación con iteraciones anteriores, según The Information, en una señal de que la floreciente industria de la IA generativa puede estar acercándose a una meseta.

El próximo modelo del fabricante de ChatGPT, Orion, solo mostró una mejora moderada con respecto al GPT-4, según algunos empleados que lo usaron o probaron, informó The Information. El salto en Orion ha sido menor que el dado de GPT-3 a GPT-4, especialmente en tareas de codificación, añade el informe.

Reaviva el debate sobre la viabilidad de desarrollar modelos e IA cada vez más avanzados Leyes de escala: las reglas teóricas sobre cómo mejoran los modelos.

Sam Altman, director ejecutivo de OpenAI publicado en X en febrero que “las leyes de escala las decide Dios; las constantes las determinan los miembros del personal técnico”.

Las “leyes” citadas por Altman sugieren que los modelos de IA se vuelven más inteligentes a medida que aumentan su tamaño y obtienen acceso a más datos y potencia informática.

Es posible que Altman todavía suscriba la opinión de que una fórmula predeterminada decide qué tan inteligente puede ser la IA, pero el informe de The Information muestra que el personal técnico está cuestionando esas leyes en medio de un feroz debate en Silicon Valley sobre la creciente evidencia de que los modelos líderes están chocando contra un muro de rendimiento.

OpenAI no respondió de inmediato a una solicitud de comentarios de Business Insider.

¿Las leyes de escalamiento han llegado a un callejón sin salida?

Si bien la capacitación de Orion aún no se ha completado, OpenAI ha recurrido a medidas adicionales para mejorar el rendimiento, como incorporar mejoras posteriores a la capacitación basadas en comentarios humanos, dijo The Information.

El modelo, presentado por primera vez hace un año, aún podría experimentar mejoras dramáticas antes de su lanzamiento. Pero es una señal de que las generaciones futuras de modelos de IA que han ayudado a las empresas a recaudar miles de millones de dólares y obtener valoraciones elevadas pueden parecer menos impresionantes con cada nueva iteración.

Hay dos razones principales por las que esto podría suceder.

El director ejecutivo de OpenAI, Sam Altman, cree firmemente en las “leyes de escala”.

Andrew Caballero-Reynolds/AFP/Getty Images

Los datos, un elemento vital de la ecuación de la ley de escala, han sido más difíciles de conseguir ya que las empresas han agotado rápidamente los datos disponibles en línea.

Han recopilado grandes cantidades de datos creados por humanos (incluidos textos, videos, artículos de investigación y novelas) para entrenar los modelos detrás de sus herramientas y funciones de inteligencia artificial, pero el suministro es limitado. La empresa de investigación Epoch AI predijo en junio que las empresas podrían agotar los datos textuales utilizables para 2028. Las empresas están tratando de superar las limitaciones recurriendo a datos sintéticos generados por la propia IA, pero eso también conlleva problemas.

“Para preguntas de conocimiento general, se podría argumentar que por ahora estamos viendo una meseta en el desempeño de los LLM”, dijo a The Information Ion Stoica, cofundador y presidente de la firma de software empresarial Databricks, y agregó que “datos factuales” Es más útil que los datos sintéticos.

La potencia informática, el otro factor que históricamente ha impulsado el rendimiento de la IA, tampoco es ilimitada. En un AMA de Reddit el mes pasado, Altman reconoció que su empresa enfrenta “muchas limitaciones y decisiones difíciles” sobre la asignación de sus recursos informáticos.

No es de extrañar que algunos expertos de la industria hayan comenzado a notar que los nuevos modelos de IA lanzados este año, así como los futuros, muestran evidencia de producir saltos más pequeños en el rendimiento que sus predecesores.

‘Rendimientos decrecientes’

Gary Marcus, profesor emérito de la Universidad de Nueva York y crítico abierto de la actual exageración de la IA, sostiene que el desarrollo de la IA está destinado a chocar contra una pared. Ha expresado claramente que muestra signos de “rendimientos decrecientes” y reaccionó a los informes de The Information con una publicación de Substack titulada “CONFIRMADO: Los LLM de hecho han alcanzado un punto de rendimiento decreciente”.

Cuando Anthropic, rival de OpenAI, lanzó su modelo Claude 3.5 en junio, Marcus descartó una publicación X que mostraba el rendimiento de Claude 3.5 con mejoras marginales sobre sus competidores en áreas como razonamiento a nivel de posgrado, código y matemáticas multilingües. Dijo que estaba en “el mismo estadio que muchos otros”.

El mercado de la IA ha gastado miles de millones de dólares tratando de derrotar a la competencia, sólo para lograr evidencia de “convergencia, en lugar de un crecimiento exponencial continuo”, dijo Marcus.

Ilya Sutskever, cofundador de OpenAI y ahora Safe Superintelligence, ha sugerido una idea similar. El lunes y siguiendo el reportaje de The Information, dijo a Reuters que los resultados de ampliar la capacitación previa se habían estancado, y agregó: “Ampliar lo correcto es más importante ahora que nunca”.

La industria de la IA seguirá buscando formas de generar grandes saltos en el rendimiento. El director ejecutivo de Anthropic, Dario Amodei, ha predicho que las ejecuciones de entrenamiento de modelos de IA entrarán en una nueva era el próximo año, en la que podrían costar 100 mil millones de dólares. Altman ha dicho anteriormente que entrenar ChatGPT-4 costó más de 100 millones de dólares. Queda por ver qué tan inteligente podría llegar a ser un modelo de IA cuando se le dedica tanto capital.

Optimismo en aumento

Otros líderes de Silicon Valley, incluido Altman, siguen siendo públicamente optimistas sobre el potencial de escalamiento actual de la IA. En julio, el director de tecnología de Microsoft, Kevin Scott, descartó las preocupaciones de que el progreso de la IA se hubiera estancado. “A pesar de lo que piensan otras personas, no estamos en rendimientos marginales decrecientes en la ampliación”, dijo Scott durante una entrevista con el podcast Training Data de Sequoia Capital.

También podría haber estrategias para hacer que los modelos de IA sean más inteligentes mejorando la parte de inferencia del desarrollo. La inferencia es el trabajo realizado para refinar los resultados de la IA una vez que han sido entrenados, utilizando datos que no se han visto antes.

El modelo OpenAI lanzado en septiembre, llamado OpenAI o1, se centró más en mejoras de inferencia. Logró superar a sus predecesores en tareas complejas, logrando un nivel de inteligencia similar al Ph.D. estudiantes en tareas de referencia en física, química y biología, según OpenAI.

Aún así, está claro que, al igual que Altman, gran parte de la industria sigue firme en su convicción de que las leyes de escala son el motor del rendimiento de la IA. Si los modelos futuros no convencen, cabe esperar una reevaluación del auge actual.