Connect with us

Noticias

El próximo modelo de OpenAI plantea preguntas sobre los avances de la IA que se topan con un muro

Published

on

  • El próximo modelo de OpenAI está mostrando un ritmo de mejora más lento, según The Information.
  • Ha provocado un debate en Silicon Valley sobre si los modelos de IA están alcanzando un nivel de rendimiento.
  • El auge de la IA ha avanzado a buen ritmo porque los nuevos lanzamientos han sorprendido a los usuarios con enormes avances en el rendimiento.

El próximo modelo emblemático de inteligencia artificial de OpenAI está mostrando mejoras menores en comparación con iteraciones anteriores, según The Information, en una señal de que la floreciente industria de la IA generativa puede estar acercándose a una meseta.

El próximo modelo del fabricante de ChatGPT, Orion, solo mostró una mejora moderada con respecto al GPT-4, según algunos empleados que lo usaron o probaron, informó The Information. El salto en Orion ha sido menor que el dado de GPT-3 a GPT-4, especialmente en tareas de codificación, añade el informe.

Reaviva el debate sobre la viabilidad de desarrollar modelos e IA cada vez más avanzados Leyes de escala: las reglas teóricas sobre cómo mejoran los modelos.

Sam Altman, director ejecutivo de OpenAI publicado en X en febrero que “las leyes de escala las decide Dios; las constantes las determinan los miembros del personal técnico”.

Las “leyes” citadas por Altman sugieren que los modelos de IA se vuelven más inteligentes a medida que aumentan su tamaño y obtienen acceso a más datos y potencia informática.

Es posible que Altman todavía suscriba la opinión de que una fórmula predeterminada decide qué tan inteligente puede ser la IA, pero el informe de The Information muestra que el personal técnico está cuestionando esas leyes en medio de un feroz debate en Silicon Valley sobre la creciente evidencia de que los modelos líderes están chocando contra un muro de rendimiento.

OpenAI no respondió de inmediato a una solicitud de comentarios de Business Insider.

¿Las leyes de escalamiento han llegado a un callejón sin salida?

Si bien la capacitación de Orion aún no se ha completado, OpenAI ha recurrido a medidas adicionales para mejorar el rendimiento, como incorporar mejoras posteriores a la capacitación basadas en comentarios humanos, dijo The Information.

El modelo, presentado por primera vez hace un año, aún podría experimentar mejoras dramáticas antes de su lanzamiento. Pero es una señal de que las generaciones futuras de modelos de IA que han ayudado a las empresas a recaudar miles de millones de dólares y obtener valoraciones elevadas pueden parecer menos impresionantes con cada nueva iteración.

Hay dos razones principales por las que esto podría suceder.


Sam Altman, director ejecutivo de OpenAI.

El director ejecutivo de OpenAI, Sam Altman, cree firmemente en las “leyes de escala”.

Andrew Caballero-Reynolds/AFP/Getty Images



Los datos, un elemento vital de la ecuación de la ley de escala, han sido más difíciles de conseguir ya que las empresas han agotado rápidamente los datos disponibles en línea.

Han recopilado grandes cantidades de datos creados por humanos (incluidos textos, videos, artículos de investigación y novelas) para entrenar los modelos detrás de sus herramientas y funciones de inteligencia artificial, pero el suministro es limitado. La empresa de investigación Epoch AI predijo en junio que las empresas podrían agotar los datos textuales utilizables para 2028. Las empresas están tratando de superar las limitaciones recurriendo a datos sintéticos generados por la propia IA, pero eso también conlleva problemas.

“Para preguntas de conocimiento general, se podría argumentar que por ahora estamos viendo una meseta en el desempeño de los LLM”, dijo a The Information Ion Stoica, cofundador y presidente de la firma de software empresarial Databricks, y agregó que “datos factuales” Es más útil que los datos sintéticos.

La potencia informática, el otro factor que históricamente ha impulsado el rendimiento de la IA, tampoco es ilimitada. En un AMA de Reddit el mes pasado, Altman reconoció que su empresa enfrenta “muchas limitaciones y decisiones difíciles” sobre la asignación de sus recursos informáticos.

No es de extrañar que algunos expertos de la industria hayan comenzado a notar que los nuevos modelos de IA lanzados este año, así como los futuros, muestran evidencia de producir saltos más pequeños en el rendimiento que sus predecesores.

‘Rendimientos decrecientes’

Gary Marcus, profesor emérito de la Universidad de Nueva York y crítico abierto de la actual exageración de la IA, sostiene que el desarrollo de la IA está destinado a chocar contra una pared. Ha expresado claramente que muestra signos de “rendimientos decrecientes” y reaccionó a los informes de The Information con una publicación de Substack titulada “CONFIRMADO: Los LLM de hecho han alcanzado un punto de rendimiento decreciente”.

Cuando Anthropic, rival de OpenAI, lanzó su modelo Claude 3.5 en junio, Marcus descartó una publicación X que mostraba el rendimiento de Claude 3.5 con mejoras marginales sobre sus competidores en áreas como razonamiento a nivel de posgrado, código y matemáticas multilingües. Dijo que estaba en “el mismo estadio que muchos otros”.

El mercado de la IA ha gastado miles de millones de dólares tratando de derrotar a la competencia, sólo para lograr evidencia de “convergencia, en lugar de un crecimiento exponencial continuo”, dijo Marcus.

Ilya Sutskever, cofundador de OpenAI y ahora Safe Superintelligence, ha sugerido una idea similar. El lunes y siguiendo el reportaje de The Information, dijo a Reuters que los resultados de ampliar la capacitación previa se habían estancado, y agregó: “Ampliar lo correcto es más importante ahora que nunca”.

La industria de la IA seguirá buscando formas de generar grandes saltos en el rendimiento. El director ejecutivo de Anthropic, Dario Amodei, ha predicho que las ejecuciones de entrenamiento de modelos de IA entrarán en una nueva era el próximo año, en la que podrían costar 100 mil millones de dólares. Altman ha dicho anteriormente que entrenar ChatGPT-4 costó más de 100 millones de dólares. Queda por ver qué tan inteligente podría llegar a ser un modelo de IA cuando se le dedica tanto capital.

Optimismo en aumento

Otros líderes de Silicon Valley, incluido Altman, siguen siendo públicamente optimistas sobre el potencial de escalamiento actual de la IA. En julio, el director de tecnología de Microsoft, Kevin Scott, descartó las preocupaciones de que el progreso de la IA se hubiera estancado. “A pesar de lo que piensan otras personas, no estamos en rendimientos marginales decrecientes en la ampliación”, dijo Scott durante una entrevista con el podcast Training Data de Sequoia Capital.

También podría haber estrategias para hacer que los modelos de IA sean más inteligentes mejorando la parte de inferencia del desarrollo. La inferencia es el trabajo realizado para refinar los resultados de la IA una vez que han sido entrenados, utilizando datos que no se han visto antes.

El modelo OpenAI lanzado en septiembre, llamado OpenAI o1, se centró más en mejoras de inferencia. Logró superar a sus predecesores en tareas complejas, logrando un nivel de inteligencia similar al Ph.D. estudiantes en tareas de referencia en física, química y biología, según OpenAI.

Aún así, está claro que, al igual que Altman, gran parte de la industria sigue firme en su convicción de que las leyes de escala son el motor del rendimiento de la IA. Si los modelos futuros no convencen, cabe esperar una reevaluación del auge actual.

Continue Reading

Noticias

¿Puede ChatGPT pasar la prueba de Turing? Lo que dice la investigación.

Published

on

Los chatbots de inteligencia artificiales como ChatGPT se están volviendo mucho más inteligentes, mucho más naturales y mucho más … como humanos. Tiene sentido: los humanos son los que crean los modelos de idiomas grandes que sustentan los sistemas de chatbots de IA, después de todo. Pero a medida que estas herramientas mejoran en “razonamiento” e imitan el discurso humano, ¿son lo suficientemente inteligentes como para aprobar la prueba de Turing?

Durante décadas, la prueba de Turing se ha mantenido como un punto de referencia clave en la inteligencia de máquinas. Ahora, los investigadores en realidad están poniendo a prueba LLM como ChatGPT. Si ChatGPT puede pasar, el logro sería un hito importante en el desarrollo de IA.

Entonces, ¿puede ChatGPT pasar la prueba de Turing? Según algunos investigadores, sí. Sin embargo, los resultados no son completamente definitivos. La prueba de Turing no es un simple pase/falla, lo que significa que los resultados no son realmente en blanco y negro. Además, incluso si ChatGPT podría pasar la prueba de Turing, eso puede no decirnos realmente cuán “humano” es realmente un LLM.

Vamos a desglosarlo.

¿Cuál es la prueba de Turing?

El concepto de la prueba de Turing es realmente bastante simple.

La prueba fue originalmente propuesta por el matemático británico Alan Turing, el padre de la informática moderna y un héroe para los nerds de todo el mundo. En 1949 o 1950, propuso el juego de imitación, una prueba de inteligencia de máquinas que desde entonces ha sido nombrada por él. La prueba de Turing implica que un juez humano tenga una conversación con un humano y una máquina sin saber cuál es cuál (o quién es quién, si crees en AGI). Si el juez no puede decir cuál es la máquina y cuál es la humana, la máquina pasa la prueba de Turing. En un contexto de investigación, la prueba se realiza muchas veces con múltiples jueces.

Por supuesto, la prueba no puede determinar necesariamente si un modelo de lenguaje grande es realmente tan inteligente como un humano (o más inteligente), solo si es capaz de pasar por un humano.

¿Los LLM realmente piensan como nosotros?

Los modelos de lenguaje grande, por supuesto, no tienen cerebro, conciencia o modelo mundial. No son conscientes de su propia existencia. También carecen de opiniones o creencias verdaderas.

En cambio, los modelos de idiomas grandes se capacitan en conjuntos de datos masivos de información: libros, artículos de Internet, documentos, transcripciones. Cuando un usuario ingresa el texto, el modelo AI usa su “razonamiento” para determinar el significado y la intención más probables de la entrada. Luego, el modelo genera una respuesta.

En el nivel más básico, los LLM son motores de predicción de palabras. Utilizando sus vastas datos de entrenamiento, calculan las probabilidades para el primer “token” (generalmente una sola palabra) de la respuesta utilizando su vocabulario. Repiten este proceso hasta que se genera una respuesta completa. Esa es una simplificación excesiva, por supuesto, pero mantengámoslo simple: las LLM generan respuestas a la entrada en función de la probabilidad y las estadísticas. Entonces, la respuesta de un LLM se basa en las matemáticas, no en una comprensión real del mundo.

Velocidad de luz mashable

Entonces, no, LLM no en realidad pensar en cualquier sentido de la palabra.

¿Qué dicen los estudios sobre ChatGPT y la prueba de Turing?

Joseph Maldonado / Mashable Composite por Rene Ramos
Crédito: Mashable

Ha habido bastantes estudios para determinar si ChatGPT ha aprobado la prueba de Turing, y muchos de ellos han tenido hallazgos positivos. Es por eso que algunos informáticos argumentan que, sí, modelos de idiomas grandes como GPT-4 y GPT-4.5 ahora pueden pasar la famosa prueba de Turing.

La mayoría de las pruebas se centran en el modelo GPT-4 de Openai, el que usa la mayoría de los usuarios de ChatGPT. Usando ese modelo, un Estudio de UC San Diego descubrieron que en muchos casos, los jueces humanos no pudieron distinguir GPT-4 de un humano. En el estudio, se consideró que GPT-4 era un humano el 54% del tiempo. Sin embargo, esto aún se quedó atrás de los humanos reales, que se consideró humano el 67% del tiempo.

Luego, se lanzó GPT-4.5, y los investigadores de UC San Diego Realizó el estudio nuevamente. Esta vez, el modelo de lenguaje grande se identificó como humano el 73% del tiempo, superando a los humanos reales. La prueba también encontró que el Llama-3.1-405b de Meta Meta pudo aprobar la prueba.

Otros estudios fuera de UC San Diego también han dado calificaciones de aprobación de GPT. Un 2024 Estudio de la Universidad de Reading de GPT-4 El modelo había creado respuestas para evaluaciones para llevar a casa para cursos de pregrado. Los alumnos de prueba no se les informó sobre el experimento, y solo marcaron una de las 33 entradas. ChatGPT recibió calificaciones anteriores al promedio con las otras 32 entradas.

Entonces, ¿son estos estudios? definitivo? No exactamente. Algunos críticos (y hay muchos) dicen que estos estudios de investigación no son tan impresionantes como parecen. Es por eso que no estamos listos para decir definitivamente que ChatGPT pasa la prueba de Turing.

Podemos decir que si bien los LLM de generación anterior como GPT-4 a veces pasan la prueba de Turing, los grados de aprobación se están volviendo más comunes a medida que los LLM se avanzan más. Y a medida que salen modelos de vanguardia como GPT-4.5, nos dirigimos rápidamente hacia modelos que pueden pasar fácilmente la prueba de Turing cada vez.

Operai en sí ciertamente imagina un mundo en el que es imposible distinguir a los humanos de la IA. Es por eso que el CEO de Operai, Sam Altman, ha invertido en un proyecto de verificación humana con una máquina de escaneo de globo ocular llamada Orbe.

¿Qué dice Chatgpt en sí mismo?

Decidimos preguntarle a ChatGPT si podía pasar la prueba de Turing, y nos dijo que sí, con las mismas advertencias que ya hemos discutido. Cuando planteamos la pregunta, “¿Puede Chatgpt pasar la prueba de Turing?” al chatbot Ai (usando el modelo 4o), nos dijo: “Chatgpt poder Pase la prueba de Turing en algunos escenarios, pero no de manera confiable o universal. “El chatbot concluyó:” Podría pasar la prueba de Turing con un usuario promedio en condiciones casuales, pero un interrogador determinado y reflexivo casi siempre podría desenmascararla “.

Una captura de pantalla de ChatGPT que muestra la respuesta al mensaje 'puede chatgpt pasar la prueba turing'

Imagen generada por IA.
Crédito: OpenAI

Las limitaciones de la prueba de Turing

Algunos científicos informáticos ahora creen que la prueba de Turing está desactualizada, y que no es tan útil para juzgar modelos de idiomas grandes. Gary Marcus, psicólogo estadounidense, científico cognitivo, autor y pronóstico popular de IA, lo resumió mejor en una publicación de blog reciente, donde escribió: “Como yo (y muchos otros) he dicho por añosLa prueba de Turing es una prueba de credulidad humana, no una prueba de inteligencia “.

También vale la pena tener en cuenta que la prueba de Turing se trata más de la percepción de inteligencia en lugar de actual inteligencia. Esa es una distinción importante. Un modelo como ChatGPT 4O podría pasar simplemente imitando el discurso humano. No solo eso, sino si un modelo de idioma grande pasa o no la prueba variará según el tema y el probador. ChatGPT podría simular fácilmente una pequeña charla, pero podría tener dificultades con las conversaciones que requieren una verdadera inteligencia emocional. No solo eso, sino que los sistemas de IA modernos se usan para mucho más que chatear, especialmente cuando nos dirigimos hacia un mundo de IA agente.

Nada de eso es decir que la prueba de Turing es irrelevante. Es un punto de referencia histórico ordenado, y ciertamente es interesante que los modelos de idiomas grandes puedan pasarlo. Pero la prueba de Turing no es el punto de referencia estándar de oro de la inteligencia de la máquina. ¿Cómo sería un mejor punto de referencia? Esa es otra lata de gusanos que tendremos que ahorrar para otra historia.


Divulgación: Ziff Davis, empresa matriz de Mashable, presentó en abril una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.

Temas
Inteligencia artificial

Continue Reading

Trending