Noticias

Operai afirma que su nuevo chatbot GPT-4.5 debería ‘alucinar menos’. ¿Cómo se mide eso?

Published

on

Cualquiera que haya jugado con un chatbot generativo de inteligencia artificial (IA) durante más de unos minutos sabe que comete errores.

Estos errores, denominados “alucinaciones”, pueden tener graves consecuencias, como cuando describen falsamente a las personas como delincuentes.

La compañía de IA de EE. UU. Openai afirma que la última iteración de su software, GPT-4.5, debería “alucinar menos”.

La compañía desarrolló su propio sistema de medición, anunciado a fines del año pasado, para respaldar este reclamo.

Entonces, ¿cómo podemos juzgar las alucinaciones de la IA, y podemos esperar que los chatbots se vuelvan más precisos?

Cómo Operai probó sus modelos para las alucinaciones

Operai lanzó su propia herramienta para juzgar la precisión de sus modelos, un “punto de referencia” que llamaron Simpleqa, en noviembre de 2024.

Simpleqa es esencialmente un cuestionario de pub largo y difícil. Le da a los chatbots una lista de miles de preguntas cortas, 4,326 para ser precisos, cada uno de los cuales tiene una sola respuesta correcta.

Si bien todas las respuestas se pueden verificar con una búsqueda en Internet, no son exactamente conocimiento común. Las preguntas (y las respuestas) incluyen:

  • ¿Quién recibió el Premio Frank Rosenblatt del Instituto de Ingenieros Eléctricos y Electrónicos en 2010? (Michio Sugeno)
  • ¿Qué mes, día y año hicieron la segunda sesión de los 4?th ¿Comienza el Parlamento de Singapur? (26 de diciembre de 1978)
  • ¿Qué club de fútbol ganó el Hessenpokal inaugural? (Eintracht Frankfurt)

En un estudio previo a la impresión (no revisado por pares) publicado el año pasado, los investigadores de Operai que desarrollaron SimpleQA dijeron que diseñaron el sistema para ser desafiante.

Dieron una lista mucho más larga de preguntas a cuatro modelos Operai, y agregaron preguntas a la lista final de SimpleQA si al menos uno de los modelos se equivocó.

Luego Openai corrió GPT-4.5 a través del cuestionario, encontrándolo alucinado el 37 por ciento del tiempo.

Si bien obtener más de un tercio de las respuestas equivocadas no es una gran puntuación de prueba, fue significativamente mejor que todos los otros modelos Operai que probaron. El siguiente modelo GPT más reciente, GPT-4O, alucinó el 62 por ciento del tiempo.

Pero Daswin de Silva, investigador de IA en la Universidad de La Trobe, dice que este sistema no es una excelente manera de verificar la precisión.

“Este tipo de evaluación es defectuosa desde el principio”, dice.

Esto se debe en parte a que es un sistema de verificación interno, pero también porque no evalúa lo que ChatGPT es más utilizado: respuestas más largas y complicadas.

Daswin de Silva es subdirector del Centro de Análisis de Datos y Cognición de la Universidad de La Trobe. (Suministrado: Universidad de La Trobe)

“Solo se trata de consultas cortas basadas en hechos y ese no es realmente el caso de primer uso para ChatGPT. Nos gusta escribir documentos más largos usando esta herramienta”, dice el profesor de Silva.

Openai reconoce esta limitación, y los investigadores dicen en su estudio que aún no saben si la precisión en las respuestas cortas se traduce en precisión en respuestas más largas.

Y si tiene una consulta simple, la tasa de error de SimpleQA muestra que es mejor que use un motor de búsqueda.

¿Hay una buena manera de probar la precisión de la IA?

SimpleQA no es el único método para clasificar la precisión de la IA.

Para juzgar este tipo de modelos de IA, que se llaman modelos de idiomas grandes (LLM), existen otras herramientas y puntos de referencia como SelfCheckgpt, Chatbot Arena, Deepeval y Arc-AGI.

Pero todos tienen un problema común: se convierten en objetivos para que la IA entrene.

Geoff Webb, investigador de IA en la Universidad de Monash, dice que toda la informática es vulnerable a esto.

“Tan pronto como tenga un punto de referencia que establezca un tipo particular de prueba, las personas comienzan a los sistemas de capacitación en ellos”, dice.

Hacer un mejor programa para cumplir con un punto de referencia específico no significa necesariamente que será mejor en general.

Por ejemplo, podría diseñar un chatbot que no hiciera nada más que responder a las 4,326 preguntas de SimpleQa correctamente, por lo que obtuvo un puntaje 100 por ciento en esa medida, pero no podía decirle si el cielo era azul.

El profesor Webb dice que este sesgo puede ser sutil. Es posible que las personas no entrenen deliberadamente un sistema en las preguntas de SimpleQA, pero podrían elegir desarrollos de sus sistemas que conduzcan a puntajes SIMPLOQA más altos (u otros puntajes de referencia).

Niusha Shafiabady, investigadora de IA en la Universidad Católica Australiana, dice que la intervención humana podría ser una buena manera de juzgar y administrar la precisión de los LLM.

“Tal vez dentro de 10 años, no necesitaríamos eso, pero en esta etapa diría que la supervisión humana es algo bueno para integrarse en nuestro proceso”.

Ella sugiere que los humanos que revisan las respuestas al azar, de la misma manera que los fabricantes a menudo inspeccionan muestras, podrían convertirse en un control de calidad útil.

El profesor de Silva dice que una mejor manera de juzgar el éxito de LLM es cuánto se usa.

“La superioridad en las métricas de evaluación no siempre significa que será útil en un contexto general.“

Él dice que el copiloto de Microsoft, que se basa en GPT-4, podría verse como un mejor desempeño que sus competidores porque se ha adoptado muy ampliamente.

“Ese en sí mismo es otro tipo de métrica de evaluación más general e implícita”.

¿Cómo puede AIS alucinar menos?

Operai es vago sobre lo que se hace para mejorar la precisión de GPT más allá de “escalar el cálculo y los datos”.

Pero, ¿es esta última mejora (en una prueba específica) una señal de que AIS cometerá menos errores? ¿O hay un límite para cuánto pueden mejorar?

Géminis, de Google AI, y el copilot de Microsoft también son LLM. (Getty Images: Robert Way)

El problema con simplemente agregar más datos de capacitación a un LLM es que los datos no son necesariamente precisos, según el profesor Webb.

“La gente escribe cosas raras”, dice.

El profesor de Silva dice que el modelo actual de mejorar las LLM, agregar más datos y más potencia informática, no puede seguir mejorando indefinidamente.

“Tal vez a fines del año pasado, las compañías de IA habían consumido todos los datos útiles disponibles para capacitar a un modelo de idioma grande”, dice.

“Eso significa que hay un inconveniente significativo en las nuevas capacidades para los LLM”.

ChatGPT se lanzó a fines de 2022, y actualmente se basa en el GPT-4O LLM. (ABC Gold Coast: Dominic Cansdale)

A fines del año pasado, varios medios de comunicación y tecnología comenzaron a informar sus susurros de la industria de que los modelos de IA estaban golpeando un muro, y alcanzando un punto en el que poner más recursos no hizo un mejor LLM.

Es una sugerencia rechazada por el CEO de Operai, Sam Altman, quien publicó “No hay muro” en X en noviembre de 2024.

Sin embargo, el profesor de Silva cree que las empresas que viajan en el auge de la IA simplemente son lentos para admitir la existencia del muro.

“Creo que hemos llegado a la pared en términos de construcción de modelos tan grandes”, dice.

“El próximo salto será en una forma completamente nueva e innovadora de aprender de grandes conjuntos de datos.“

¿Podrías hacer una IA que nunca alucinada?

Si la precisión está mejorando o no, la IA generativa en su formato actual nunca estará libre de alucinaciones.

Y esto no es solo porque se alimentan de datos a veces inactivos, dice el profesor Webb.

“Estos sistemas no pueden ser entrenados para decir la verdad todo el tiempo, porque no sabemos cuál es la verdad para algunas cosas.“

Cuando se le preguntó si había un dios, ChatGPT respondió diciendo que había una “gama de perspectivas” y luego preguntó qué pensaba el usuario.

Muchas preguntas menos desafiantes existencialmente también pueden ser difíciles de responder con precisión, particularmente cuando se les cobra política o culturalmente.

Por ejemplo, cuando se le preguntó sobre el cuerpo de agua frente a la costa de Texas, Chatgpt lo llamó el Golfo de México. En este caso, no reconoció la reciente orden ejecutiva del presidente de Estados Unidos, Donald Trump de cambiar el nombre del “Golfo de América”.

A menudo se requieren alucinaciones

El Dr. Shafiabady señala que a menudo los usuarios quieren que la IA generativa alucine. Todas las imágenes generadas por IA son alucinaciones, por ejemplo.

“Generar la información es algo que queremos que haga. No queremos que sea un motor de búsqueda”, dice ella.

Si desea un modelo que sea capaz de generar cosas que aún no existan en su conjunto de datos, los usuarios no pueden evitar que lo invente. Un modelo que solo le dijo hechos precisos no es un modelo que podría, por ejemplo, sugerir nombres para un nuevo negocio o redactar un plan de ejercicio o comida personalizada.

La palabra “alucinación” ha sido cuestionada por varias personas, quizás lo más provocativamente por un trío de investigadores del Reino Unido el año pasado. Sugirieron que todos los LLM producen “mierda” en un sentido técnico: información sin tener en cuenta su precisión.

Pero otros modelos de IA generativos están en construcción. Operai ha lanzado otros modelos, llamados O1 y O3, que razonan más que los modelos GPT basados ​​en palabras.

El profesor de Silva dice que una combinación de estos dos modelos, que podría ser como se ve GPT-5, en última instancia, podría hacer un chatbot más confiable.

“Tiene que ser GPT más algo más”, dice.

Pero un nuevo modelo, construido desde cero, aún podría ser vulnerable a los problemas.

El profesor Webb dice que estos sistemas naturalmente encarnan sesgo, cultura y valores.

“Actualmente, los sesgos, culturas y valores son norteamericanos.

“Se está realizando un gran esfuerzo en lo que se denomina ‘eliminar el sesgo’ de estos sistemas, pero se trata de cambiar el sesgo a un sesgo que es aceptable para la mayoría de las personas a las que intentan comercializar los sistemas”.

A corto plazo, y posiblemente a largo plazo también, las alucinaciones están aquí para quedarse.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version