Noticias
La prueba de Turing tiene un problema, y el GPT -4.5 de OpenAi lo solo lo expuso

La mayoría de la gente sabe que la famosa prueba de Turing, un experimento de mentalidad concebido por el pionero informático Alan Turing, es una medida popular de progreso en la inteligencia artificial.
Muchos suponen erróneamente, sin embargo, que es una prueba de que las máquinas realmente están pensando.
La última investigación sobre la prueba de Turing de los académicos de la Universidad de California en San Diego muestra que el último modelo de lenguaje grande de OpenAi, GPT-4.5, puede engañar a los humanos para que piensen que el modelo de IA es una persona en chats de texto, incluso más que un humano puede convencer a otra persona de que es humano.
También: Cómo usar ChatGPT: una guía para principiantes para el chatbot de IA más popular
Ese es un avance en la capacidad de Gen AI para producir un resultado convincente en respuesta a un aviso.
Prueba de agi?
Pero incluso los investigadores reconocen que superar la prueba de Turing no significa necesariamente que se haya logrado la “inteligencia general artificial” o AGI, un nivel de procesamiento de computadora equivalente al pensamiento humano.
La académica de IA Melanie Mitchell, profesora del Instituto de Santa Fe en Santa Fe, Nuevo México, ha escrito en la revista académica Science que la prueba de Turing es menos una prueba de inteligencia per se y más una prueba de supuestos humanos. A pesar de los altos puntajes en la prueba, “la capacidad de sonar fluida en el lenguaje natural, como tocar el ajedrez, no es una prueba concluyente de inteligencia general”, escribió Mitchell.
Cameron Jones y Benjamin Bergen de UC San Diego describen el último rendimiento convincente en un artículo publicado en el servidor de pre-impresión ARXIV esta semana, titulado “Los modelos de idiomas grandes pasan la prueba de Turing”.
También: Operai expande el despliegue GPT-4.5. Aquí le mostramos cómo acceder (y qué puede hacer por usted)
El documento es la última entrega en un experimento que Jones y Bergen han estado ejecutando durante años con la participación de los estudiantes universitarios de UC San Diego del departamento.
Como señalan los autores, ha habido décadas de trabajo sobre el problema. Hasta la fecha, ha habido “más de 800 reclamos y contraargumentos separados que se han hecho” sobre las computadoras que pasan la prueba.
Cómo funciona la prueba de Turing
La prueba de Turing fue concebida clásicamente por Turing como una ronda de mensajes de texto que pasan entre un “juez” humano y dos “testigos”, uno un humano y otro una computadora.
La computadora y los testigos humanos fueron acusados de convencer al juez humano de que eran humanos por los mensajes que cada uno envió. El juez sabe que solo uno de los dos es humano, pero no cuál es lo que y tiene que adivinar.
Esa forma de tres vías es esencial. Significa que si el juez considera erróneamente una computadora humana, entonces el juez también perdió las pistas que deberían haber obtenido de lo humano sobre la humanidad.
También: Con los modelos de IA que golpean cada punto de referencia, es hora de la evaluación humana
En otras palabras, es una prueba tanto sobre cómo los humanos perciben y creen que el funcionamiento de la computadora.
El diseño actualizado de Jones y Bergen se publica en línea, y puedes jugar el juego tú mismo, como juez o testigo.
Como en versiones anteriores, se pidió a los estudiantes humanos de UC San Diego que participaran en una aplicación de chat de texto. Algunos de los estudiantes interpretaron al juez y otros al testigo humano en intercambios de chat de cinco minutos aleatorios, mientras que GPT-4.5 interpretó al testigo de la computadora. Cada juez tuvo conversaciones simultáneas con un testigo humano y informático para adaptarse a la forma de tres vías de la formulación de Turing.
Para interpretar a la computadora testigo, se utilizaron múltiples modelos de lenguaje grande, ingresados con los desafíos del juez en un aviso. GPT-4.5 se probó con dos indicaciones diferentes. Un mensaje recibió información mínima. Pero un segundo, llamado Persona, recibió muchos detalles adicionales en el mensaje, incluidas “instrucciones adicionales sobre qué tipo de persona adoptar para responder al interrogador: específicamente una persona joven introvertida, conocedora de la cultura de Internet y usa la jerga”, escriben los autores.
Los resultados
Se probaron otros tres programas de IA: el modelo anterior de OpenAI, GPT-4O; Meta Platforms’s Llama 3.1 405b; y un programa de bot de chat muy antiguo de la década de 1960, llamado Eliza. Eliza se incluyó porque, como un programa más primitivo, podría actuar como una verificación de si los modelos de idiomas grandes engañaban a un humano simplemente por azar a aleatorias o porque en realidad eran mejores programas.
GPT-4.5, informa Jones y Bergen, tenían una “tasa de victorias” del 73%, lo que significa que engañó al juez humano para que lo declarara humano el 73% del tiempo. Por el contrario, la versión de GPT-4.5 con el aviso minimalista y los otros tres programas de IA no se acercaron tan bien, con puntajes que van del 21% al 56%, incluso cuando los otros modelos de idiomas recibieron un aviso de persona igualmente rica.
También: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la versión gratuita
Además, GPT-4.5 estuvo muy por encima de una prueba de GPT-4 el año pasado por Jones y Bergen. Tenía una tasa de victorias de solo 54%, justo por encima de la oportunidad aleatoria.
Jones y Bergen concluyen que “los interrogadores no solo no pudieron identificar al verdadero testimonio humano, sino que, de hecho, tenían más probabilidades de creer que este modelo era humano que el que otros participantes humanos”.
¿La prueba es realmente una medida de inteligencia?
Por lo tanto, puede preguntar qué significa que los humanos hacen un mal trabajo al contarle a una computadora y a una persona en función de los mensajes de chat.
La “pregunta más controvertida” sobre el problema de Turing a lo largo de las décadas es si realmente está medir la inteligencia, Jones y Bergen reconocen.
Una forma de verlo es que las máquinas se han vuelto tan buenas que pueden “adaptar su comportamiento a diferentes escenarios que los hacen tan flexibles: y aparentemente tan capaces de pasar como humanos”, observan. El indicador de la persona, creado por los humanos, es algo a lo que GPT-4.5 “se adaptó” para ganar.
Nuevamente, es un avance técnico genuino en las capacidades del modelo AI.
También: Chatgpt Plus es gratis para los estudiantes ahora, cómo obtener este trato antes de las finales
Sin embargo, una gran queja ante la prueba es que los humanos podrían ser simplemente malos para reconocer la inteligencia. Los autores concluyen que su experimento es evidencia de eso, al menos parcialmente.
Señalan que el 23% del tiempo, el programa Eliza más antiguo engañó a los jueces humanos. Según se relacionan, eso no fue porque de alguna manera era obviamente más inteligente. “Muchos participantes seleccionaron a Eliza porque no cumplió con sus expectativas de un sistema de IA (por ejemplo, ‘fueron sarcásticos’ o ‘No creo que la IA sea tan grosera’)”, escriben.
Esas suposiciones, escriben, “sugieren que las decisiones de los interrogadores incorporan suposiciones complejas sobre cómo los humanos y los sistemas de IA podrían comportarse en estos contextos, más allá de simplemente seleccionar el agente más inteligente”.
De hecho, los jueces humanos no preguntaron mucho sobre el conocimiento en sus desafíos, a pesar de que Turing pensó que ese sería el criterio principal. “[O]NE de las razones más predictivas de veredictos precisos “por el juez humano, escriben,” era que un testigo era humano porque carecían de conocimiento “.
Sociabilidad, no inteligencia
Todo esto significa que los humanos estaban recogiendo cosas como la sociabilidad en lugar de la inteligencia, lo que llevó a Jones y Bergen a concluir que “fundamentalmente, la prueba de Turing no es una prueba directa de inteligencia, sino una prueba de luz humana”.
Para Turing, la inteligencia puede haber parecido ser la mayor barrera para aparecer como humano y, por lo tanto, para pasar la prueba de Turing. Pero a medida que las máquinas se vuelven más similares a nosotros, otros contrastes han caído en un alivio más agudo, hasta el punto de que la inteligencia por sí sola no es suficiente para parecer convincentemente humano.
Los autores no han dicho que los humanos se han acostumbrado a escribir en una computadora, para una persona o para una máquina, que la prueba ya no es una nueva prueba de interacción humano-computadora. Es una prueba de hábitos humanos en línea.
Una implicación es que la prueba debe ampliarse. Los autores escriben que “la inteligencia es compleja y multifacética”, y “ninguna prueba única de inteligencia podría ser decisiva”.
También: Gemini Pro 2.5 es un asistente de codificación increíblemente capaz, y una gran amenaza para chatgpt
De hecho, sugieren que la prueba podría salir muy diferente con diferentes diseños. Los expertos en IA, señalan, podrían ser probados como una cohorte de juez. Podrían juzgar de manera diferente a los laicos porque tienen diferentes expectativas de una máquina.
Si se agregara un incentivo financiero para elevar las apuestas, los jueces humanos podrían analizar de manera más estrecha y cuidadosa. Esos son indicios de que la actitud y las expectativas juegan un papel.
“En la medida en que la prueba de Turing hace inteligencia índice, debe considerarse entre otros tipos de evidencia”, concluyen.
Esa sugerencia parece cuadrar con una tendencia creciente en el campo de investigación de IA para involucrar a los humanos “en el bucle”, evaluando y evaluando lo que hacen las máquinas.
¿Es suficiente el juicio humano?
Se queda abierto la cuestión de si el juicio humano será en última instancia suficiente. En la película Blade Runner, los robots “replicantes” en medio de ellos se han vuelto tan buenos que los humanos confían en una máquina, “Voight-Kampff”, para detectar quién es humano y quién es robot.
A medida que la búsqueda continúa llegando a AGI, y los humanos se dan cuenta de lo difícil que es decir qué es AGI o cómo la reconocerían si se toparan con ella, tal vez los humanos tendrán que confiar en las máquinas para evaluar la inteligencia de la máquina.
También: 10 razones clave por las que la IA fue la corriente principal durante la noche, y lo que sucede después
O, al menos, pueden tener que preguntar a las máquinas qué máquinas “piensan” sobre los humanos que escriben las indicaciones para tratar de hacer que una máquina engañe a otros humanos.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.