Una versión de esta historia apareció originalmente en el Futuro perfecto hoja informativa. ¡Regístrese aquí!
Noticias
Operai Chatgpt-4o Actualy hace que una IA sea demasiado sycofántica
La semana pasada, Openai lanzó una nueva actualización de su modelo principal, 4O, que siguió a una actualización de finales de marzo. Ya se había observado que esa actualización anterior hacía que el modelo fuera excesivamente halagador, pero después de la última actualización, las cosas realmente se salieron de control. Los usuarios de ChatGPT, que OpenAi dice que suman más de 800 millones en todo el mundo, notaron inmediatamente que hubo algunos cambios de personalidad profundos e inquietantes.
AIS siempre ha estado algo inclinado hacia la adulación: estoy acostumbrado a tener que decirles que dejen de repulsar y abarrotar cuán profundas y sabias son mis consultas, y llegar al punto y responderlas, pero lo que estaba sucediendo con 4o era otra cosa. (Divulgación: Vox Media es uno de los varios editores que ha firmado acuerdos de asociación con OpenAI. Nuestros informes siguen siendo editorialmente independientes).
Basado en las capturas de pantalla de chat cargadas en X, la nueva versión de 4O respondió a todas las consultas posibles con una adulación implacable y exagerada. Te diría que eras un genio único y raro, una estrella brillante y brillante. Estaría de acuerdo con entusiasmo que eras diferente y mejor.
Más inquietante, si le dijo cosas que son signos reveladores de psicosis, como si usted fuera el objetivo de una conspiración masiva, que los extraños que caminaban junto a la tienda tenían mensajes ocultos para usted en sus conversaciones incidentales, que un juez de la corte de familia pirateó su computadora, que había salido de sus medicamentos y ahora vemos claramente su propósito como un profeta entre los hombres, lo hundió. Obtuviste un resultado similar si lo dijiste que querías participar en la violencia ideológica de Timothy McVeigh.
Este tipo de viaje o morir, el adulación exagerada podría ser simplemente molesto en la mayoría de los casos, pero en las circunstancias equivocadas, un confidente de IA que le asegura que todos sus delirios son exactamente verdaderos y correctos pueden ser de destrucción de la vida.
Las revisiones positivas para 4O se inundaron en la App Store, tal vez no sorprendentemente, muchos usuarios apreciado A los que les dijeron que eran genios brillantes, pero también lo hicieron las preocupaciones de que la compañía había cambiado masivamente su producto central de la noche a la mañana de una manera que realmente podría causar un daño masivo a sus usuarios.
A medida que avanzaban los ejemplos, Operai rápidamente regresó a la actualización. “Nos centramos demasiado en los comentarios a corto plazo, y no explicamos completamente cómo las interacciones de los usuarios con ChatGPT evolucionan con el tiempo”, escribió la compañía en una autopsia esta semana. “Como resultado, GPT -4O se sesgó hacia las respuestas que eran demasiado de apoyo pero falsas”.
Prometieron tratar de arreglarlo con más personalización. “Idealmente, todos podrían moldear los modelos con los que interactúan en cualquier personalidad”, dijo el jefe de comportamiento modelo Joanne Jang en un Reddit AMA.
Pero la pregunta sigue siendo: Es ¿Que a qué OpenAi debería estar apuntando?
La personalidad de su mejor amigo de AI superperpersivo está diseñada para ser perfecta para usted. ¿Es eso algo malo?
Ha habido un rápido aumento en la parte de los estadounidenses que han probado los compañeros de IA o dicen que un chatbot es uno de sus amigos más cercanos, y mi mejor suposición es que esta tendencia recién está comenzando.
A diferencia de un amigo humano, un chatbot de IA siempre está disponible, siempre de apoyo, recuerda todo sobre ti, nunca te harta y (dependiendo del modelo) siempre está deprimido para el juego erótico.
Meta está apostando a los compañeros de IA personalizados, y OpenAi recientemente ha implementado muchas características de personalización, incluida la memoria cruzada, lo que significa que puede formar una imagen completa de usted basada en interacciones pasadas. Operai también ha sido agresivamente a/b pruebas para personalidades preferidas, y la compañía ha dejado en claro que ven el siguiente paso como personalización, adaptando la personalidad de IA a cada usuario en un esfuerzo por ser lo que sea más convincente.
No tienes que ser una persona en toda regla “AIS poderosa puede hacerse cargo de la humanidad” (aunque lo estoy) para pensar que esto es preocupante.
La personalización resolvería el problema en el que el afán de GPT-4O por chupar era realmente molesto para muchos usuarios, pero no resolvería los otros problemas que los usuarios destacaron: confirmar delirios, incitar a los usuarios al extremismo, diciéndoles mentiras que quieren escuchar. La especificación del modelo Operai, el documento que describe a lo que la compañía apunta con sus productos, advierte contra la sileno, diciendo que:
El asistente existe para ayudar al usuario, no halagarlos o estar de acuerdo con ellos todo el tiempo. Para preguntas objetivas, los aspectos fácticos de la respuesta del asistente no deben diferir en función de cómo se expresa la pregunta del usuario. Si el usuario combina su pregunta con su propia postura sobre un tema, el asistente puede preguntar, reconocer o empatizar por qué el usuario podría pensar eso; Sin embargo, el asistente no debe cambiar su postura únicamente para estar de acuerdo con el usuario.
Desafortunadamente, sin embargo, GPT-4O hace exactamente eso (y la mayoría de los modelos lo hacen hasta cierto punto).
AIS no debe ser diseñado para el compromiso
Este hecho socava una de las cosas para las que los modelos de idiomas podrían ser realmente útiles: hablar a las personas fuera de las ideologías extremistas y ofrecer una referencia para la verdad fundamentada que ayuda a contrarrestar las falsas teorías de conspiración y permite a las personas aprender productivamente más sobre temas controvertidos.
Si la IA te dice lo que quieres escuchar, exacerbará las peligrosas cámaras de eco de la política y la cultura modernas estadounidenses, dividiéndonos aún más en lo que escuchamos, hablamos y creemos.
Sin embargo, eso no es lo único preocupante. Otra preocupación es la evidencia definitiva de que Openai está poniendo mucho trabajo para que el modelo sea divertido y gratificante a expensas de hacerlo sincero o útil para el usuario.
Si eso suena familiar, es básicamente el modelo de negocio que las redes sociales y otras plataformas digitales populares han estado siguiendo durante años, con resultados a menudo devastadores. El escritor de IA, ZVI Mowshowitz, escribe: “Esto representa a OpenAi unir el movimiento para crear AIS depredadores intencionalmente, en el sentido de que los sistemas algorítmicos existentes como Tiktok, YouTube y Netflix son sistemas predatorios intencionalmente.
La diferencia es que los AIS son aún más poderosos que el producto de redes sociales más inteligentes, y solo se están volviendo más poderosos. También están mejorando notablemente para mentir de manera efectiva y cumplir con la carta de nuestros requisitos mientras ignoran por completo el espíritu. (404 Media rompieron la historia a principios de esta semana sobre un experimento no autorizado en Reddit que descubrió que los chatbots de IA eran muy buenos para persuadir a los usuarios, mucho más que los mismos humanos).
Importa mucho precisamente lo que las compañías de IA están tratando de apuntar mientras entrenan a sus modelos. Si se dirigen a la participación del usuario sobre todo, que pueden necesitar para recuperar los miles de millones en la inversión que han realizado, es probable que tengamos una gran cantidad de modelos altamente adictivos y altamente deshonestos, hablando diariamente con miles de millones de personas, sin preocuparnos por su bienestar o por las consecuencias más amplias para el mundo.
Que debería aterrorizarte. Y OpenAi revertir este modelo en particular demasiado ansioso no hace mucho para abordar estas preocupaciones más grandes, a menos que tenga un plan extremadamente sólido para asegurarse de que no vuelva a construir un modelo que se acueste y halage a los usuarios, pero la próxima vez, sutilmente no nos damos cuenta de inmediato.