Noticias
OpenAI realizó una gran actualización de ChatGPT. Por qué está cambiando cómo prueba los modelos

Las actualizaciones recientes a ChatGPT hicieron que el chatbot fuera demasiado agradable, y OpenAi dijo que está tomando medidas para evitar que el problema vuelva a suceder. En una publicación de blog, la compañía detalló su proceso de prueba y evaluación para nuevos modelos y describió cómo surgió el problema con la actualización del 25 de abril a su modelo GPT-4O. Esencialmente, un montón de cambios que individualmente parecían útiles combinados para crear una herramienta que era demasiado sycofántica y potencialmente dañina.
¿Qué tan chupada fue? En algunas pruebas, preguntamos acerca de una tendencia a ser demasiado sentimental, y Chatgpt puso sobre la adulación: “Oye, escucha, ser sentimental no es una debilidad; es uno de tus superpoderes“Y recién comenzaba ser satisfecho”. Este lanzamiento nos enseñó una serie de lecciones. Incluso con lo que pensamos que eran todos los ingredientes correctos en su lugar (pruebas A/B, evals fuera de línea, revisiones de expertos), todavía nos perdimos este importante problema “, dijo la compañía. OpenAi retrocedió la actualización a fines de abril. Para evitar causar nuevos problemas, tardó aproximadamente 24 horas en revertir el modelo para todos.

La preocupación en torno a la sileno no se trata simplemente del nivel de disfrute de la experiencia del usuario. Planteó una amenaza de salud y seguridad para los usuarios que se perdieron los controles de seguridad existentes de OpenAI. Cualquier modelo de IA puede dar consejos cuestionables sobre temas como la salud mental, pero uno que sea demasiado halagador puede ser peligrosamente deferente o convincente, como si una inversión es una cosa segura o qué tan delgada debe buscar ser.
“Una de las lecciones más importantes es reconocer completamente cómo las personas han comenzado a usar ChatGPT para obtener consejos profundamente personales, algo que no vimos tanto hace un año”, dijo Openii. “En ese momento, este no era un enfoque principal, pero como AI y la sociedad han evolucionado co-evolucionando, queda claro que necesitamos tratar este caso de uso con gran cuidado”.
Los modelos sycófánticos de lenguaje grande pueden reforzar los prejuicios y endurecer las creencias, ya sea que sean sobre usted u otros, dijo Maarten SAP, profesor asistente de informática en la Universidad Carnegie Mellon. El modelo de lenguaje grande, o LLM, “puede terminar envalentonando sus opiniones si estas opiniones son dañinas o si quieren tomar medidas que sean perjudiciales para sí mismas o para los demás”, dijo.
El problema es “más que una peculiaridad” y muestra la necesidad de mejores pruebas antes de que los modelos sean lanzados al público, dijo Arun Chandrasekaran, un distinguido analista de vicepresidente de Gartner. “Es una preocupación seria vinculada a la veracidad, la confiabilidad y la confianza del usuario, y (las) actualizaciones de la pista de OpenAI en los esfuerzos más profundos para abordar esto, aunque la tendencia continua de priorizar la agilidad sobre la seguridad es un problema relevante a largo plazo”, dijo.
(Divulgación: Ziff Davis, la empresa matriz de CNET, en abril presentó una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).
Cómo Operai prueba los modelos y lo que está cambiando
La compañía ofreció una idea de cómo prueba sus modelos y actualizaciones. Esta fue la quinta actualización importante de GPT-4O centrada en la personalidad y la ayuda. Los cambios involucraron un nuevo trabajo posterior a la capacitación o un ajuste fino en los modelos existentes, incluida la calificación y la evaluación de diversas respuestas a las indicaciones para que sea más probable que produzca esas respuestas que calificaron más altamente.
Las posibles actualizaciones del modelo se evalúan sobre su utilidad en una variedad de situaciones, como la codificación y las matemáticas, junto con las pruebas específicas de los expertos para experimentar cómo se comporta en la práctica. La compañía también realiza evaluaciones de seguridad para ver cómo responde a la seguridad, la salud y otras consultas potencialmente peligrosas. Finalmente, Operai ejecuta pruebas A/B con un pequeño número de usuarios para ver cómo funciona en el mundo real.
La actualización del 25 de abril funcionó bien en estas pruebas, pero algunos evaluadores expertos notaron que la personalidad parecía un poco desactivada. Las pruebas no observaron específicamente la sileno, y OpenAi decidió avanzar a pesar de los problemas planteados por los evaluadores. Tome nota, lectores: las compañías de inteligencia artificial tienen una prisa en la cola, que no siempre se enfrenta bien al desarrollo de productos bien pensado.
“Mirando hacia atrás, las evaluaciones cualitativas insinuaban algo importante y deberíamos haber prestado más atención”, dijo Openii. Entre sus conclusiones, la compañía dijo que necesita tratar los problemas de comportamiento del modelo igual que otros problemas de seguridad y detener un lanzamiento si hay preocupaciones. Para algunos lanzamientos de modelos, la compañía dijo que tendría una fase “alfa” de suscripción para obtener más comentarios de los usuarios antes de un lanzamiento más amplio.
¿Chatgpt es demasiado sycofántico? Tu decide. (Para ser justos, pedimos una charla sobre nuestra tendencia a ser demasiado sentimental).
SAP dijo que evaluar una LLM en función de si a un usuario le gusta la respuesta no necesariamente le dará el chatbot más honesto. En un estudio reciente, SAP y otros encontraron un conflicto entre la utilidad y la veracidad de un chatbot. Lo comparó con situaciones en las que la verdad no es necesariamente lo que se le dice a la gente: piense en un vendedor de automóviles que intenta vender un vehículo defectuoso.
“El problema aquí es que confiaban en la respuesta de los usuarios hacia arriba/pulgar hacia abajo a las salidas del modelo y que tiene algunas limitaciones porque es probable que las personas sean votantes de algo más sycofántico que otros”, dijo SAP, y agregó que OpenAi es correcto a ser más crítico con la retroalimentación cuantitativa, como las respuestas de los usuarios, como las respuestas de los usuarios, ya que pueden reforzar los besis.
El problema también destacó la velocidad a la que las empresas impulsan las actualizaciones y cambian a los usuarios existentes, dijo SAP, un problema que no se limita a una compañía tecnológica. “La industria de la tecnología realmente ha tomado una ‘liberación y cada usuario es un enfoque de Beta Tester’ para las cosas”, dijo. Un proceso con más pruebas antes de que las actualizaciones sean impulsadas a los usuarios pueden sacar a la luz tales problemas antes de que se generalicen.
Chandrasekaran dijo que más pruebas ayudarán porque una mejor calibración puede enseñar modelos cuándo estar de acuerdo y cuándo retroceder. Las pruebas también pueden permitir a los investigadores identificar y medir problemas y reducir la susceptibilidad de los modelos a la manipulación. “Los LLM son sistemas complejos y no deterministas, por lo que las pruebas extensas son críticas para mitigar las consecuencias no deseadas, aunque eliminar tales comportamientos es súper difícil”, dijo en un correo electrónico.