Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Ha sido una semana de revés para la compañía de IA generativa número uno en términos de usuarios.
Operai, creador de ChatGPT, lanzado y luego retiró una versión actualizada del modelo de lenguaje grande (texto, imagen, audio) subyacente (LLM) que ChatGPT está conectado de forma predeterminada, GPT-4O, debido a que es demasiado sycofánico para los usuarios. La compañía reportó recientemente al menos 500 millones de usuarios semanales activos del servicio web exitoso.
Un manual rápido en la terrible, sin buena actualización Sycophantic GPT-4O
Operai comenzó a actualizar GPT-4O a un modelo más nuevo que esperaba que los usuarios fueran más recibidos por los usuarios el 24 de abril, completado la actualización del 25 de abril y, luego, cinco días después, lo volvió al 29 de abril, después de días de crecientes quejas de los usuarios en las redes sociales, principalmente en X y Reddit.
Las quejas variaron en intensidad y en detalles, pero todas generalmente se unieron en torno al hecho de que GPT-4O parecía estar respondiendo a las consultas de los usuarios con halagos excesivos, apoyo para ideas equivocadas, incorrectas y francamente dañinas, y “pesando” o elogiando al usuario a un grado excesivo cuando en realidad no se solicitó, mucho menos justificado.
En ejemplos captados y publicados por los usuarios, ChatGPT impulsado por ese modelo Sycofantántico y actualizado GPT-4O había elogiado y respaldado una idea de negocio para “mierda en un palo” literal, aplaudió el texto de muestra de un usuario de aislamiento delirante esquizofrénico, e incluso supuestamente apoyó a los planes para cometer terrorismo.
Los usuarios, incluidos los principales investigadores de IA e incluso un ex CEO interino de Openai, dijeron que les preocupaba que las animadoras descaradas de un modelo de IA por este tipo de indicaciones terribles de los usuarios fueran más que simplemente molestas o inapropiadas, que podría causar daños reales a los usuarios que creían erróneamente la IA y se sintió incorporada por su apoyo por sus peores ideas e impulsas. Se elevó al nivel de un problema de seguridad de IA.
Luego, Operai lanzó una publicación de blog que describe lo que salió mal: “Nos centramos demasiado en los comentarios a corto plazo y no explicamos completamente cómo las interacciones de los usuarios con ChatGPT evolucionan sobre el tiempo. Como resultado, GPT-4O se sesgó hacia las respuestas que fueron demasiado solidarias pero falsas”, y los pasos que la compañía estaba tomando para abordar los problemas. La jefa de comportamiento de modelo de OpenAi, Joanne Jang también participó en un foro de “preguntarme cualquier cosa” o AMA que respondió publicaciones de texto de los usuarios y reveló más información sobre el enfoque de la compañía a GPT-4O y cómo terminó con un modelo excesivamente sycofántico, incluida no “BAK[ing] En suficientes matices “, en cuanto a cómo estaba incorporando la retroalimentación de los usuarios, como las acciones de” pulgar hacia arriba “realizadas por los usuarios en respuesta a los resultados del modelo que les gustaba.
Ahora hoy, Openai ha lanzado una publicación de blog con aún más información sobre cómo ocurrió la actualización sycophantic GPT-4O, acreditada no a ningún autor en particular, sino a “OpenAi”.
El CEO y cofundador Sam Altman también publicó un enlace a la publicación del blog en X, diciendo: “Nos perdimos la marca con la actualización GPT-4O de la semana pasada. Lo que sucedió, lo que aprendimos y algunas cosas que haremos de manera diferente en el futuro”.
Lo que revela la nueva publicación del blog de Operai sobre cómo y por qué GPT-4O se volvió tan sycophantic
Para mí, un usuario diario de ChatGPT, incluido el modelo 4O, la admisión más sorprendente de la nueva publicación de blog de OpenAi sobre la actualización de la skocancia es cómo la compañía parece revelar que es hizo Reciba inquietudes sobre el modelo antes de la liberación de un pequeño grupo de “probadores expertos”, pero que aparentemente anuló a los que están a favor de una respuesta entusiasta más amplia de un grupo más amplio de usuarios más generales.
Como la compañía escribe (énfasis mía):
“Si bien hemos tenido discusiones sobre los riesgos relacionados con la skofancia en GPT-4O por un tiempo, la sycophancy no se marcó explícitamente como parte de nuestras pruebas prácticas internas, ya que algunos de nuestros probadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. Sin embargo. Algunos probadores expertos habían indicado que el comportamiento del modelo se “sentía” ligeramente …
“Luego tuvimos que tomar una decisión: ¿deberíamos retener la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basadas solo en los banderas subjetivas de los probadores expertos? Al final, decidimos lanzar el modelo debido a las señales positivas de los usuarios que probaron el modelo.
“Desafortunadamente, esta fue la llamada equivocada. Construimos estos modelos para nuestros usuarios y, aunque los comentarios de los usuarios son críticos para nuestras decisiones, en última instancia, es nuestra responsabilidad interpretar esa retroalimentación correctamente “.
Esto me parece un gran error. ¿Por qué incluso tener evaluadores expertos si no vas a soportar su experiencia más alto que las masas de la multitud? Le pregunté a Altman sobre esta elección en X pero aún no ha respondido.
No todas las ‘señales de recompensa’ son iguales
La nueva publicación de blog post mortem de OpenAI también revela más detalles sobre cómo la compañía capacita y actualiza nuevas versiones de los modelos existentes, y cómo la retroalimentación humana altera las cualidades del modelo, el carácter y la “personalidad”. Como la compañía escribe:
“Desde que lanzó GPT – 4O en ChatGPT en mayo pasado, hemos lanzado cinco actualizaciones importantes centrado en los cambios en la personalidad y la ayuda. Cada actualización implica un nuevo post-entrenamiento, y a menudo muchos ajustes menores al proceso de capacitación del modelo se prueban de forma independiente y luego se combinan en un solo modelo actualizado que luego se evalúa para el lanzamiento.
“Para los modelos posteriores al entrenamiento, tomamos un modelo base previamente capacitado, supervisamos el ajuste fino en un amplio conjunto de respuestas ideales escritas por humanos o modelos existentes, y luego ejecutamos el aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes.
“Durante el aprendizaje de refuerzo, presentamos el modelo de idioma con un aviso y le pedimos que escriba respuestas. Luego calificamos su respuesta de acuerdo con las señales de recompensa y actualizamos el modelo de idioma para que sea más probable que produzca respuestas de mayor calificación y menos probabilidades de producir respuestas con menor calificación.“
Claramente, las “señales de recompensa” utilizadas por Operai durante el post-entrenamiento tienen un enorme impacto en el comportamiento del modelo resultante, y como la compañía admitió anteriormente cuando superó las respuestas de “pulgares” de los usuarios de ChatGPT a sus salidas, esta señal puede no ser la mejor para usar igualmente con otros al determinar a otros. cómo El modelo aprende a comunicarse y que tipos de respuestas debería estar sirviendo. Operai admite esto directamente en el próximo párrafo de su publicación, escribiendo:
“Definir el conjunto correcto de señales de recompensa es una pregunta difícil, y tenemos muchas cosas en cuenta: son las respuestas correctas, ¿son útiles? ¿Están en línea con nuestra especificación de modelo, están seguros, usan usuarios como ellos, y así sucesivamente? Tener mejores y más completas señales de recompensa produce mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada uno tiene sus Quirks”.
De hecho, OpenAi también revela que la señal de recompensa de “pulgares hacia arriba” fue una nueva utilizada junto con otras señales de recompensa en esta actualización en particular.
“La actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: los datos de thumbs y pulgar de ChatGPT. Esta señal a menudo es útil; un pulgar hacia abajo generalmente significa que algo salió mal”.
Sin embargo, de manera crítica, la compañía no culpa a los nuevos datos de “pulgar hacia arriba” directamente por el fracaso del modelo y los comportamientos de porristas ostentosos. En su lugar, la publicación del blog de Openai dice que fue esta conjunto Con una variedad de otras señales de recompensa nuevas y antiguas, condujo a los problemas: “… Tuvimos mejoras de candidatos para incorporar mejor la retroalimentación, la memoria y los datos más frescos, entre otros. Nuestra evaluación temprana es que cada uno de estos cambios, que se habían visto beneficiosos individualmente, puede haber jugado un papel en la escalada sobre la sycofancia cuando se combinó”.
Al reaccionar a esta publicación de blog, Andrew Mayne, un ex miembro del personal técnico de Operai que ahora trabaja en la firma de consultoría de IA Interdimensional, escribió en X de otro ejemplo de cómo los cambios sutiles en los incentivos de recompensa y las pautas del modelo pueden afectar el rendimiento del modelo de manera bastante drástica:
“Al principio de OpenAi, tuve un desacuerdo con un colega (que ahora es un fundador de otro laboratorio) sobre el uso de la palabra “cortés” en un pronta ejemplo que escribí.
Argumentaron que “cortés” era políticamente incorrecto y querían cambiarlo por “útil”.
Señalé que centrarse solo en la ayuda puede hacer que un modelo sea demasiado compatible, de hecho, de hecho, que puede ser dirigido a contenido sexual en unos pocos turnos.
Después de demostrar ese riesgo con un intercambio simple, el aviso se mantuvo “cortés”.
Estos modelos son raros.“
Cómo Operai planea mejorar sus procesos de prueba modelo en el futuro
La compañía enumera seis mejoras en el proceso sobre cómo evitar un comportamiento de modelo indeseable y menos ideal en el futuro, pero para mí lo más importante es esto:
“Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como la alucinación, el engaño, la confiabilidad y la personalidad, como preocupaciones de bloqueo. Incluso si estos problemas no son perfectamente cuantificables hoy en día, nos comprometemos a bloquear los lanzamientos en función de las mediciones de proxy o las señales cualitativas, incluso cuando las métricas como las pruebas A/B se ven bien”.
En otras palabras, a pesar de lo importantes que los datos, especialmente los datos cuantitativos, son los campos del aprendizaje automático y la inteligencia artificial, OpenAi reconoce que esto solo no puede y no debe ser el único medio por el cual se juzga el rendimiento de un modelo.
Si bien muchos usuarios que proporcionan un “pulgar hacia arriba” podrían indicar un tipo de comportamiento deseable a corto plazo, las implicaciones a largo plazo sobre cómo responde el modelo de IA y dónde lo llevan esos comportamientos y sus usuarios podrían conducir a un lugar muy oscuro, angustioso, destructivo y indeseable. Más no siempre es mejor, especialmente cuando está limitando el “más” a algunos dominios de señales.
No es suficiente decir que el modelo aprobó todas las pruebas o recibió una serie de respuestas positivas de los usuarios: la experiencia de los usuarios avanzados capacitados y sus comentarios cualitativos de que algo “parecía” sobre el modelo, incluso si no podían expresar por qué, debería tener mucho más peso que OpenAi estaba asignando anteriormente.
Esperemos que la empresa, y todo el campo, aprenda de este incidente e integre las lecciones en el futuro.
Control y consideraciones más amplias para los tomadores de decisiones empresariales
Hablando quizás más teóricamente, para mí, también indica por qué la experiencia es tan importante, y específicamente, la experiencia en los campos más allá de y afuera de la que está optimizando (en este caso, aprendizaje automático e IA). Es la diversidad de la experiencia la que nos permite como especie lograr nuevos avances que beneficien a nuestro tipo. Uno, digamos, STEM, no necesariamente debe mantenerse por encima de los demás en las humanidades o las artes.
Y finalmente, también creo que revela en su corazón un problema fundamental con el uso de comentarios humanos para diseñar productos y servicios. Los usuarios individuales pueden decir que les gusta una IA más sycofántica basada en cada interacción aislada, al igual que también pueden decir que aman la forma en que la comida rápida y los soda saben, la conveniencia de los contenedores de plástico de un solo uso, el entretenimiento y la conexión que derivan de las redes sociales, la validación de la cosmovisión y el tribalista que se sienten cuando leen los medios políticos o el chismoso de los tabloides. Una vez más, tomados todos juntos, el acumulación De todos estos tipos de tendencias y actividades, a menudo conduce a resultados muy indeseables para los individuos y la sociedad: obesidad y mala salud en el caso de la comida rápida, la contaminación y la interrupción endocrina en el caso de los desechos plásticos, la depresión y el aislamiento de la sobreindulgencia de las redes sociales, un cuerpo más astillado y menos informado público de la lectura de noticias de mala calidad.
Los diseñadores de modelos de IA y los tomadores de decisiones técnicos en Enterprises harían bien en tener en cuenta esta idea más amplia al diseñar métricas en torno a cualquier objetivo medible, porque incluso cuando cree que está utilizando datos para su ventaja, podría ser contraproducente de una manera que no esperaba o anticipar completamente, dejando su lucha para reparar el daño y el MOP que hizo, sin embargo, sin embargo.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.