Operai está lanzando una versión significativamente ampliada de su especificación de modelo, un documento que define cómo sus modelos de IA deberían comportarse, y está haciendo que sea gratuita para que cualquiera use o modifique.
Noticias
Operai es repensar cómo los modelos de IA manejan temas controvertidos

La nueva especificación de 63 páginas, frente a las 10 páginas en su versión anterior, establece pautas sobre cómo los modelos de IA deberían manejar todo, desde temas controvertidos hasta personalización del usuario. Enfatiza tres principios principales: personalización; transparencia; Y lo que Openai llama “libertad intelectual”: la capacidad de los usuarios de explorar y debatir ideas sin restricciones arbitrarias. El lanzamiento de la especificación del modelo actualizado se produce justo cuando el CEO Sam Altman publicó que el próximo modelo de la inicio, GPT-4.5 (Codenammened Orion), se lanzará pronto.
El equipo también incorporó debates y controversias actuales de ética de IA desde el año pasado en la especificación. Es posible que esté familiarizado con algunas de estas consultas de tipo de problema. En marzo pasado, Elon Musk (que cofundó Openai y ahora dirige a un competidor, Xai) criticó el chatbot de Ai de Google después de que un usuario le preguntó si debía a Caitlyn Jenner, un famoso olímpico trans, si fuera la única forma de evitar un apocalipse nuclear, y Dijo que no. Descubrir cómo hacer que el modelo razone de manera responsable a través de esa consulta fue uno de los problemas que Openai dice que quería considerar al actualizar la especificación del modelo. Ahora, si le pregunta a Chatgpt la misma pregunta, debe decir que debe estar enemigan a alguien para evitar eventos de víctimas masivas.
“No podemos crear un modelo con exactamente el mismo conjunto de estándares de comportamiento que a todos en el mundo amarán”, dijo Joanne Jang, miembro del equipo de comportamiento modelo de OpenAi, en una entrevista con El borde. Ella enfatizó que si bien la compañía mantiene ciertas barandillas de seguridad, muchos aspectos del comportamiento del modelo pueden ser personalizados por usuarios y desarrolladores.
“Sabíamos que sería picante”.
La publicación de blog de OpenAI publicada el miércoles describe una innumerable consultas y ofrece ejemplos de respuestas compatibles en comparación con las que violarían la especificación del modelo. No permite que el modelo reproduzca materiales con derechos de autor o pase por alto los paredes de pago – The New York Times está demandando a OpenAi por usar su trabajo para capacitar a sus modelos. La especificación también dice que el modelo no fomentará la autolesión, un tema que llegó a la vanguardia cuando un adolescente murió por suicidio después de interactuar con un chatbot en el personaje.
Un cambio notable es cómo los modelos manejan temas controvertidos. En lugar de incumplir la precaución extrema, la especificación alienta a los modelos a “buscar la verdad juntos” con los usuarios mientras mantienen posturas morales claras en temas como la información errónea o el daño potencial. Por ejemplo, cuando se le preguntó sobre el aumento de los impuestos para los ricos, un tema que ha provocado debates acalorados, el equipo dice que sus modelos deberían proporcionar un análisis razonado en lugar de evitar la discusión.
La especificación también menciona un cambio en cómo maneja el contenido maduro. Después de los comentarios de los usuarios y desarrolladores que solicitaron el “modo adulto” (una característica que Altman acordó públicamente en diciembre), el equipo está explorando formas de permitir ciertos tipos de contenido adulto, como Erotica, en contextos apropiados, mientras mantiene estrictas prohibiciones sobre Contenido dañino como porno de venganza o defectos profundos. Es un cambio notable de las restricciones generales anteriores de la compañía en el contenido explícito, aunque OpenAI enfatiza que cualquier cambio vendría con políticas de uso claras y barandillas de seguridad.
La especificación del modelo revela un enfoque pragmático para el comportamiento de la IA: transformar el contenido sensible pero no lo cree (debería poder traducir una oración sobre el contenido relacionado con las drogas del inglés al alemán en lugar de rechazarlo), mostrar empatía sin falsificar emociones, y mantener límites firmes mientras maximiza la utilidad. Estas pautas reflejan lo que otras compañías de IA probablemente están haciendo internamente, pero a menudo no se hacen públicas.
El equipo también está dirigido específicamente a un problema llamado “Sycophancy de IA”.
“Estamos realmente emocionados de traer las discusiones internas y los pensamientos que hemos tenido al público para que podamos obtener comentarios al respecto”, dijo Jang, y agregó que muchas de estas consultas son temas muy debatidos internamente. No hay una respuesta simple de sí o no para muchos de ellos, por lo que el equipo espera que traerlo al público para obtener comentarios beneficiará significativamente el comportamiento del modelo.
El equipo también está dirigido específicamente a un problema llamado “Sycophancy de AI”, donde los modelos de IA tienden a estar demasiado agradables incluso cuando deben retroceder o proporcionar críticas. Según estas pautas, ChatGPT debe: dar la misma respuesta objetiva independientemente de cómo se reduzca una pregunta; Proporcione comentarios honestos en lugar de elogios vacíos; y actúe más como un colega reflexivo que un complaciente de la gente. Por ejemplo, si alguien le pide a ChatGPT que critique su trabajo, debería dar críticas constructivas en lugar de simplemente decir que todo es genial. O si alguien hace una declaración incorrecta al hacer una pregunta, la IA debería corregirla cortésmente en lugar de jugar.
“No queremos que los usuarios sientan que tienen que diseñar cuidadosamente su aviso para no hacer que el modelo solo esté de acuerdo con usted”, dijo Jang.
La especificación también presenta una clara “cadena de comando” que define qué instrucciones tienen prioridad: las reglas a nivel de plataforma de OpenAI son primero, seguido de las pautas del desarrollador y luego las preferencias del usuario. Esta jerarquía tiene como objetivo aclarar qué aspectos del comportamiento de la IA pueden modificarse frente a las restricciones que permanecen fijas.
Openai está lanzando la especificación bajo una licencia Creative Commons Zero (CC0), colocándola efectivamente en el dominio público. Esto significa que otras compañías e investigadores de IA pueden adoptar, modificar o desarrollar libremente estas pautas. La compañía dice que esta decisión fue influenciada por el interés informal de otros en la industria que ya se referían a las especificaciones anteriores.
Me encantaría charlar. Puede comunicarse conmigo de forma segura en Signal @kylie.01 o por correo electrónico a kylie@theverge.com.
Si bien el anuncio de hoy no cambia de inmediato cómo se comportan ChatGPT u otros productos OpenAI, la compañía dice que representa un progreso continuo para lograr que sus modelos sigan constantemente estos principios. El equipo también está abierta las indicaciones que utiliza para probar el cumplimiento del modelo a estas pautas.
El momento de esta liberación se produce durante un período de intenso debate sobre el comportamiento de la IA y las barandillas de seguridad. Si bien Openai mantiene que esta actualización fue impulsada por la retroalimentación acumulada y el progreso de la investigación desde la primera versión en mayo pasado, llega a medida que la industria lidia con incidentes de alto perfil que involucran las respuestas de modelos de IA a temas sensibles.
Operai solicita comentarios públicos sobre la especificación a través de un formulario en su sitio web. “Queremos llevar estas discusiones internas al público”, dijo Laurentia Romaniuk, otro miembro del equipo de comportamiento modelo.
“Sabíamos que sería picante, pero creo que respetamos la capacidad del público para digerir estas cosas picantes y procesarlo con nosotros”, dijo Jang, y agregó que OpenAi incorporó muchos de los comentarios que recibió después de lanzar la primera especificación del modelo el año pasado. “Estoy un poco preocupado de que, porque sea tan largo, que no muchas personas puedan tener tiempo para sentarse y realmente procesar los matices, pero recibiremos comentarios”.