Noticias
La sorpresa de MidJourney: una nueva investigación sobre la fabricación de LLMS escribe de manera más creativa

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
MidJourney es mejor conocido como uno de los principales generadores de imágenes de IA, con casi 20 millones de usuarios en su canal de discordia, según los rastreadores de terceros, y presumiblemente más sobre eso en su sitio web, pero sus ambiciones están comenzando a expandirse.
Después de la noticia a fines del verano de 2024 de que estaba construyendo su propia informática y hardware de IA, la compañía lanzó esta semana un nuevo trabajo de investigación junto con expertos en aprendizaje automático en la Universidad de Nueva York (NYU) sobre la capacitación de modelos de idiomas grandes basados en texto (LLM) como Meta’s Open Source Llama y los modelos de fuentes homónimos de MITRAL para escribir de manera más creativa.
La colaboración, documentada en un nuevo trabajo de investigación publicado en AI Code Community Hugging Face, presenta dos nuevas Technieques: Optimización de preferencias directas diversificadas (DDPO) y Optimización de preferencias de odds ratios de odds (DORPO) diversificadas, diseñadas para expandir el rango de posibles resultados mientras se mantiene la coherencia y la lectura.
Para una compañía mejor conocida por sus modelos de generación de imágenes de IA de difusión, el nuevo enfoque de MidJourney para repensar la creatividad en LLM basados en texto muestra que no está limitando sus ambiciones a las imágenes, y que una imagen puede no valer mil palabras.
¿Podría una LLM-Native MidJourney o una versión ajustada de un LLM existente estar en las tarjetas de la pequeña startup de arranque? Me puse en contacto con el fundador de MidJourney, David Holz, pero aún no he recibido respuesta.
Independientemente de una oferta de LLM de Midjourney LLM de primera parte, las implicaciones de su nueva investigación van más allá de los ejercicios académicos y podrían usarse para ayudar a alimentar una nueva ola de capacitación de LLM entre equipos de IA empresariales, desarrolladores de productos y creadores de contenido que buscan mejorar el texto generado por IA.
También muestra que, a pesar de los recientes intereses e inversiones entre los proveedores de modelos de IA en nuevos modelos de lenguaje multimodal y de razonamiento, todavía queda mucho jugo por exprimirse, cognitivamente y en cuanto a rendimiento, a partir de LLM basados en texto clásicos basados en transformadores.
El problema: la escritura generada por IA se derrumba alrededor de salidas homogéneas
En dominios como la asistencia de codificación o asistencia de codificación basada en hechos, se espera que los LLM generen una sola mejor respuesta.
Sin embargo, la escritura creativa es inherentemente abierta, lo que significa que hay muchas respuestas válidas a un solo mensaje.
Para un ejemplo proporcionado por los investigadores de la mediana edad, dado un aviso como “Escribe una historia sobre un perro en la luna”el LLM podría explorar múltiples caminos diversos como:
- El perro mascota de un astronauta se fue accidentalmente después de una misión lunar.
- Un perro que se encuentra en una colonia espacial canina futurista.
- Un perro varado que se hace amigo de una especie alienígena.
A pesar de esta gama de posibilidades, las LLM ajustadas a las instrucciones a menudo convergen en historias y temas similares. Esto sucede porque:
- Las técnicas posteriores a la capacitación priorizan la preferencia del usuario sobre la originalidad, reforzando las respuestas populares pero repetitivas.
- La sintonización de instrucciones a menudo suaviza la variación, haciendo que los modelos favorecen las respuestas “seguras” sobre las únicas.
- Las técnicas de promoción de la diversidad existentes (como el ajuste de la temperatura) funcionan solo en el momento de la inferencia, en lugar de ser horneados en el proceso de aprendizaje del modelo.
Esto lleva a la narración homogeneizada, donde la escritura creativa generada por IA se siente repetitiva y carece de sorpresa o profundidad.
La solución: modificar los métodos posteriores a la capacitación para priorizar la diversidad
Para superar estas limitaciones, los investigadores introdujeron DDPO y DORPO, dos extensiones de los métodos de optimización de preferencias existentes. La innovación central en estos enfoques es el uso de la desviación, una medida de cuánto difiere una respuesta de los demás, para guiar la capacitación.
Así es como funciona:
- Durante el entrenamiento, el modelo recibe un mensaje de escritura y múltiples respuestas posibles.
- Cada respuesta se compara con otras para el mismo aviso, y se calcula una puntuación de desviación.
- Las respuestas raras pero de alta calidad se ponderan más en el entrenamiento, alentando al modelo a aprender de diversos ejemplos.
Al incorporar la desviación en la optimización de preferencia directa (DPO) y la optimización de preferencias de odds ratio (ORPO), el modelo aprende a producir respuestas de alta calidad pero más variadas.
Este método asegura que las historias generadas por IA no converjan en una sola estructura predecible, sino que exploran una gama más amplia de personajes, configuraciones y temas, tal como lo haría un escritor humano.
Lo que hicieron los investigadores de MidJourney para lograr esto
El estudio involucró a la capacitación de LLM en tareas de escritura creativa utilizando un conjunto de datos del Subreddit R/WritingPrompts, una comunidad de Reddit donde los usuarios publican y responden con historias cortas.
Los investigadores utilizaron dos modelos base para su entrenamiento:
- Meta’s Llama-3.1-8b (Un modelo de 8 mil millones de parámetros de la serie Llama 3).
- Mistral-7B-V0.3 (Un modelo de 7 mil millones de parámetros de la IA Mistral).
Luego, tomaron estos modelos a través de los siguientes procesos:
- Autorización supervisada (SFT): Los modelos se ajustaron primero con LORA (adaptación de bajo rango) para ajustar los parámetros de manera eficiente.
- Optimización de preferencias:
- DPO y ORPO se usaron como líneas de base—Estos métodos estándar se centran en mejorar la calidad de la respuesta en función de las señales de preferencia del usuario.
- DDPO y DORPO se aplicaron luegoIntroducción de ponderación basada en la desviación para fomentar más respuestas únicas.
- Evaluación:
- Evaluación automática: diversidad semántica y estilística medida utilizando técnicas basadas en la incrustación.
- Evaluación humana: los jueces evaluaron si los resultados eran diversos y atractivos en comparación con GPT-4O y Claude 3.5.
Hallazgos clave del entrenamiento:
- DDPO superó significativamente a DPO estándar en términos de diversidad de producción mientras mantiene la calidad.
- Llama-3.1-8b con DDPO logró el mejor equilibrio de calidad y diversidad, produciendo respuestas que fueron más variado que GPT-4O mientras mantiene la coherencia.
- Cuando se redujo el tamaño del conjunto de datosLos modelos DDPO aún mantenían la diversidad, aunque requerían que un cierto número de muestras de capacitación diversas fuera completamente efectiva.
Implicaciones empresariales: ¿Qué significa para aquellos que usan AI para producir respuestas creativas, como en la redacción de marketing, la narración corporativa y las secuencias de comandos de cine/televisión/videojuegos?
Para los equipos de IA que administran la implementación de LLM, mejorar la diversidad de la producción mientras mantiene la calidad es un desafío crítico. Estos hallazgos tienen implicaciones significativas para las organizaciones que dependen del contenido generado por IA en aplicaciones como:
- IA conversacional y chatbots (asegurando respuestas variadas y atractivas).
- Herramientas de marketing de contenidos y narración de cuentos (evitando una copia repetitiva generada por IA).
- Desarrollo de juegos y diseño narrativo (creando diversos diálogo y historias de ramificación).
Para los profesionales responsables de ajustar e implementar modelos en un entorno empresarial, esta investigación proporciona:
- Un nuevo enfoque para el entrenamiento de LLM que mejora la creatividad sin sacrificar la calidad.
- Una alternativa práctica al ajuste de diversidad de tiempo de inferencia (como los ajustes de temperatura) al integrar la diversidad en el proceso de aprendizaje en sí.
- El potencial para desarrollar aplicaciones de IA más atractivas, desde herramientas de escritura asistidas por AI-AI hasta asistentes virtuales que pueden adaptar dinámicamente sus respuestas.
Para aquellos que manejan la orquestación y la automatización del modelo de IA, esta investigación destaca:
- La importancia de ajustar los modelos en la etapa de entrenamiento, reduciendo la necesidad de ajustes posteriores al procesamiento en el despliegue.
- Una forma de introducir la narración adaptativa en las aplicaciones impulsadas por la IA, asegurando la variabilidad al tiempo que mantiene alta la calidad del contenido.
- Un método para hacer que las salidas de LLM sean más humanas, lo cual es crucial para aplicaciones que requieren narración interactiva, participación del cliente o creación de contenido dinámico.
El futuro de los proyectos creativos generados por IA se ve brillante
El éxito de DDPO y DORPO demuestra que la capacitación de LLM con objetivos centrados en la diversidad puede producir mejoras significativas en la escritura creativa. Algunas ideas incluyen:
- Integrar el aprendizaje basado en la desviación en los modelos de IA empresariales Para mejorar la diversidad de respuesta en aplicaciones orientadas al cliente.
- Explorando cómo se aplican estos métodos a otras tareas generativascomo poesía con IA, escritura de guiones o narración de cuentos.
- Desarrollo de enfoques de entrenamiento híbrido Ese equilibrio Capacidades de diversidad e instrucciones de seguimiento para asistentes de IA.
Para aquellos interesados en aplicar estas técnicas, los investigadores planean que su código esté disponible en público en este repositorio de GitHub
Ya sea que esté ajustando las LLM para aplicaciones comerciales u optimización de la orquestación de IA a gran escala, este estudio proporciona información procesable sobre cómo los modelos pueden ser más dinámicos, atractivos y receptivos a las tareas creativas.
Al adoptar estas técnicas, los equipos de IA pueden ir más allá de los resultados rígidos y formulados, construyendo sistemas de IA que no solo son inteligentes sino que también son realmente imaginativos.