Connect with us

Noticias

Operador de ChatGPT y agentes de IA de investigación profunda: ¿Qué sigue?

Published

on

Es mañana. Estoy haciendo café y estoy a punto de ir a la panadería a la vuelta de la esquina antes de sentarme al trabajo. Antes de irme, le digo a ChatGPT que busque en la web las últimas ofertas en las zapatillas para correr que he querido comprar. Le digo que me dé opciones pero que no compre nada. Luego, le pido que me encuentre opciones de viaje para mi próxima carrera de maratón. Quiero volar lo antes posible por la mañana y quedarme en un hotel lo más cerca posible del lugar. Finalmente, le indico a ChatGPT que me encuentre opciones de restaurantes para una cena familiar que he estado posponiendo. Será una fiesta de 10 con diferentes preferencias culinarias, y será complicado.

Ni siquiera salgo por la puerta antes de darle al AI otro comando. Con el lanzamiento del iPhone de próxima generación, quiero una mirada profunda de cómo llegamos a los últimos cambios de diseño. Quiero un informe sobre las ventas de iPhone en todo el mundo con tendencias para mercados clave, que busca correlaciones entre los grandes rediseños de iPhone y el aumento en las ventas.

Ahora estoy fuera de la puerta en busca de ese sabroso croissant que me digo a mí mismo que quemaré la quemadura con mi próxima carrera, sabiendo que las instrucciones de voz que di la IA producirán resultados dentro de media hora. No tiene sentido perder el tiempo alrededor del apartamento antes de que realmente necesite sentarme frente a la computadora para comenzar a trabajar. Sé que ChatGPT hacer ping a mi teléfono ya que cada una de las tareas que le di está completa.

Esta no fue una mañana real, y no lo será durante bastante tiempo. Pero con el operador de ChatGPT y la investigación profunda ahora aquí, nos estamos acercando a un futuro en el que los agentes de IA nos ayudarán a hacer las cosas más rápido y liberar tiempo para otras actividades. Sin embargo, a pesar de estos lanzamientos iniciales, ya me pregunto si la IA lo hará bien y si ChatGPT será lo suficientemente inteligente como para aprobar instrucciones entre los agentes de IA.

Operai lanzó el operador hace unas semanas, con el agente AI disponible para los usuarios de ChatGPT Pro en los EE. UU. Como suscriptor de chatgpt más en la UE, no tengo acceso a él. Pero en mi ejemplo anterior, espero que use el modo de voz avanzado de ChatGPT para iniciar acciones del operador.

Operai inicia el agente de IA del operador. Fuente de la imagen: OpenAI

El operador buscará zapatos en una computadora virtual en una de las pestañas de Chatgpt. El mismo agente de IA explorará la web en una máquina virtual diferente para buscar opciones de viaje, ya conociendo mis preferencias.

Esperaría una combinación de operador y tareas para manejar mis reservas de cena. El operador abriría otra pestaña para buscar restaurantes que coincidan con mis necesidades, y las tareas ahorrarían recordatorios a medida que se maneja la reserva.

El operador no es lo suficientemente bueno como para darme el informe de iPhone que necesito, así que ahí es donde ChatGPT implicará una investigación profunda, esta vez en una ventana de ChatGPT diferente, para realizar la búsqueda más larga.

Deep Research es el agente AI ChatGPT publicado el domingo. Nuevamente, no está disponible para los usuarios de ChatGPT Plus, y no está disponible en la UE. La herramienta de investigación puede obtener informes más profundos sobre prácticamente cualquier tema, ya sea que esté realizando investigaciones relacionadas con el trabajo o simplemente busque las zapatillas correctas.

ChatGPT Deep Research es un nuevo agente de IA que puede investigar la web para obtener información.
ChatGPT Deep Research es un nuevo agente de IA que puede investigar la web para obtener información. Fuente de la imagen: OpenAI

A diferencia del operador, la investigación profunda no ayudará con acciones web como comprar artículos o hacer reservas. Tampoco se ejecutará en una máquina virtual para explorar la web.

El operador y las investigaciones profundas son funcionalidades separadas de ChatGPT en este momento. Los invocas de manera diferente, y ni siquiera sé si el modo de voz avanzado es compatible o si puedo usar Voice para ejecutar agente de IA. Me imagino que la característica viene en el futuro.

La integración de voz será clave para que estos agentes de IA funcionen para usted. No quiero ir a la aplicación CHATGPT y descubrir el botón correcto para el operador, la investigación profunda, y cualquier futuro agente de IA Operai podría inventar. Quiero decirle a la IA lo que necesito por voz, y luego ChatGPT descubrirá cuál de sus herramientas necesita usar para hacer el trabajo.

ChatGPT sabrá qué tarea necesita investigaciones profundas y dónde usar el operador. Dado que la IA está disponible en Mac y iPhone, puedo verificar las indicaciones de progreso y ajuste mientras está fuera de la casa. ChatGPT me notificará, o simplemente me hablará si ya estoy usando AirPods, para emitir actualizaciones sobre las tareas, hacer preguntas de seguimiento o simplemente decirme que todo está hecho.

Cuando regrese a casa, una bolsa de cruasanes en la mano y la música en mis oídos, estaría unos pasos por delante de mi día. La investigación para algunos de los trabajos que había planeado se realizaría. Algunas de mis tareas personales se manejarían. Todo lo que tendría que hacer es decidir si comprar los zapatos, confirmar los planes de viaje y luego notificar a mi familia sobre los planes de la cena.

CHATGPT: soporte avanzado en modo de voz en iPhone.
CHATGPT: soporte avanzado en modo de voz en iPhone. Fuente de la imagen: OpenAI

No suena mucho, pero ChatGPT y AIS similares con poderes de agente me ahorrarán minutos todos los días. A su vez, usaré ese tiempo para mí. Enjuague y repita durante todo el día, y obtendría más minutos para mí.

No está claro de inmediato, pero los agentes de IA pueden convertirse en los verdaderos asistentes que hemos estado esperando desde que Apple presentó por primera vez Siri hace muchos años.

Dé a la IA la capacidad de controlar también las computadoras y dispositivos cerca de usted, y la informática será similar a lo que vimos en Trek Al crecer o para Iron Man (Robert Downey Jr.) hablando con sus computadoras en las películas de Marvel. Usaremos un tono de conversación para emitir tareas más y más complejas a la IA y controlar cada tipo de computadora donde vive esa IA.

Todo está comenzando ahora, con OpenAi sentando las bases de esa experiencia informática. Es posible que el modo de voz avanzado no esté disponible para los agentes de IA, y ChatGPT podría no saber por sí solo para pasar una tarea al operador o una investigación profunda. Pero estas diversas herramientas seguramente se unirán en el futuro no muy lejano.

Mi escenario involucra a ChatGPT porque OpenAi lidera el paquete aquí. Pero espero que Google, Microsoft, Meta, Apple, Anthrope, Deepseek y una serie de otras empresas tecnológicas e IA conciban experiencias y ecosistemas de agente/asistente de IA similares en el futuro cercano.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

4 formas en que los creadores de contenido pueden usar chatgpt

Published

on

He sido un creador de contenido a tiempo completo durante cuatro años y una cosa que no vi fue que usaría herramientas de IA diariamente o semanalmente en 2025. ChatGPT fue una de las primeras herramientas de IA que experimenté en 2024. Después de chatear y aprender cómo otros creadores de contenido y amigos influyentes estaban usando ChatGPT, decidí ver cómo integrarlo en mis procesos de trabajo.

¿Qué es chatgpt?

Si aún no ha oído hablar de ChatGPT, esta herramienta AI toma su entrada (una pregunta o una solicitud) y genera una respuesta. Esta herramienta de IA generativa puede ayudarlo a resumir información compleja, organizar sus ideas e incluso escribir sus subtítulos de redes sociales. ChatGPT incluso puede ayudarlo a codificar.

Una cosa a considerar es que, si bien esta herramienta de IA relativamente nueva puede acceder a grandes cantidades de información, es posible que no pueda responder temas o actualizaciones de hiper-nicho y cambios a industrias y campos específicos. Como creador de contenido, estoy usando ChatGPT, pero también sé que no es mi única fuente de investigación cuando escribo publicaciones de blog, artículos o planeo mi contenido. Estoy usando ChatGPT como punto de partida para habilitar la creatividad y ayudarme a pensar fuera de la caja.

Me sorprendió cómo ChatGPT me ha permitido trabajar más rápido, ahorrar tiempo y probar nuevas ideas. Desde ideas de lluvia de ideas hasta lanzar un programa de televisión local, ChatGPT está transformando cómo dirijo mi negocio como influencer.

Aquí hay 4 formas de usar ChatGPT como creador de contenido:

Use chatgpt para elaborar sus lanzamientos

Puede usar ChatGPT para ayudarlo a escribir un lanzamiento como creador de contenido. Muchos creadores de contenido e influencers pasan una buena parte del tiempo enviando lanzamientos. Algunos presentan posibles socios de marca, mientras que otros influyentes pueden presentar para reuniones de negocios, hablar en eventos o incluso comenzar un nuevo negocio.

Usé ChatGPT para elaborar un correo electrónico para presentar un programa de estación de noticias local para un segmento. Fui muy específico en el aviso que ingresé en ChatGPT.

Aquí está el mensaje exacto que dije:

¡Hola! Necesito ayuda para crear un lanzamiento para una red de noticias local. Mi objetivo es contribuir a los programas de red local como un host recurrente o regular.

Mi nombre es Emma, ​​y ​​soy una creadora local de contenido de Seattle. Comparto el contenido de estilo de vida y estilo de Seattle en mis canales de redes sociales, la edición de Emma. También comparto cosas que hacer/lugares para explorar en Seattle por vecindario en mi canal de YouTube. Investigo en profundidad y muestro cafeterías de Seattle, tiendas de plantas y negocios locales. También documento y comparto los puntos de referencia de Seattle. ¿Qué debo incluir en mi campo? “

Personalicé la respuesta que ChatGPT recomendó, y mi segmento con New Day Northwest de King 5 se emitió el jueves 6 de marzo.

Cómo comenzar a usar chatgpt para lanzar:

Puede comenzar preguntando: “¿Puedes ayudarme a escribir un correo electrónico de presentación para un socio de marca?”

Luego, proporcione información relevante a ChatGPT. Cuanto más contexto le dé a ChatGPT, mejor respuesta recibirá. En su mensaje (su pregunta o solicitud), asegúrese de compartir cuáles son sus objetivos del campo. También recomiendo compartir quién eres y el tipo de contenido que creas.

Use chatgpt para hacer una lluvia de ideas y reutilizar contenido

Ya sea que cree videos de YouTube, episodios de podcasts o publique en Sustack, ChatGPT puede ayudarlo a generar nuevas ideas, desarrollar series para sus plataformas y reutilizar contenido.

Si es un creador de contenido que quiere planificar su contenido con anticipación o si es un influencer atrapado en una rutina creativa, ChatGPT puede ayudarlo a hacer una lluvia de ideas. Así es como puede comenzar a hacer una lluvia de ideas con chatgpt:

  • “Soy un [insert niche, age, demographic, etc.] Creador de contenido basado en [city or state]. Como creador de contenido, creo contenido [insert niches]. Necesito ayuda para hacer una lluvia de ideas sobre ideas [social media platform]. ¿Puedes escribir una lista de ideas de contenido? “

Si es un creador de contenido que desea reutilizar su contenido, puede pedirle a ChatGPT a:

  • Tome una publicación de blog anterior y conviértala en Ideas de Reel o Tiktok de Instagram.
  • Tome contenido de temporada del año pasado y cree nuevas formas de usar esas publicaciones de Instagram para este año.
  • Mire su contenido de mejor desempeño del año pasado y pregunte cómo reutilizar todo ese gran contenido nuevamente para este año.

ChatGPT unidireccional me ha ayudado con mi contenido es que me ha ayudado a desarrollar una serie de firmas. Como creador de contenido de Seattle, constantemente comparto cosas que hacer en Seattle, incluidas las cafeterías y librerías de Seattle.

Esto es lo que incluí en mi aviso para chatgpt:

“¿Puedes ayudarme a elaborar una serie exclusiva sobre Tiktok? Estoy buscando desarrollar una serie centrada en Seattle. Desde que exhibo vecindarios, cafeterías, librerías y cosas de Seattle, espero que pueda empaquetar una serie que la gente quiera ver más y todos los videos. Me encantaría la serie para que también tenga un título atrapado y algo que pueda recrear sobre y otra vez”.

Chatgpt respondió con: “La lista de éxitos de Seattle, su guía de fin de semana de Seattle y Seattle en 60 segundos”.

Me encantó la idea de Seattle en 60 segundos y desde entonces he presentado vecindarios como el centro de Seattle, Capitol Hill y Pioneer Square en Tiktok e Instagram.

Use chatgpt para ayudarlo a planificar eventos en su ciudad

Si eres un creador de contenido o un influencer que quiere conectarse con otros en tu ciudad, puedes usar ChatGPT para ayudarte a organizar el evento.

Estoy buscando organizar una reunión de Seattle Creator, y usé ChatGPT para ayudarme a crear los formularios RSVP. Esto es lo que ingresé en chatgpt:

Quiero planificar un evento de reunión de Coffee Coffee de Seattle Creator. Obtuve más de 50 personas para responderme en hilos, diciendo que estaban interesados. ¿Cómo debo proceder? Cincuenta personas es muchas personas, por lo que me gustaría recopilar las direcciones de correo electrónico de todos usando los formularios de Google y comenzar a construir un directorio. ¿O debo planificar un lugar más grande frente a una cafetería?

Chatgpt respondió con un proceso paso a paso para ayudarme a comenzar a planificar el evento. Seguí y pregunté qué incluir en el formulario de Google, y dio una lista de preguntas detalladas para incluir en el formulario.

Use chatgpt para recibir comentarios

Muchos creadores de contenido e influencers son solopreneurs. Como creador a tiempo completo, trabajo principalmente de forma independiente para escribir artículos, episodios de podcasts de grabación y filmar y editar contenido de video de forma corta. ChatGPT ha sido útil para obtener comentarios sobre todas mis plataformas de redes sociales, YouTube y boletín de correo electrónico.

Aquí hay algunas formas en que puede usar ChatGPT para obtener comentarios y mejorar su contenido:

  • Pida comentarios a ChatGPT sobre sus miniaturas de YouTube. He subido mis miniaturas de YouTube a ChatGPT y me pregunté si debía ajustar títulos, colores, alineación, etc.
  • Pregúntele a Chatgpt qué ganchos funcionarían mejor en los carretes de Tiktok e Instagram.
  • Pregunte a Chatgpt sobre lo que falta en su publicación de blog o esquema de podcast.

ChatGPT puede ser una excelente herramienta de IA para los creadores de contenido que buscan trabajar más rápido, ahorrar tiempo y desarrollar un nuevo contenido para sus plataformas. Lleva algún tiempo jugar con ChatGPT y descubrir cómo puede funcionar para su marca y negocio. Pero ChatGPT y otras herramientas de IA están aquí para quedarse y continuarán ayudando a los creadores de contenido e influyentes a avanzar.

Continue Reading

Noticias

Operai sacude la voz de voz con nuevos modelos de discurso |

Published

on

Opadai anunció el lanzamiento de nuevos modelos Para el reconocimiento automático de voz (ASR) y el texto a la voz (TTS), marcando otra evolución en la tecnología de voz impulsada por la IA. Sus nuevos modelos prometen no solo una precisión superior, sino también a mejorar la asequibilidad, lo que los convierte en una opción atractiva para las empresas que buscan desplegar agentes de voz con AI.

Capacidades mejoradas de reconocimiento de voz

Los nuevos modelos ASR, GPT-4O-Transcribe y GPT-4O-Mini-Transcribe, representan un salto notable más allá de Whisper, el modelo de transcripción de última generación de OpenAi. Estos modelos ofrecen tasas de error de palabras mejoradas y un mejor manejo de idiomas, acentos y ruido de fondo. La introducción de la versión “mini” es particularmente notable, ya que tiene un precio competitivo para hacer que la transcripción de alta calidad sea más accesible para las empresas que requieren soluciones escalables.

Tecnología avanzada de texto a voz

Operai también ha mejorado significativamente sus capacidades TTS. Los nuevos modelos pueden generar voces altamente realistas, con entonaciones y expresividad de sonido natural. Una característica destacada es la capacidad de dar forma al tono, la emoción y la entrega de una voz utilizando indicaciones de lenguaje natural. Esto significa que las empresas pueden crear voces de IA adaptadas a escenarios específicos, ya sea un representante de servicio al cliente amigable y empático, una voz formal y autorizada para llamadas relacionadas con el cumplimiento, o un narrador dinámico para demostraciones de productos. Esta flexibilidad hace que los modelos TTS de OpenAI sean algunas de las herramientas más versátiles disponibles para construir interacciones de voz atractivas.

Arquitectura del agente de voz: dos enfoques

Otro aspecto interesante de Anuncio de Openai es su enfoque para la arquitectura de agente de voz impulsada por la IA. Actualmente, ha habido dos enfoques principales:

  • Modelo de voz a voz (S2S): Traduce directamente la entrada hablada en discurso generado con una latencia mínima
  • Enfoque encadenado: Divide el proceso en pasos discretos:
    • ASR transcribe el discurso al texto
    • Un modelo de lenguaje grande (LLM) procesa el texto para generar una respuesta
    • TTS convierte la respuesta nuevamente en discurso

Operai está distinguiendo entre estos enfoques, reconociendo que, si bien S2S ofrece una latencia más baja, proporciona menos control. El enfoque encadenado, que ahora es compatible con OpenAI, es más robusto para los casos de uso empresarial, como el servicio al cliente, donde el control, la precisión y el cumplimiento son críticos.

Implicaciones del mercado para plataformas sin código

Con este lanzamiento, Operai ahora ofrece una pila completa de modelos para apoyar el desarrollo de sofisticados agentes de voz de Genai. Esto tiene implicaciones para el mercado, particularmente para las empresas que construyen soluciones sin código para la IA de voz empresarial. Estas plataformas, que permiten a las empresas crear e implementar agentes de voz impulsados ​​por la IA sin una programación extensa, ahora tienen un nuevo conjunto de modelos de alta calidad para integrarse en sus ofertas.

Sin embargo, esto también plantea la cuestión de la diferenciación: si la mayoría de los proveedores sin código terminan utilizando los modelos de OpenAI, el principal factor competitivo cambia de la calidad de la IA subyacente a la usabilidad de la plataforma misma.

Para los proveedores de agentes de voz sin código, esto podría significar que la diferenciación debe venir en otras áreas, como la amplitud de las integraciones, la intuición del diseño y la fuerza de las características críticas como las pruebas, la evaluación y el monitoreo.

La usabilidad, el cumplimiento y el análisis robusto probablemente se convertirán en las características definitorias que distinguen las plataformas en un paisaje donde los modelos de IA fundamentales son en gran medida las mismas. Por supuesto, los modelos de audio competitivos de las compañías rivales también podrían proporcionar diferenciación si ofrecen un rendimiento significativamente mejor a un costo comparable o menor.

Estrategia empresarial de Openai

Este anuncio también señala el movimiento continuo de OpenAi hacia la infraestructura de IA empresarial. Al ofrecer modelos ASR, LLM y TTS de alta calidad, OpenAi se está posicionando como el proveedor fundamental de las interacciones de voz impulsadas por la IA. La compañía no ofrece un constructor de agentes de voz sin código, sino que proporciona los componentes del desarrollador necesarios para construir dichos sistemas.

Este enfoque es similar a cómo los LLM de OpenAI se han convertido en la columna vertebral para varias aplicaciones con IA en todas las industrias. Sugiere que OpenAI ve a la voz de voz de grado empresarial como un área creciente de demanda y quiere establecerse como el proveedor de referencia para organizaciones que buscan modelos de IA robustos para las interacciones con los clientes.

Impacto en las soluciones del centro de contacto

Para los proveedores de CCAA, los nuevos modelos Operai crean oportunidades y desafíos. Los proveedores de soluciones ahora tienen modelos de vanguardia nuevos y asequibles para proporcionar habilidades de automatización de voz mejoradas en sus productos. Sin embargo, la competencia intensificada entre los proveedores que utilizan capacidades de IA similares medias Es posible que las compañías de CCAA necesiten encontrar nuevas formas de diferenciar sus ofertas de agentes de voz. Por lo menos, el conjunto de modelos de OpenAI ejerce presión sobre los proveedores de CCAA para garantizar que ofrezcan plataformas de agentes de voz sin código al menos tan robustos y capaces como aquellas que pueden ser fácilmente creadas por programadores novatos que utilizan modelos y herramientas de desarrolladores de OpenAI.

La experiencia del cliente y los proveedores de CCAA también pueden agregar un valor estratégico mucho más allá de la conexión de modelos ASR, LLM y TTS. Por ejemplo, en campañas salientes, el éxito depende de los datos del cliente, los objetivos comerciales y el cumplimiento. Las plataformas CX pueden ofrecer herramientas para el diseño de la campaña, la ejecución y el análisis.

Para el apoyo, incluso los grandes agentes virtuales necesitan un conocimiento fresco y preciso. Los proveedores pueden ayudar a administrar y actualizar bases de conocimiento para garantizar respuestas confiables alineadas en políticas.

El monitoreo del rendimiento también es vital. Análisis en tiempo real, seguimiento de sentimientos y herramientas de retroalimentación ayudan a ajustar las conversaciones. Las ideas de ROI también son esenciales: los líderes quieren rastrear los ahorros, los impulso de CSAT y el rendimiento en los equipos.

El futuro de la adopción de la voz de la voz de la empresa

En última instancia, el anuncio de OpenAI representa un cambio en cómo las empresas construirán e implementarán agentes de voz impulsados ​​por la IA. Con mejores modelos, menores costos y más flexibilidad, es probable que veamos una aceleración en la adopción de agentes de voz de IA en el servicio al cliente y más allá. Las compañías que tienen éxito en este nuevo panorama probablemente serán las que van más allá de los modelos de IA y se centrarán en ofrecer soluciones perfectas, escalables y diferenciadas a los clientes empresariales.

‹Cognigy muestra la innovación y el valor de AI en Nexus 2025 Summit

Categorías: artículos

Continue Reading

Noticias

La sorpresa de MidJourney: una nueva investigación sobre la fabricación de LLMS escribe de manera más creativa

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


MidJourney es mejor conocido como uno de los principales generadores de imágenes de IA, con casi 20 millones de usuarios en su canal de discordia, según los rastreadores de terceros, y presumiblemente más sobre eso en su sitio web, pero sus ambiciones están comenzando a expandirse.

Después de la noticia a fines del verano de 2024 de que estaba construyendo su propia informática y hardware de IA, la compañía lanzó esta semana un nuevo trabajo de investigación junto con expertos en aprendizaje automático en la Universidad de Nueva York (NYU) sobre la capacitación de modelos de idiomas grandes basados ​​en texto (LLM) como Meta’s Open Source Llama y los modelos de fuentes homónimos de MITRAL para escribir de manera más creativa.

La colaboración, documentada en un nuevo trabajo de investigación publicado en AI Code Community Hugging Face, presenta dos nuevas Technieques: Optimización de preferencias directas diversificadas (DDPO) y Optimización de preferencias de odds ratios de odds (DORPO) diversificadas, diseñadas para expandir el rango de posibles resultados mientras se mantiene la coherencia y la lectura.

Para una compañía mejor conocida por sus modelos de generación de imágenes de IA de difusión, el nuevo enfoque de MidJourney para repensar la creatividad en LLM basados ​​en texto muestra que no está limitando sus ambiciones a las imágenes, y que una imagen puede no valer mil palabras.

¿Podría una LLM-Native MidJourney o una versión ajustada de un LLM existente estar en las tarjetas de la pequeña startup de arranque? Me puse en contacto con el fundador de MidJourney, David Holz, pero aún no he recibido respuesta.

Independientemente de una oferta de LLM de Midjourney LLM de primera parte, las implicaciones de su nueva investigación van más allá de los ejercicios académicos y podrían usarse para ayudar a alimentar una nueva ola de capacitación de LLM entre equipos de IA empresariales, desarrolladores de productos y creadores de contenido que buscan mejorar el texto generado por IA.

También muestra que, a pesar de los recientes intereses e inversiones entre los proveedores de modelos de IA en nuevos modelos de lenguaje multimodal y de razonamiento, todavía queda mucho jugo por exprimirse, cognitivamente y en cuanto a rendimiento, a partir de LLM basados ​​en texto clásicos basados ​​en transformadores.

El problema: la escritura generada por IA se derrumba alrededor de salidas homogéneas

En dominios como la asistencia de codificación o asistencia de codificación basada en hechos, se espera que los LLM generen una sola mejor respuesta.

Sin embargo, la escritura creativa es inherentemente abierta, lo que significa que hay muchas respuestas válidas a un solo mensaje.

Para un ejemplo proporcionado por los investigadores de la mediana edad, dado un aviso como “Escribe una historia sobre un perro en la luna”el LLM podría explorar múltiples caminos diversos como:

  • El perro mascota de un astronauta se fue accidentalmente después de una misión lunar.
  • Un perro que se encuentra en una colonia espacial canina futurista.
  • Un perro varado que se hace amigo de una especie alienígena.

A pesar de esta gama de posibilidades, las LLM ajustadas a las instrucciones a menudo convergen en historias y temas similares. Esto sucede porque:

  1. Las técnicas posteriores a la capacitación priorizan la preferencia del usuario sobre la originalidad, reforzando las respuestas populares pero repetitivas.
  2. La sintonización de instrucciones a menudo suaviza la variación, haciendo que los modelos favorecen las respuestas “seguras” sobre las únicas.
  3. Las técnicas de promoción de la diversidad existentes (como el ajuste de la temperatura) funcionan solo en el momento de la inferencia, en lugar de ser horneados en el proceso de aprendizaje del modelo.

Esto lleva a la narración homogeneizada, donde la escritura creativa generada por IA se siente repetitiva y carece de sorpresa o profundidad.

La solución: modificar los métodos posteriores a la capacitación para priorizar la diversidad

Para superar estas limitaciones, los investigadores introdujeron DDPO y DORPO, dos extensiones de los métodos de optimización de preferencias existentes. La innovación central en estos enfoques es el uso de la desviación, una medida de cuánto difiere una respuesta de los demás, para guiar la capacitación.

Así es como funciona:

  1. Durante el entrenamiento, el modelo recibe un mensaje de escritura y múltiples respuestas posibles.
  2. Cada respuesta se compara con otras para el mismo aviso, y se calcula una puntuación de desviación.
  3. Las respuestas raras pero de alta calidad se ponderan más en el entrenamiento, alentando al modelo a aprender de diversos ejemplos.

Al incorporar la desviación en la optimización de preferencia directa (DPO) y la optimización de preferencias de odds ratio (ORPO), el modelo aprende a producir respuestas de alta calidad pero más variadas.

Este método asegura que las historias generadas por IA no converjan en una sola estructura predecible, sino que exploran una gama más amplia de personajes, configuraciones y temas, tal como lo haría un escritor humano.

Lo que hicieron los investigadores de MidJourney para lograr esto

El estudio involucró a la capacitación de LLM en tareas de escritura creativa utilizando un conjunto de datos del Subreddit R/WritingPrompts, una comunidad de Reddit donde los usuarios publican y responden con historias cortas.

Los investigadores utilizaron dos modelos base para su entrenamiento:

  • Meta’s Llama-3.1-8b (Un modelo de 8 mil millones de parámetros de la serie Llama 3).
  • Mistral-7B-V0.3 (Un modelo de 7 mil millones de parámetros de la IA Mistral).

Luego, tomaron estos modelos a través de los siguientes procesos:

  1. Autorización supervisada (SFT): Los modelos se ajustaron primero con LORA (adaptación de bajo rango) para ajustar los parámetros de manera eficiente.
  2. Optimización de preferencias:
    • DPO y ORPO se usaron como líneas de base—Estos métodos estándar se centran en mejorar la calidad de la respuesta en función de las señales de preferencia del usuario.
    • DDPO y DORPO se aplicaron luegoIntroducción de ponderación basada en la desviación para fomentar más respuestas únicas.
  3. Evaluación:
    • Evaluación automática: diversidad semántica y estilística medida utilizando técnicas basadas en la incrustación.
    • Evaluación humana: los jueces evaluaron si los resultados eran diversos y atractivos en comparación con GPT-4O y Claude 3.5.

Hallazgos clave del entrenamiento:

  • DDPO superó significativamente a DPO estándar en términos de diversidad de producción mientras mantiene la calidad.
  • Llama-3.1-8b con DDPO logró el mejor equilibrio de calidad y diversidad, produciendo respuestas que fueron más variado que GPT-4O mientras mantiene la coherencia.
  • Cuando se redujo el tamaño del conjunto de datosLos modelos DDPO aún mantenían la diversidad, aunque requerían que un cierto número de muestras de capacitación diversas fuera completamente efectiva.

Implicaciones empresariales: ¿Qué significa para aquellos que usan AI para producir respuestas creativas, como en la redacción de marketing, la narración corporativa y las secuencias de comandos de cine/televisión/videojuegos?

Para los equipos de IA que administran la implementación de LLM, mejorar la diversidad de la producción mientras mantiene la calidad es un desafío crítico. Estos hallazgos tienen implicaciones significativas para las organizaciones que dependen del contenido generado por IA en aplicaciones como:

  • IA conversacional y chatbots (asegurando respuestas variadas y atractivas).
  • Herramientas de marketing de contenidos y narración de cuentos (evitando una copia repetitiva generada por IA).
  • Desarrollo de juegos y diseño narrativo (creando diversos diálogo y historias de ramificación).

Para los profesionales responsables de ajustar e implementar modelos en un entorno empresarial, esta investigación proporciona:

  • Un nuevo enfoque para el entrenamiento de LLM que mejora la creatividad sin sacrificar la calidad.
  • Una alternativa práctica al ajuste de diversidad de tiempo de inferencia (como los ajustes de temperatura) al integrar la diversidad en el proceso de aprendizaje en sí.
  • El potencial para desarrollar aplicaciones de IA más atractivas, desde herramientas de escritura asistidas por AI-AI hasta asistentes virtuales que pueden adaptar dinámicamente sus respuestas.

Para aquellos que manejan la orquestación y la automatización del modelo de IA, esta investigación destaca:

  • La importancia de ajustar los modelos en la etapa de entrenamiento, reduciendo la necesidad de ajustes posteriores al procesamiento en el despliegue.
  • Una forma de introducir la narración adaptativa en las aplicaciones impulsadas por la IA, asegurando la variabilidad al tiempo que mantiene alta la calidad del contenido.
  • Un método para hacer que las salidas de LLM sean más humanas, lo cual es crucial para aplicaciones que requieren narración interactiva, participación del cliente o creación de contenido dinámico.

El futuro de los proyectos creativos generados por IA se ve brillante

El éxito de DDPO y DORPO demuestra que la capacitación de LLM con objetivos centrados en la diversidad puede producir mejoras significativas en la escritura creativa. Algunas ideas incluyen:

  1. Integrar el aprendizaje basado en la desviación en los modelos de IA empresariales Para mejorar la diversidad de respuesta en aplicaciones orientadas al cliente.
  2. Explorando cómo se aplican estos métodos a otras tareas generativascomo poesía con IA, escritura de guiones o narración de cuentos.
  3. Desarrollo de enfoques de entrenamiento híbrido Ese equilibrio Capacidades de diversidad e instrucciones de seguimiento para asistentes de IA.

Para aquellos interesados ​​en aplicar estas técnicas, los investigadores planean que su código esté disponible en público en este repositorio de GitHub

Ya sea que esté ajustando las LLM para aplicaciones comerciales u optimización de la orquestación de IA a gran escala, este estudio proporciona información procesable sobre cómo los modelos pueden ser más dinámicos, atractivos y receptivos a las tareas creativas.

Al adoptar estas técnicas, los equipos de IA pueden ir más allá de los resultados rígidos y formulados, construyendo sistemas de IA que no solo son inteligentes sino que también son realmente imaginativos.

Continue Reading

Trending