Noticias
O3-Mini de Openai ahora te permite ver el proceso de pensamiento de la IA

Operai lanzó su modelo O3-Mini exactamente hace una semana, ofreciendo a los usuarios gratuitos y pagados una alternativa más precisa, más rápida y más barata a O1-Mini. Ahora, Operai ha actualizado el O3-Mini para incluir una cadena de pensamiento actualizada.
Operai anunció a través de una publicación X que los usuarios gratuitos y pagados ahora podrían ver el proceso de razonamiento que atraviesa el O3-Mini antes de llegar a una conclusión. Por ejemplo, en la publicación, un usuario preguntó, ¿cómo no es hoy un viernes? Y bajo el menú desplegable que muestra cuánto tiempo tardó, el modelo delineó en cada paso de su cadena de pensamiento que le permitió aterrizar en su respuesta.
Comprender cómo llegó el modelo a la conclusión es útil porque no solo ayuda a los usuarios a verificar la precisión de la conclusión, sino que también enseña a los usuarios cómo podrían haber llegado a esa respuesta ellos mismos. Esto es particularmente útil para las indicaciones matemáticas o de codificación, en las que ver los pasos podría permitirle recrearlos la próxima vez que encuentre un problema similar.
Los suscriptores de ChatGPT pagados también podrán ver la cadena de pensamiento actualizada en O3-Mini en el alto esfuerzo de razonamiento. Como su nombre lo indica, el razonamiento alto solo permite que el modelo aplique más potencia de cómputo para preguntas más avanzadas que requieren un razonamiento más alto. En el X Post anunciando la función, OpenAi arroja el término cadena de pensamiento (COT), pero ¿qué significa realmente?
De la misma manera, le pediría a una persona que explique su razonamiento paso a paso, la provisión de cuna alienta a un LLM a romper un problema complejo en pasos lógicos, más pequeños y solucionables. Al compartir estos pasos de razonamiento con los usuarios, el modelo se vuelve más interpretable, lo que permite a los usuarios dirigir mejor sus respuestas e identificar errores en el razonamiento.
Más sobre el razonamiento de la cadena de pensamiento de OpenAi en ZDNET
No es ningún secreto que la IA es la tendencia definitoria de nuestra generación, pero ¿qué significa eso realmente? Muy pronto, la IA será profundamente generalizada en nuestras vidas y la columna vertebral de la industria se está construyendo hoy.
El moderador Shirin Ghaffary (reportero, Bloomberg News) lidera un panel de expertos que incluye; Chase Lochmiller (Crusoe, CEO) Costi Perricos (Deloitte, líder empresarial Global Genai) Varun Mohan (Codeium, cofundador y CEO) que preguntan, ¿cómo estamos construyendo la infraestructura para apoyar esta revolución tecnológica global masiva?
¿Cómo se ven algunas de las tendencias globales en términos de escala tanto la infraestructura como la adopción? Escuche a los expertos en toda la cadena de valor, desde la construcción de centros de datos hasta plataformas en la nube y productos de IA para comprender cómo se amplía esta masiva en la infraestructura y las ofertas está promoviendo la innovación y los negocios al tiempo que mitiga los riesgos sociales, económicos y ambientales de escalar la IA.
La votación ya está abierta, tengo que preguntar, vote por Bruce Burke
¡Noticias emocionantes! El editor de Neural News Network, Bruce Burke, ha sido seleccionado para participar en la competencia Entrepreneur of Impact. Un ganador visionario aparecerá en Forbes, recibirá $ 25,000 y tendrá una sesión de tutoría individual con el propio Daymond John de The Shark Tank. ¡Vota por el editor de tu red de noticias neuronales!
Haga clic aquí para votar por Bruce Burke en Entrepreneur of Impact
Estoy proponiendo construir una organización de noticias e información totalmente automatizada que se alimente con IA que crea artículos de noticias, videos, podcasts, inmersiones profundas, informes especiales, documentos blancos y más, centrado en el mundo en constante expansión de la IA.
Actualmente estoy en el puesto 12, ¡he avanzado al top 15 con solo cuatro días para el final!
Agradecería su voto y volveré a publicar cuando comience la votación. He configurado mi perfil que describe mi propuesta vinculada a continuación. ¡Por favor vote hoy!
Haga clic aquí para votar por Bruce Burke en Entrepreneur of Impact
Cara abrazada y Inteligencia física han lanzado en silencio PI0 (pi-cero) Esta semana, el primer modelo fundamental para robots que traduce los comandos del lenguaje natural directamente en acciones físicas.
“PI0 es el modelo de acción del lenguaje de visión más avanzado”, anunció Remi Cadene, un científico principal de investigación de Hugging Face, anunció en un X publicar que rápidamente llamó la atención a través de la comunidad de IA. “Se necesita comandos de lenguaje natural como entrada y produce directamente el comportamiento autónomo”.
Este lanzamiento marca un momento crucial en robótica: la primera vez que se ha puesto ampliamente un modelo de base para robots a través de una plataforma de código abierto. Al igual que la generación de texto revolucionada por ChatGPT, PI0 tiene como objetivo transformar cómo los robots aprenden y ejecutan tareas.
El modelo, desarrollado originalmente por la inteligencia física y ahora portada a abrazar la cara Plataforma lerobotpuede realizar tareas complejas como la lavandería plegable, las mesas de autobuses y empacar comestibles, actividades que tradicionalmente han sido extremadamente desafiantes para que los robots dominen.
“Los robots de hoy son especialistas estrechos, programados para movimientos repetitivos en entornos coreografiados”, escribió el equipo de investigación de inteligencia física en su Post de anuncio. “PI0 cambia eso, permitiendo que los robots aprendan y sigan las instrucciones del usuario, haciendo que la programación sea tan simple como decirle al robot lo que desea hacer”.
La tecnología detrás de PI0 representa un logro técnico significativo. El modelo fue entrenado en datos de siete plataformas robóticas diferentes y 68 tareas únicas, lo que le permite manejar todo, desde delicadas tareas de manipulación hasta procedimientos complejos de múltiples pasos. Emplea una técnica novedosa llamada Flow Matching para producir trayectorias de acción suaves y en tiempo real a 50Hz, lo que la hace muy precisa y adaptable para la implementación del mundo real.
Más sobre abrazar la cara y la inteligencia física Pi-Zero en VentureBeat
Los humanos son terribles al detectar mentiras, dice el psicólogo Riccardo Loconte … pero ¿y si tuviéramos una herramienta con IA para ayudar? Presenta el trabajo de su equipo capacitando con éxito una IA para reconocer las falsedades en ciertos contextos, estableciendo las bases para un mundo donde todo, desde la seguridad nacional hasta las redes sociales, es un poco más segura, y un poco más éticamente complicado. Grabado en Tedai Viena el 19 de octubre de 2024.
Me he asociado con Mother On It, su socio autorizado para navegar por el complejo panorama de la tecnología actual. Pasar sobre TI se especializa en proporcionar soluciones de hardware, software y ciberseguridad de vanguardia adaptadas a sus necesidades.
Desde una infraestructura de TI robusta hasta aplicaciones AL avanzadas, moverse sobre TI facilita a las empresas a prosperar en la era digital. Contacte avanzando sobre él con todos sus requisitos de TI, IA y ciberseguridad. Llame a +1 (727) 490-9418, o envíe un correo electrónico: info@movingonit.com
Echa un vistazo a seguir su nuevo comunicado de prensa en Cybersecurity Dive | HAGA CLIC AQUÍ
Para aquellos que aman el Luxo Jr. de Pixar, los ingenieros de Apple desarrollaron una lámpara que gira con emoción mientras obedece todos tus caprichos.
Hace treinta y nueve años, los Wizards de CG en Pixar nos hicieron creer que una lámpara de escritorio sin rostro podría ser enormemente expresiva e increíblemente linda. Apple, con su mente puesta en la robótica del hogar, nos muestra cómo se vería una lámpara tan adorable en la vida real.
El gigante tecnológico ha estado trabajando en una lámpara que es un poco tonta mientras intenta responder a sus solicitudes, y puede ser el dispositivo habilitado para la inteligencia de Apple que quiero en mi vida, más que cualquier asistente de IA en mi iPhone.
Manzana Investigación de aprendizaje automático La división publicó un Documento de investigación relativamente corto al repositorio de preimpresión ARXIV el mes pasado que detalla su “diseño de movimiento expresivo y funcional para robot no antropomórfico”. MacRumors vio el artículo y subió un video de YouTube de la lámpara expresiva en acción.
Es un dispositivo que recuerda inmediatamente a la mascota Luxo Jr. de Pixar, y de alguna manera es igual de lindo. Los ingenieros hicieron un gesto para que la lámpara avance o mire en una dirección particular. En lugar de simplemente moverse linealmente, la lámpara actuó a partes iguales confundidas y curiosas, con varios estados de “atención”, “actitud” y “expresión”, según el artículo. Apple llama a este marco Elegnt, un acrónimo torpe de “diseño de movimiento expresivo y funcional para robot no antropomórfico”.
Sabes qué, Apple puede estar en el dinero aquí. El robot expresivo es mucho más entretenido que uno que simplemente hace lo que le dices. En un punto culminante, el brazo del robot intentó extenderse para ver una nota que su brazo no podía alcanzar, antes de sacudir la cabeza en el desánimo y disculparse con una voz generada por IA.
Más sobre el marco Elegnt de Apple en Gizmodo
Mo Gawdat, el ex director de negocios de Google X, autor más vendido, fundador de la Fundación ‘One Billion Happy’ y cofundador de ‘Sonstrable’, se une a Scott para discutir el estado de la IA, donde está hoy, cómo es evolucionando, y lo que eso significa para nuestro futuro. También entran en el último libro de Mo, Unstressable: A Practical Guide to to Stress Living, en el podcast Prof G.
Utilizar código de descuento NEURAL ¡Por un ahorro de $ 15 en Decatxt 3, con envío gratis!
El Decatxt 3 utiliza un sistema “acorde” único, similar a un piano. Al presionar diferentes combinaciones de las dos teclas en cada dedo, puede generar cualquier letra o símbolo.
Además, con una sola tecla de presión o una combinación con las teclas del pulgar, puede acceder a todo el alfabeto. Esto hace que aprender, usar y dominar el Decatxt 3 sea una brisa.
Haga clic aquí para leer más sobre el teclado Decatxt 3, BT con una mano de Wayne Rasanen.
El Decatxt 3 es una solución perfecta para personas con temblores de manos, habilidades motoras deficientes, condiciones como EM, pérdida de extremidades o incluso deterioro de la visión. Se conecta a través de Bluetooth y se puede atar a cualquier mano, haciéndolo cómodo y versátil para todos.
El nuevo ganador anual del premio anual de I + D, Decatxt 3, se presentará en un próximo número del boletín de Florida Alliance for Assistive Services & Technology (FAAST).
Póngase en contacto con Wayne Rasanen, fundador de In10Did, para obtener más información sobre Decatxt 3
¡Esperar! ¿El R1 es genial ahora?
Si está leyendo esto, es probable que ya conozca el viaje en el que ha estado el conejo R1, saltando alto con expectativas construidas en CES, y luego cae por la madriguera del conejo después del lanzamiento.
“Evite este gadget AI”, escribió Mark Spoonauer, editor en jefe de Spoonauer Revisión del conejo R1y en esos primeros días, era difícil estar en desacuerdo. Esta era una caja apenas terminada media que era lenta, poco confiable e inexacta en lo que se suponía que debía hacer.
Pero han pasado 12 meses. ¿Dónde está el conejo R1 ahora? Bueno, con una implacable tubería de actualizaciones e nuevas ideas de IA … ¡¿En realidad es bastante bueno ahora?
No es el dispositivo innovador que el CEO y fundador Jesse Lyu prometió en el escenario hace tantos meses. Pero con el modelo de acción grande (LAM) en pleno apogeo, interfaz de usuario generativa, voz mágica, personalización R-Cade y todo lo intermedio, esta es ahora una de las formas más divertidas de interactuar con la IA que he usado. Entonces, antes de ir más allá, volvamos a la revisión de Spoonauer y revisemos la lista de verificación de los contras que justifican esa revisión de 1.5 estrellas, y veamos si han sido arreglados.
Más sobre el modelo de acción grande actualizado del conejo en la guía de Tom
El lunes 3 de febrero de 2025, el diálogo en Utokyo Globe #14 celebró un evento con el Sr. Sam Altman (CEO de OpenAI) y su CPO (Director de Producto), el Sr. Kevin Weil como parte de su serie “Diálogo”. El presidente Teruo Fujii y el vicepresidente ejecutivo Kaori Hayashi dieron la bienvenida a los dos invitados, junto con 36 estudiantes cuya especialidad variaron desde la ingeniería hasta la medicina y la filosofía.
El profesor Yujin Yaguchi, director del Centro de Educación Global (Globe), se desempeñó como moderador. Al comienzo del evento, el Laboratorio de Inami/Monnai del Centro de Investigación de Ciencia y Tecnología Avanzadas de la Universidad de Tokio mostró y explicó los “Jizai Arms” como un ejemplo de muchas actividades de investigación emocionantes que tienen lugar en la Universidad.
Posteriormente, el presidente Fujii y el EVP Hayashi tuvieron una breve discusión sobre el uso y el futuro de la IA con el Sr. Altman y el Sr. Weil, seguidos de una sesión de preguntas y respuestas entre los oradores y los participantes.
Eso es todo por hoy, pero AI se está moviendo rápido, ¡como, comente y suscríbase para obtener más noticias de IA! ¡Por favor, vote por mí en la competencia de emprendedor de impacto hoy! Gracias por apoyar a mis socios y a mí, así es como mantengo la red de noticias neuronales gratis.
Noticias
4 formas en que los creadores de contenido pueden usar chatgpt

La mano de una persona contiene un iPhone con la aplicación OpenAai Chatgpt con GPT-4 Visible, Lafayette, … Más
Gado a través de Getty Images
He sido un creador de contenido a tiempo completo durante cuatro años y una cosa que no vi fue que usaría herramientas de IA diariamente o semanalmente en 2025. ChatGPT fue una de las primeras herramientas de IA que experimenté en 2024. Después de chatear y aprender cómo otros creadores de contenido y amigos influyentes estaban usando ChatGPT, decidí ver cómo integrarlo en mis procesos de trabajo.
¿Qué es chatgpt?
Si aún no ha oído hablar de ChatGPT, esta herramienta AI toma su entrada (una pregunta o una solicitud) y genera una respuesta. Esta herramienta de IA generativa puede ayudarlo a resumir información compleja, organizar sus ideas e incluso escribir sus subtítulos de redes sociales. ChatGPT incluso puede ayudarlo a codificar.
Una cosa a considerar es que, si bien esta herramienta de IA relativamente nueva puede acceder a grandes cantidades de información, es posible que no pueda responder temas o actualizaciones de hiper-nicho y cambios a industrias y campos específicos. Como creador de contenido, estoy usando ChatGPT, pero también sé que no es mi única fuente de investigación cuando escribo publicaciones de blog, artículos o planeo mi contenido. Estoy usando ChatGPT como punto de partida para habilitar la creatividad y ayudarme a pensar fuera de la caja.
Me sorprendió cómo ChatGPT me ha permitido trabajar más rápido, ahorrar tiempo y probar nuevas ideas. Desde ideas de lluvia de ideas hasta lanzar un programa de televisión local, ChatGPT está transformando cómo dirijo mi negocio como influencer.
Aquí hay 4 formas de usar ChatGPT como creador de contenido:
Una mujer de negocios irreconocible que trabaja en su computadora portátil en la oficina de la mesa. Mujer … Más
getty
Use chatgpt para elaborar sus lanzamientos
Puede usar ChatGPT para ayudarlo a escribir un lanzamiento como creador de contenido. Muchos creadores de contenido e influencers pasan una buena parte del tiempo enviando lanzamientos. Algunos presentan posibles socios de marca, mientras que otros influyentes pueden presentar para reuniones de negocios, hablar en eventos o incluso comenzar un nuevo negocio.
Usé ChatGPT para elaborar un correo electrónico para presentar un programa de estación de noticias local para un segmento. Fui muy específico en el aviso que ingresé en ChatGPT.
Aquí está el mensaje exacto que dije:
“¡Hola! Necesito ayuda para crear un lanzamiento para una red de noticias local. Mi objetivo es contribuir a los programas de red local como un host recurrente o regular.
Mi nombre es Emma, y soy una creadora local de contenido de Seattle. Comparto el contenido de estilo de vida y estilo de Seattle en mis canales de redes sociales, la edición de Emma. También comparto cosas que hacer/lugares para explorar en Seattle por vecindario en mi canal de YouTube. Investigo en profundidad y muestro cafeterías de Seattle, tiendas de plantas y negocios locales. También documento y comparto los puntos de referencia de Seattle. ¿Qué debo incluir en mi campo? “
Personalicé la respuesta que ChatGPT recomendó, y mi segmento con New Day Northwest de King 5 se emitió el jueves 6 de marzo.
Cómo comenzar a usar chatgpt para lanzar:
Puede comenzar preguntando: “¿Puedes ayudarme a escribir un correo electrónico de presentación para un socio de marca?”
Luego, proporcione información relevante a ChatGPT. Cuanto más contexto le dé a ChatGPT, mejor respuesta recibirá. En su mensaje (su pregunta o solicitud), asegúrese de compartir cuáles son sus objetivos del campo. También recomiendo compartir quién eres y el tipo de contenido que creas.
Use chatgpt para hacer una lluvia de ideas y reutilizar contenido
Ya sea que cree videos de YouTube, episodios de podcasts o publique en Sustack, ChatGPT puede ayudarlo a generar nuevas ideas, desarrollar series para sus plataformas y reutilizar contenido.
Si es un creador de contenido que quiere planificar su contenido con anticipación o si es un influencer atrapado en una rutina creativa, ChatGPT puede ayudarlo a hacer una lluvia de ideas. Así es como puede comenzar a hacer una lluvia de ideas con chatgpt:
- “Soy un [insert niche, age, demographic, etc.] Creador de contenido basado en [city or state]. Como creador de contenido, creo contenido [insert niches]. Necesito ayuda para hacer una lluvia de ideas sobre ideas [social media platform]. ¿Puedes escribir una lista de ideas de contenido? “
Si es un creador de contenido que desea reutilizar su contenido, puede pedirle a ChatGPT a:
- Tome una publicación de blog anterior y conviértala en Ideas de Reel o Tiktok de Instagram.
- Tome contenido de temporada del año pasado y cree nuevas formas de usar esas publicaciones de Instagram para este año.
- Mire su contenido de mejor desempeño del año pasado y pregunte cómo reutilizar todo ese gran contenido nuevamente para este año.
ChatGPT unidireccional me ha ayudado con mi contenido es que me ha ayudado a desarrollar una serie de firmas. Como creador de contenido de Seattle, constantemente comparto cosas que hacer en Seattle, incluidas las cafeterías y librerías de Seattle.
Esto es lo que incluí en mi aviso para chatgpt:
“¿Puedes ayudarme a elaborar una serie exclusiva sobre Tiktok? Estoy buscando desarrollar una serie centrada en Seattle. Desde que exhibo vecindarios, cafeterías, librerías y cosas de Seattle, espero que pueda empaquetar una serie que la gente quiera ver más y todos los videos. Me encantaría la serie para que también tenga un título atrapado y algo que pueda recrear sobre y otra vez”.
Chatgpt respondió con: “La lista de éxitos de Seattle, su guía de fin de semana de Seattle y Seattle en 60 segundos”.
Me encantó la idea de Seattle en 60 segundos y desde entonces he presentado vecindarios como el centro de Seattle, Capitol Hill y Pioneer Square en Tiktok e Instagram.
Cubiertas de carrete de Instagram para nuevas series: Seattle en 60 segundos.
Edición de Emma @emmasedition
Use chatgpt para ayudarlo a planificar eventos en su ciudad
Si eres un creador de contenido o un influencer que quiere conectarse con otros en tu ciudad, puedes usar ChatGPT para ayudarte a organizar el evento.
Estoy buscando organizar una reunión de Seattle Creator, y usé ChatGPT para ayudarme a crear los formularios RSVP. Esto es lo que ingresé en chatgpt:
“Quiero planificar un evento de reunión de Coffee Coffee de Seattle Creator. Obtuve más de 50 personas para responderme en hilos, diciendo que estaban interesados. ¿Cómo debo proceder? Cincuenta personas es muchas personas, por lo que me gustaría recopilar las direcciones de correo electrónico de todos usando los formularios de Google y comenzar a construir un directorio. ¿O debo planificar un lugar más grande frente a una cafetería?
Chatgpt respondió con un proceso paso a paso para ayudarme a comenzar a planificar el evento. Seguí y pregunté qué incluir en el formulario de Google, y dio una lista de preguntas detalladas para incluir en el formulario.
Use chatgpt para recibir comentarios
Muchos creadores de contenido e influencers son solopreneurs. Como creador a tiempo completo, trabajo principalmente de forma independiente para escribir artículos, episodios de podcasts de grabación y filmar y editar contenido de video de forma corta. ChatGPT ha sido útil para obtener comentarios sobre todas mis plataformas de redes sociales, YouTube y boletín de correo electrónico.
Aquí hay algunas formas en que puede usar ChatGPT para obtener comentarios y mejorar su contenido:
- Pida comentarios a ChatGPT sobre sus miniaturas de YouTube. He subido mis miniaturas de YouTube a ChatGPT y me pregunté si debía ajustar títulos, colores, alineación, etc.
- Pregúntele a Chatgpt qué ganchos funcionarían mejor en los carretes de Tiktok e Instagram.
- Pregunte a Chatgpt sobre lo que falta en su publicación de blog o esquema de podcast.
ChatGPT puede ser una excelente herramienta de IA para los creadores de contenido que buscan trabajar más rápido, ahorrar tiempo y desarrollar un nuevo contenido para sus plataformas. Lleva algún tiempo jugar con ChatGPT y descubrir cómo puede funcionar para su marca y negocio. Pero ChatGPT y otras herramientas de IA están aquí para quedarse y continuarán ayudando a los creadores de contenido e influyentes a avanzar.
Noticias
Operai sacude la voz de voz con nuevos modelos de discurso |

Opadai anunció el lanzamiento de nuevos modelos Para el reconocimiento automático de voz (ASR) y el texto a la voz (TTS), marcando otra evolución en la tecnología de voz impulsada por la IA. Sus nuevos modelos prometen no solo una precisión superior, sino también a mejorar la asequibilidad, lo que los convierte en una opción atractiva para las empresas que buscan desplegar agentes de voz con AI.
Capacidades mejoradas de reconocimiento de voz
Los nuevos modelos ASR, GPT-4O-Transcribe y GPT-4O-Mini-Transcribe, representan un salto notable más allá de Whisper, el modelo de transcripción de última generación de OpenAi. Estos modelos ofrecen tasas de error de palabras mejoradas y un mejor manejo de idiomas, acentos y ruido de fondo. La introducción de la versión “mini” es particularmente notable, ya que tiene un precio competitivo para hacer que la transcripción de alta calidad sea más accesible para las empresas que requieren soluciones escalables.
Tecnología avanzada de texto a voz
Operai también ha mejorado significativamente sus capacidades TTS. Los nuevos modelos pueden generar voces altamente realistas, con entonaciones y expresividad de sonido natural. Una característica destacada es la capacidad de dar forma al tono, la emoción y la entrega de una voz utilizando indicaciones de lenguaje natural. Esto significa que las empresas pueden crear voces de IA adaptadas a escenarios específicos, ya sea un representante de servicio al cliente amigable y empático, una voz formal y autorizada para llamadas relacionadas con el cumplimiento, o un narrador dinámico para demostraciones de productos. Esta flexibilidad hace que los modelos TTS de OpenAI sean algunas de las herramientas más versátiles disponibles para construir interacciones de voz atractivas.
Arquitectura del agente de voz: dos enfoques
Otro aspecto interesante de Anuncio de Openai es su enfoque para la arquitectura de agente de voz impulsada por la IA. Actualmente, ha habido dos enfoques principales:
- Modelo de voz a voz (S2S): Traduce directamente la entrada hablada en discurso generado con una latencia mínima
- Enfoque encadenado: Divide el proceso en pasos discretos:
- ASR transcribe el discurso al texto
- Un modelo de lenguaje grande (LLM) procesa el texto para generar una respuesta
- TTS convierte la respuesta nuevamente en discurso
Operai está distinguiendo entre estos enfoques, reconociendo que, si bien S2S ofrece una latencia más baja, proporciona menos control. El enfoque encadenado, que ahora es compatible con OpenAI, es más robusto para los casos de uso empresarial, como el servicio al cliente, donde el control, la precisión y el cumplimiento son críticos.
Implicaciones del mercado para plataformas sin código
Con este lanzamiento, Operai ahora ofrece una pila completa de modelos para apoyar el desarrollo de sofisticados agentes de voz de Genai. Esto tiene implicaciones para el mercado, particularmente para las empresas que construyen soluciones sin código para la IA de voz empresarial. Estas plataformas, que permiten a las empresas crear e implementar agentes de voz impulsados por la IA sin una programación extensa, ahora tienen un nuevo conjunto de modelos de alta calidad para integrarse en sus ofertas.
Sin embargo, esto también plantea la cuestión de la diferenciación: si la mayoría de los proveedores sin código terminan utilizando los modelos de OpenAI, el principal factor competitivo cambia de la calidad de la IA subyacente a la usabilidad de la plataforma misma.
Para los proveedores de agentes de voz sin código, esto podría significar que la diferenciación debe venir en otras áreas, como la amplitud de las integraciones, la intuición del diseño y la fuerza de las características críticas como las pruebas, la evaluación y el monitoreo.
La usabilidad, el cumplimiento y el análisis robusto probablemente se convertirán en las características definitorias que distinguen las plataformas en un paisaje donde los modelos de IA fundamentales son en gran medida las mismas. Por supuesto, los modelos de audio competitivos de las compañías rivales también podrían proporcionar diferenciación si ofrecen un rendimiento significativamente mejor a un costo comparable o menor.
Estrategia empresarial de Openai
Este anuncio también señala el movimiento continuo de OpenAi hacia la infraestructura de IA empresarial. Al ofrecer modelos ASR, LLM y TTS de alta calidad, OpenAi se está posicionando como el proveedor fundamental de las interacciones de voz impulsadas por la IA. La compañía no ofrece un constructor de agentes de voz sin código, sino que proporciona los componentes del desarrollador necesarios para construir dichos sistemas.
Este enfoque es similar a cómo los LLM de OpenAI se han convertido en la columna vertebral para varias aplicaciones con IA en todas las industrias. Sugiere que OpenAI ve a la voz de voz de grado empresarial como un área creciente de demanda y quiere establecerse como el proveedor de referencia para organizaciones que buscan modelos de IA robustos para las interacciones con los clientes.
Impacto en las soluciones del centro de contacto
Para los proveedores de CCAA, los nuevos modelos Operai crean oportunidades y desafíos. Los proveedores de soluciones ahora tienen modelos de vanguardia nuevos y asequibles para proporcionar habilidades de automatización de voz mejoradas en sus productos. Sin embargo, la competencia intensificada entre los proveedores que utilizan capacidades de IA similares medias Es posible que las compañías de CCAA necesiten encontrar nuevas formas de diferenciar sus ofertas de agentes de voz. Por lo menos, el conjunto de modelos de OpenAI ejerce presión sobre los proveedores de CCAA para garantizar que ofrezcan plataformas de agentes de voz sin código al menos tan robustos y capaces como aquellas que pueden ser fácilmente creadas por programadores novatos que utilizan modelos y herramientas de desarrolladores de OpenAI.
La experiencia del cliente y los proveedores de CCAA también pueden agregar un valor estratégico mucho más allá de la conexión de modelos ASR, LLM y TTS. Por ejemplo, en campañas salientes, el éxito depende de los datos del cliente, los objetivos comerciales y el cumplimiento. Las plataformas CX pueden ofrecer herramientas para el diseño de la campaña, la ejecución y el análisis.
Para el apoyo, incluso los grandes agentes virtuales necesitan un conocimiento fresco y preciso. Los proveedores pueden ayudar a administrar y actualizar bases de conocimiento para garantizar respuestas confiables alineadas en políticas.
El monitoreo del rendimiento también es vital. Análisis en tiempo real, seguimiento de sentimientos y herramientas de retroalimentación ayudan a ajustar las conversaciones. Las ideas de ROI también son esenciales: los líderes quieren rastrear los ahorros, los impulso de CSAT y el rendimiento en los equipos.
El futuro de la adopción de la voz de la voz de la empresa
En última instancia, el anuncio de OpenAI representa un cambio en cómo las empresas construirán e implementarán agentes de voz impulsados por la IA. Con mejores modelos, menores costos y más flexibilidad, es probable que veamos una aceleración en la adopción de agentes de voz de IA en el servicio al cliente y más allá. Las compañías que tienen éxito en este nuevo panorama probablemente serán las que van más allá de los modelos de IA y se centrarán en ofrecer soluciones perfectas, escalables y diferenciadas a los clientes empresariales.
Relacionado
Categorías: artículos
Noticias
La sorpresa de MidJourney: una nueva investigación sobre la fabricación de LLMS escribe de manera más creativa

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
MidJourney es mejor conocido como uno de los principales generadores de imágenes de IA, con casi 20 millones de usuarios en su canal de discordia, según los rastreadores de terceros, y presumiblemente más sobre eso en su sitio web, pero sus ambiciones están comenzando a expandirse.
Después de la noticia a fines del verano de 2024 de que estaba construyendo su propia informática y hardware de IA, la compañía lanzó esta semana un nuevo trabajo de investigación junto con expertos en aprendizaje automático en la Universidad de Nueva York (NYU) sobre la capacitación de modelos de idiomas grandes basados en texto (LLM) como Meta’s Open Source Llama y los modelos de fuentes homónimos de MITRAL para escribir de manera más creativa.
La colaboración, documentada en un nuevo trabajo de investigación publicado en AI Code Community Hugging Face, presenta dos nuevas Technieques: Optimización de preferencias directas diversificadas (DDPO) y Optimización de preferencias de odds ratios de odds (DORPO) diversificadas, diseñadas para expandir el rango de posibles resultados mientras se mantiene la coherencia y la lectura.
Para una compañía mejor conocida por sus modelos de generación de imágenes de IA de difusión, el nuevo enfoque de MidJourney para repensar la creatividad en LLM basados en texto muestra que no está limitando sus ambiciones a las imágenes, y que una imagen puede no valer mil palabras.
¿Podría una LLM-Native MidJourney o una versión ajustada de un LLM existente estar en las tarjetas de la pequeña startup de arranque? Me puse en contacto con el fundador de MidJourney, David Holz, pero aún no he recibido respuesta.
Independientemente de una oferta de LLM de Midjourney LLM de primera parte, las implicaciones de su nueva investigación van más allá de los ejercicios académicos y podrían usarse para ayudar a alimentar una nueva ola de capacitación de LLM entre equipos de IA empresariales, desarrolladores de productos y creadores de contenido que buscan mejorar el texto generado por IA.
También muestra que, a pesar de los recientes intereses e inversiones entre los proveedores de modelos de IA en nuevos modelos de lenguaje multimodal y de razonamiento, todavía queda mucho jugo por exprimirse, cognitivamente y en cuanto a rendimiento, a partir de LLM basados en texto clásicos basados en transformadores.
El problema: la escritura generada por IA se derrumba alrededor de salidas homogéneas
En dominios como la asistencia de codificación o asistencia de codificación basada en hechos, se espera que los LLM generen una sola mejor respuesta.
Sin embargo, la escritura creativa es inherentemente abierta, lo que significa que hay muchas respuestas válidas a un solo mensaje.
Para un ejemplo proporcionado por los investigadores de la mediana edad, dado un aviso como “Escribe una historia sobre un perro en la luna”el LLM podría explorar múltiples caminos diversos como:
- El perro mascota de un astronauta se fue accidentalmente después de una misión lunar.
- Un perro que se encuentra en una colonia espacial canina futurista.
- Un perro varado que se hace amigo de una especie alienígena.
A pesar de esta gama de posibilidades, las LLM ajustadas a las instrucciones a menudo convergen en historias y temas similares. Esto sucede porque:
- Las técnicas posteriores a la capacitación priorizan la preferencia del usuario sobre la originalidad, reforzando las respuestas populares pero repetitivas.
- La sintonización de instrucciones a menudo suaviza la variación, haciendo que los modelos favorecen las respuestas “seguras” sobre las únicas.
- Las técnicas de promoción de la diversidad existentes (como el ajuste de la temperatura) funcionan solo en el momento de la inferencia, en lugar de ser horneados en el proceso de aprendizaje del modelo.
Esto lleva a la narración homogeneizada, donde la escritura creativa generada por IA se siente repetitiva y carece de sorpresa o profundidad.
La solución: modificar los métodos posteriores a la capacitación para priorizar la diversidad
Para superar estas limitaciones, los investigadores introdujeron DDPO y DORPO, dos extensiones de los métodos de optimización de preferencias existentes. La innovación central en estos enfoques es el uso de la desviación, una medida de cuánto difiere una respuesta de los demás, para guiar la capacitación.
Así es como funciona:
- Durante el entrenamiento, el modelo recibe un mensaje de escritura y múltiples respuestas posibles.
- Cada respuesta se compara con otras para el mismo aviso, y se calcula una puntuación de desviación.
- Las respuestas raras pero de alta calidad se ponderan más en el entrenamiento, alentando al modelo a aprender de diversos ejemplos.
Al incorporar la desviación en la optimización de preferencia directa (DPO) y la optimización de preferencias de odds ratio (ORPO), el modelo aprende a producir respuestas de alta calidad pero más variadas.
Este método asegura que las historias generadas por IA no converjan en una sola estructura predecible, sino que exploran una gama más amplia de personajes, configuraciones y temas, tal como lo haría un escritor humano.
Lo que hicieron los investigadores de MidJourney para lograr esto
El estudio involucró a la capacitación de LLM en tareas de escritura creativa utilizando un conjunto de datos del Subreddit R/WritingPrompts, una comunidad de Reddit donde los usuarios publican y responden con historias cortas.
Los investigadores utilizaron dos modelos base para su entrenamiento:
- Meta’s Llama-3.1-8b (Un modelo de 8 mil millones de parámetros de la serie Llama 3).
- Mistral-7B-V0.3 (Un modelo de 7 mil millones de parámetros de la IA Mistral).
Luego, tomaron estos modelos a través de los siguientes procesos:
- Autorización supervisada (SFT): Los modelos se ajustaron primero con LORA (adaptación de bajo rango) para ajustar los parámetros de manera eficiente.
- Optimización de preferencias:
- DPO y ORPO se usaron como líneas de base—Estos métodos estándar se centran en mejorar la calidad de la respuesta en función de las señales de preferencia del usuario.
- DDPO y DORPO se aplicaron luegoIntroducción de ponderación basada en la desviación para fomentar más respuestas únicas.
- Evaluación:
- Evaluación automática: diversidad semántica y estilística medida utilizando técnicas basadas en la incrustación.
- Evaluación humana: los jueces evaluaron si los resultados eran diversos y atractivos en comparación con GPT-4O y Claude 3.5.
Hallazgos clave del entrenamiento:
- DDPO superó significativamente a DPO estándar en términos de diversidad de producción mientras mantiene la calidad.
- Llama-3.1-8b con DDPO logró el mejor equilibrio de calidad y diversidad, produciendo respuestas que fueron más variado que GPT-4O mientras mantiene la coherencia.
- Cuando se redujo el tamaño del conjunto de datosLos modelos DDPO aún mantenían la diversidad, aunque requerían que un cierto número de muestras de capacitación diversas fuera completamente efectiva.
Implicaciones empresariales: ¿Qué significa para aquellos que usan AI para producir respuestas creativas, como en la redacción de marketing, la narración corporativa y las secuencias de comandos de cine/televisión/videojuegos?
Para los equipos de IA que administran la implementación de LLM, mejorar la diversidad de la producción mientras mantiene la calidad es un desafío crítico. Estos hallazgos tienen implicaciones significativas para las organizaciones que dependen del contenido generado por IA en aplicaciones como:
- IA conversacional y chatbots (asegurando respuestas variadas y atractivas).
- Herramientas de marketing de contenidos y narración de cuentos (evitando una copia repetitiva generada por IA).
- Desarrollo de juegos y diseño narrativo (creando diversos diálogo y historias de ramificación).
Para los profesionales responsables de ajustar e implementar modelos en un entorno empresarial, esta investigación proporciona:
- Un nuevo enfoque para el entrenamiento de LLM que mejora la creatividad sin sacrificar la calidad.
- Una alternativa práctica al ajuste de diversidad de tiempo de inferencia (como los ajustes de temperatura) al integrar la diversidad en el proceso de aprendizaje en sí.
- El potencial para desarrollar aplicaciones de IA más atractivas, desde herramientas de escritura asistidas por AI-AI hasta asistentes virtuales que pueden adaptar dinámicamente sus respuestas.
Para aquellos que manejan la orquestación y la automatización del modelo de IA, esta investigación destaca:
- La importancia de ajustar los modelos en la etapa de entrenamiento, reduciendo la necesidad de ajustes posteriores al procesamiento en el despliegue.
- Una forma de introducir la narración adaptativa en las aplicaciones impulsadas por la IA, asegurando la variabilidad al tiempo que mantiene alta la calidad del contenido.
- Un método para hacer que las salidas de LLM sean más humanas, lo cual es crucial para aplicaciones que requieren narración interactiva, participación del cliente o creación de contenido dinámico.
El futuro de los proyectos creativos generados por IA se ve brillante
El éxito de DDPO y DORPO demuestra que la capacitación de LLM con objetivos centrados en la diversidad puede producir mejoras significativas en la escritura creativa. Algunas ideas incluyen:
- Integrar el aprendizaje basado en la desviación en los modelos de IA empresariales Para mejorar la diversidad de respuesta en aplicaciones orientadas al cliente.
- Explorando cómo se aplican estos métodos a otras tareas generativascomo poesía con IA, escritura de guiones o narración de cuentos.
- Desarrollo de enfoques de entrenamiento híbrido Ese equilibrio Capacidades de diversidad e instrucciones de seguimiento para asistentes de IA.
Para aquellos interesados en aplicar estas técnicas, los investigadores planean que su código esté disponible en público en este repositorio de GitHub
Ya sea que esté ajustando las LLM para aplicaciones comerciales u optimización de la orquestación de IA a gran escala, este estudio proporciona información procesable sobre cómo los modelos pueden ser más dinámicos, atractivos y receptivos a las tareas creativas.
Al adoptar estas técnicas, los equipos de IA pueden ir más allá de los resultados rígidos y formulados, construyendo sistemas de IA que no solo son inteligentes sino que también son realmente imaginativos.
-
Startups10 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos10 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Tutoriales11 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Startups8 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Recursos10 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Startups10 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos10 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Noticias8 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo