Sora es el último modelo de IA de OpenAI diseñado para generar videos de alta fidelidad a partir de descripciones de texto, lo que lleva la creación de contenido con IA a nuevas alturas.
A diferencia de las herramientas tradicionales de generación de videos, Sora puede producir escenas complejas y dinámicas con movimiento realista, entornos detallados y personajes consistentes.
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Los modelos de AI de voz de OpenAi se han metido en problemas antes con el actor Scarlett Johansson, pero eso no impide que la compañía continúe avanzando en sus ofertas en esta categoría.
Hoy, el fabricante de chatgpt ha presentado tres, todos los nuevos modelos de voz propietarios llamados GPT-4O-transcribe, GPT-4O-Mini-transcribe y GPT-4O-MINI-TTSdisponible inicialmente en su interfaz de programación de aplicaciones (API) para que los desarrolladores de software de terceros creen sus propias aplicaciones en la cima, así como en un sitio de demostración personalizado, OpenAI.FM, que los usuarios individuales pueden acceder para pruebas y diversión limitadas.
Además, las voces del modelo GPT-4O-Mini-TTS se pueden personalizar desde varios pre-establecimiento a través de un mensaje de texto para cambiar sus acentos, tono, tono y otras cualidades vocales, incluida la transmisión de las emociones a las que el usuario les pide, lo que debería recorrer un largo camino para abordar cualquier inquietud que esté imitando deliberadamente la voz en particular (la compañía previamente se le dio el caso con el caso con Johansson, pero a la opción de abordar deliberadamente es que la Otración de la Otración es deliberadamente es deliberadamente que es una voz en particular del usuario (la compañía anteriormente negó que sea el caso con Johansson, pero a la Opción de la Otrada, que es más que imitando la voz en particular. de todos modos). Ahora depende del usuario decidir cómo quiere que suene su voz de IA al hablar.
En una demostración con VentureBeat entregado por videollamada, el miembro del personal técnico de Operai, Jeff Harris, mostró cómo usar el texto solo en el sitio de demostración, un usuario podría obtener la misma voz para sonar como un científico loco de carcajadas o un maestro de yoga zen y tranquilo.
Descubrir y refinar nuevas capacidades dentro de la base GPT-4O
Los modelos son variantes del modelo GPT-4O existente OpenAI lanzado en mayo de 2024 y que actualmente impulsa la experiencia de texto y voz de ChatGPT para muchos usuarios, pero la compañía tomó ese modelo base y lo capacitó con datos adicionales para que se produzca en la transcripción y el habla. La compañía no especificó cuándo los modelos podrían venir a ChatGPT.
“CHATGPT tiene requisitos ligeramente diferentes en términos de compensaciones de costo y rendimiento, por lo que aunque espero que se muden a estos modelos a tiempo, por ahora, este lanzamiento se centra en los usuarios de API”, dijo Harris.
Está destinado a reemplazar al modelo de texto a voz de código abierto de dos años de OpenAI, que ofrece tasas de error de palabras más bajas en los puntos de referencia de la industria y un mejor rendimiento en entornos ruidosos, con diversos acentos y a diferentes velocidades de voz, en más de 100 idiomas.
La compañía publicó una tabla en su sitio web que muestra cuánto más bajas son las tasas de error de los modelos GPT-4O-Transcribe para identificar palabras en 33 idiomas, en comparación con Whisper, con un 2.46% impresionantemente bajo en inglés.
“Estos modelos incluyen cancelación de ruido y un detector de actividad de voz semántica, que ayuda a determinar cuándo un altavoz ha terminado un pensamiento, mejorando la precisión de la transcripción”, dijo Harris.
Harris le dijo a VentureBeat que la nueva familia del modelo GPT-4O-Transcribe no está diseñada para ofrecer “diarización” o la capacidad de etiquetar y diferenciar entre diferentes altavoces. En su lugar, está diseñado principalmente para recibir una (o posiblemente múltiples voces) como un solo canal de entrada y responder a todas las entradas con una sola voz de salida en esa interacción, por mucho tiempo que tarda.
La compañía está organizando aún más una competencia para el público en general para encontrar los ejemplos más creativos de usar su sitio de voz de demostración OpenAI.FM y compartirlos en línea etiquetando la cuenta de @openai en X. El ganador recibirá una radio de ingeniería adolescente personalizada con logotipo de OpenAi, que Openai Head of Product, la plataforma Olivier Godement dijo que es uno de los tres en el mundo.
Una mina de oro de aplicaciones de audio
Las mejoras los hacen particularmente adecuados para aplicaciones como los centros de llamadas de los clientes, la transcripción de notas de reunión y los asistentes con IA.
Impresionantemente, los agentes recién lanzados de la compañía SDK de la semana pasada también permiten a aquellos desarrolladores que ya han creado aplicaciones sobre sus modelos de idiomas grandes basados en texto como el GPT-4O regular para agregar interacciones con voz fluida con solo “nueve líneas de código”, según un presentador durante un livestro de YouTube OpenAi que anuncia los nuevos modelos (embarcados anteriormente).
Por ejemplo, una aplicación de comercio electrónico creada en la cima de GPT-4O ahora podría responder a las preguntas de los usuarios por turnos como “Cuéntame sobre mis últimos pedidos” en el habla con solo segundos de ajuste el código agregando estos nuevos modelos.
“Por primera vez, presentamos la transmisión de voz a texto, lo que permite a los desarrolladores ingresar continuamente audio y recibir un flujo de texto en tiempo real, haciendo que las conversaciones se sientan más naturales”, dijo Harris.
Aún así, para aquellos desarrolladores que buscan experiencias de voz de IA de baja latencia en tiempo real, OpenAi recomienda usar sus modelos de voz a voz en la API de tiempo real.
Precios y disponibilidad
Los nuevos modelos están disponibles inmediatamente a través de la API de OpenAI, con el precio de la siguiente manera:
• GPT-4O-Transcribe: $ 6.00 por 1 m tokens de entrada de audio (~ $ 0.006 por minuto)
• GPT-4O-Mini-Transcribe: $ 3.00 por 1 m tokens de entrada de audio (~ $ 0.003 por minuto)
• GPT-4O-MINI-TTS: $ 0.60 por 1 m tokens de entrada de texto, $ 12.00 por 1 m tokens de salida de audio (~ $ 0.015 por minuto)
Sin embargo, llegan a una época de competencia más feroz en la transcripción de IA y el espacio del habla, con empresas de IA dedicadas del habla como once que ofrece su nuevo modelo de escriba que admite diarización y cuenta con una tasa de error reducida de 3,3% en inglés, y un precio de $ 0.40 por hora de entrada (o $ 0.006 por minuto, aproximadamente, equivalente).
Otra startup, Hume AI ofrece un nuevo modelo de octava TTS con la personalización de la pronunciación e inflexión de la pronunciación e emocional a nivel de oración, basada completamente en las instrucciones del usuario, no en cualquier voz preestablecida. El precio de Octave TTS no es directamente comparable, pero hay un nivel libre que ofrece 10 minutos de audio y los costos aumentan desde allí entre
Mientras tanto, los modelos de audio y discurso más avanzados también están llegando a la comunidad de código abierto, incluida una llamada Orpheus 3B que está disponible con una licencia permisiva de Apache 2.0, lo que significa que los desarrolladores no tienen que pagar costos para ejecutarlo, siempre que tengan el hardware o los servidores en la nube correctos.
Adopción de la industria y resultados tempranos
Varias compañías ya han integrado los nuevos modelos de audio de Openai en sus plataformas, informando mejoras significativas en el rendimiento de la IA de voz, según testimonios compartidos por OpenAI con VentureBeat.
Eliseai, una compañía centrada en la automatización de la administración de propiedades, encontró que el modelo de texto a voz de Openi permitió interacciones más naturales y emocionalmente ricas con los inquilinos.
Las voces mejoradas hicieron que el arrendamiento, el mantenimiento y la programación de la gira funcionen con una mayor atracción, lo que llevó a una mayor satisfacción del inquilino y mejoras tasas de resolución de llamadas.
Decagon, que construye experiencias de voz con IA, vio una mejora del 30% en la precisión de la transcripción utilizando el modelo de reconocimiento de voz de OpenAI.
Este aumento en la precisión ha permitido que los agentes de IA de Decagon se desempeñen de manera más confiable en escenarios del mundo real, incluso en entornos ruidosos. El proceso de integración fue rápido, con un decagón incorporando el nuevo modelo en su sistema en un día.
No todas las reacciones al último lanzamiento de OpenAi han sido cálidas. El cofundador del software de Dawn AI App Analytics Ben Hylak (@benhylak), un ex diseñador de interfaces humanas de Apple, publicado en X que, si bien los modelos parecen prometedores, el anuncio “se siente como un retiro de la voz en tiempo real”, lo que sugiere un cambio del enfoque anterior de Openai en la IA conversacional de baja latencia a través de Chatgpt.
Además, el lanzamiento fue precedido por una filtración temprana en X (anteriormente Twitter). TestingCatalog News (@TestingCatalog) publicó detalles sobre los nuevos modelos varios minutos antes del anuncio oficial, enumerando los nombres de GPT-4O-Mini-TTS, GPT-4O-TRANSCRIE y GPT-4O-Mini-Trancribe. La fuga fue acreditada a @stiventhedev, y la publicación rápidamente ganó tracción.
Pero mirando hacia el futuro, Operai planea continuar refinando sus modelos de audio y está explorando las capacidades de voz personalizadas al tiempo que garantiza la seguridad y el uso responsable de la IA. Más allá del audio, OpenAi también está invirtiendo en IA multimodal, incluido el video, para habilitar experiencias más dinámicas e interactivas basadas en agentes.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
OpenAi, que está perdiendo miles de millones de dólares, puede tener dificultades en el nuevo panorama de los programas de inteligencia artificial generativos principales, según un destacado erudito de IA.
“El problema no es realmente cuyo [AI] El modelo es 1% mejor; Creo que todos son muy buenos “, dijo el erudito de IA y el empresario Kai-Fu Lee en una entrevista en Bloomberg Television el jueves por la mañana.” El problema es: es OpenAi’s [business] modelo incluso sostenible? ”
Más difícil de competir
Lee dijo que los modelos de “base” o “pioneros” de AI, como el GPT de OpenAi, se convierten en productos, se vuelve más difícil para OpenAi competir con la economía más barata presentada por Deepseek AI.
También: ¿Qué es Deepseek Ai? ¿Es seguro? Aquí está todo lo que necesitas saber
“Estás gastando $ 7 mil millones o $ 8 mil millones al año, haciendo una pérdida masiva, y aquí tienes un competidor que viene con un modelo de código abierto que es gratis”, dijo Lee, comparando las finanzas de Openi con las de Deepseek AI.
“Si piensa en el costo de OpenAI de $ 7 mil millones de costos operativos, en 2024, Deepseek probablemente operó con el 2% de los gastos operativos”.
También: El nuevo modelo de IA de código abierto de Deepseek puede superar a O1 por una fracción del costo
“Y esa compañía también es infinitamente duradera”, dijo Lee sobre Deepseek, “porque este fundador tiene suficiente dinero para financiarlo a nivel actual, y ha reducido el costo de la informática por un factor de cinco a diez; con ese tipo de competidor, creo que Sam Altman probablemente no duerme muy bien”.
Bloomberg
El costo aún no ha sido justificado
Deepseek AI, que causó un accidente en el mercado de valores en enero de este año, es la creación de una unidad de un fondo de cobertura chino dirigido por Liang Wenfeng. La compañía ha afirmado que su modelo de IA insignia, R1, puede hacer lo que Operai hace por una décima parte del costo.
Lee, quien se desempeñó como director fundador de Microsoft Research Asia antes de trabajar en Google y Apple, fundó su compañía actual, Sinovation Ventures, para financiar nuevas empresas como 01.ai.
También: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la versión gratuita
La empresa de inicio de Lee hace un motor de búsqueda de IA generativo llamado Beago. Lee dijo que la compañía ahora está construyendo una especie de “sistema operativo” para funcionar sobre los modelos de IA como el R1 de Deepseek, específicamente para servir a China.
Ese esfuerzo está alineado con el gran impulso de China para hacer que el software de código abierto de Deepseek AI, y otros modelos como el Qwen de Alibaba, generalizado en toda la economía de China.
“La nueva gran dirección del gobierno chino se llama nueva productividad de calidad”, dijo Lee, que implica, “utilizando alta tecnología para crear productividad, eficiencia y realmente convertir todas las industrias tradicionales en otras más rentables y competitivas”.
También: Google Gemini acaba de hacer dos de sus mejores funciones disponibles de forma gratuita
Los comentarios de Lee sobre Operai son una continuación de una advertencia económica que ha estado haciendo durante algún tiempo.
Lee ha señalado previamente que la economía de la industria de la IA es insostenible para muchas empresas. Las empresas están invirtiendo masivamente en centros de datos y chips de NVIDIA, para construir modelos cada vez mayores. Pero el costo aún no ha sido justificado por la recompensa, dijo.
El código abierto será el ganador
El jueves, Lee se expandió sobre esos pensamientos, diciéndole al programa que “el modelo fundamental subyacente está mercantilizado: cuesta un montón de dinero y es difícil monetizar”.
“Claramente, el pre-entrenamiento de un modelo gigante se ha consolidado”, agregó Lee. “Se está quedando claro que la fuente abierta será el ganador” porque es más barato hacer y operar, dijo, como lo ejemplifican los modelos R1 de código abierto de Deepseek AI versus los modelos de código cerrado como los de OpenAi y Anthrope.
También: Operai quiere intercambiar el acceso al gobierno a los modelos de IA por menos regulaciones
Lee indicó que Openai y Anthrope están negando sobre esa realidad económica. Ambos “construyen sus negocios pensando que pueden construir un modelo cerrado que sea mejor que cualquier otra persona, y la economía de Deepseek AI los sorprendió”, dijo.
La verdadera indicación de la economía de la IA, dijo Lee, es que la mayoría de los capitalistas de riesgo no financiarán nuevas empresas de modelos de la Fundación AI. En cambio, los inversores de inicio están lanzando dinero a las aplicaciones de seguimiento que viajan encima de la fundación, o “pioneros”, modelos, como los suyos O1.ai. Esa capital de inicio para aplicaciones de IA “se está volviendo gangbusters”, dijo Lee.
También: AIA AI, Anthrope nos invita a los científicos de EE. UU. A experimentar con modelos fronterizos
Cuando se le pidió que predeciera el futuro de los modelos de la Fundación, Lee no pidió la inminente desaparición de OpenAi. “Creo que China tendrá tres ganadores, y Estados Unidos podría tener cuatro ganadores, al final”, dijo Lee. Pero, “docenas querrán competir”.
Zdnet
Los lanzamientos de frecuentes continuarán
La industria de la IA en general es “todavía ultra competitiva”, dijo Lee. “Espero que continúen los lanzamientos frecuentes” de los nuevos modelos de idiomas grandes, de “las compañías de rápido movimiento”, agregó.
Entre esas compañías de rápido movimiento, dijo Lee, los modelos Grok de Elon Musk’s Grok, y Deepseek AI, son los innovadores de más rápido movimiento. “Creo que Deepseek actualmente tiene el impulso”, dijo.
También: Por qué el último modelo de Claude de Anthrope podría ser la nueva IA para vencer, y cómo probarlo
Operai, Alibaba, Google y Anthrope “están haciendo movimientos respetables”, agregó.
Un posible ganador que no sea completamente apreciado es el propietario de Tiktok Bytedance, dijo Lee.
“Enumeré el bytedance porque sabemos cuánto están gastando, y una forma en que puede justificar gastar una tonelada de dinero en modelos pioneros es porque tiene tantos clientes […] El bytedance tiene más formas de monetizar que nadie “.
También: ¿Qué es la dispersión? Deepseek AI’s Secret, revelado por los investigadores de Apple
El gigante chino de comercio electrónico Baidu también podría ser un contendiente, dijo Lee. Históricamente, la compañía ha tenido “ese tipo de visión”, que significa la misma sensibilidad visionaria que Openai, pero “la ejecución actualmente está rezagada” en términos de producir nuevas tecnologías de modelos de base, dijo.
Un ganador y un segundo lugar
Incluso un mercado vibrante como los modelos de IA eventualmente puede ver que las grandes empresas desaparecen, dijo Lee.
También: ¿Podría ser esta la razón por la que cancela su suscripción de chatgpt?
“En la mayoría de los mercados, terminas con solo dos [competitors]”Notó Lee de los mercados de tecnología”, el ganador, que gana dinero y el subcampeón, que rompe el punto de vista, y todos los demás, que mueren “.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.
OpenAi, que está perdiendo miles de millones de dólares, puede tener dificultades en el nuevo panorama de los programas de inteligencia artificial generativos principales, según un destacado erudito de IA.
“El problema no es realmente cuyo [AI] El modelo es 1% mejor; Creo que todos son muy buenos “, dijo el erudito de IA y el empresario Kai-Fu Lee en una entrevista en Bloomberg Television el jueves por la mañana.” El problema es: es OpenAi’s [business] modelo incluso sostenible? ”
Más difícil de competir
Lee dijo que los modelos de “base” o “pioneros” de AI, como el GPT de OpenAi, se convierten en productos, se vuelve más difícil para OpenAi competir con la economía más barata presentada por Deepseek AI.
También: ¿Qué es Deepseek Ai? ¿Es seguro? Aquí está todo lo que necesitas saber
“Estás gastando $ 7 mil millones o $ 8 mil millones al año, haciendo una pérdida masiva, y aquí tienes un competidor que viene con un modelo de código abierto que es gratis”, dijo Lee, comparando las finanzas de Openi con las de Deepseek AI.
“Si piensa en el costo de OpenAI de $ 7 mil millones de costos operativos, en 2024, Deepseek probablemente operó con el 2% de los gastos operativos”.
También: El nuevo modelo de IA de código abierto de Deepseek puede superar a O1 por una fracción del costo
“Y esa compañía también es infinitamente duradera”, dijo Lee sobre Deepseek, “porque este fundador tiene suficiente dinero para financiarlo a nivel actual, y ha reducido el costo de la informática por un factor de cinco a diez; con ese tipo de competidor, creo que Sam Altman probablemente no duerme muy bien”.
Bloomberg
El costo aún no ha sido justificado
Deepseek AI, que causó un accidente en el mercado de valores en enero de este año, es la creación de una unidad de un fondo de cobertura chino dirigido por Liang Wenfeng. La compañía ha afirmado que su modelo de IA insignia, R1, puede hacer lo que Operai hace por una décima parte del costo.
Lee, quien se desempeñó como director fundador de Microsoft Research Asia antes de trabajar en Google y Apple, fundó su compañía actual, Sinovation Ventures, para financiar nuevas empresas como 01.ai.
También: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la versión gratuita
La empresa de inicio de Lee hace un motor de búsqueda de IA generativo llamado Beago. Lee dijo que la compañía ahora está construyendo una especie de “sistema operativo” para funcionar sobre los modelos de IA como el R1 de Deepseek, específicamente para servir a China.
Ese esfuerzo está alineado con el gran impulso de China para hacer que el software de código abierto de Deepseek AI, y otros modelos como el Qwen de Alibaba, generalizado en toda la economía de China.
“La nueva gran dirección del gobierno chino se llama nueva productividad de calidad”, dijo Lee, que implica, “utilizando alta tecnología para crear productividad, eficiencia y realmente convertir todas las industrias tradicionales en otras más rentables y competitivas”.
También: Google Gemini acaba de hacer dos de sus mejores funciones disponibles de forma gratuita
Los comentarios de Lee sobre Operai son una continuación de una advertencia económica que ha estado haciendo durante algún tiempo.
Lee ha señalado previamente que la economía de la industria de la IA es insostenible para muchas empresas. Las empresas están invirtiendo masivamente en centros de datos y chips de NVIDIA, para construir modelos cada vez mayores. Pero el costo aún no ha sido justificado por la recompensa, dijo.
El código abierto será el ganador
El jueves, Lee se expandió sobre esos pensamientos, diciéndole al programa que “el modelo fundamental subyacente está mercantilizado: cuesta un montón de dinero y es difícil monetizar”.
“Claramente, el pre-entrenamiento de un modelo gigante se ha consolidado”, agregó Lee. “Se está quedando claro que la fuente abierta será el ganador” porque es más barato hacer y operar, dijo, como lo ejemplifican los modelos R1 de código abierto de Deepseek AI versus los modelos de código cerrado como los de OpenAi y Anthrope.
También: Operai quiere intercambiar el acceso al gobierno a los modelos de IA por menos regulaciones
Lee indicó que Openai y Anthrope están negando sobre esa realidad económica. Ambos “construyen sus negocios pensando que pueden construir un modelo cerrado que sea mejor que cualquier otra persona, y la economía de Deepseek AI los sorprendió”, dijo.
La verdadera indicación de la economía de la IA, dijo Lee, es que la mayoría de los capitalistas de riesgo no financiarán nuevas empresas de modelos de la Fundación AI. En cambio, los inversores de inicio están lanzando dinero a las aplicaciones de seguimiento que viajan encima de la fundación, o “pioneros”, modelos, como los suyos O1.ai. Esa capital de inicio para aplicaciones de IA “se está volviendo gangbusters”, dijo Lee.
También: AIA AI, Anthrope nos invita a los científicos de EE. UU. A experimentar con modelos fronterizos
Cuando se le pidió que predeciera el futuro de los modelos de la Fundación, Lee no pidió la inminente desaparición de OpenAi. “Creo que China tendrá tres ganadores, y Estados Unidos podría tener cuatro ganadores, al final”, dijo Lee. Pero, “docenas querrán competir”.
Zdnet
Los lanzamientos de frecuentes continuarán
La industria de la IA en general es “todavía ultra competitiva”, dijo Lee. “Espero que continúen los lanzamientos frecuentes” de los nuevos modelos de idiomas grandes, de “las compañías de rápido movimiento”, agregó.
Entre esas compañías de rápido movimiento, dijo Lee, los modelos Grok de Elon Musk’s Grok, y Deepseek AI, son los innovadores de más rápido movimiento. “Creo que Deepseek actualmente tiene el impulso”, dijo.
También: Por qué el último modelo de Claude de Anthrope podría ser la nueva IA para vencer, y cómo probarlo
Operai, Alibaba, Google y Anthrope “están haciendo movimientos respetables”, agregó.
Un posible ganador que no sea completamente apreciado es el propietario de Tiktok Bytedance, dijo Lee.
“Enumeré el bytedance porque sabemos cuánto están gastando, y una forma en que puede justificar gastar una tonelada de dinero en modelos pioneros es porque tiene tantos clientes […] El bytedance tiene más formas de monetizar que nadie “.
También: ¿Qué es la dispersión? Deepseek AI’s Secret, revelado por los investigadores de Apple
El gigante chino de comercio electrónico Baidu también podría ser un contendiente, dijo Lee. Históricamente, la compañía ha tenido “ese tipo de visión”, que significa la misma sensibilidad visionaria que Openai, pero “la ejecución actualmente está rezagada” en términos de producir nuevas tecnologías de modelos de base, dijo.
Un ganador y un segundo lugar
Incluso un mercado vibrante como los modelos de IA eventualmente puede ver que las grandes empresas desaparecen, dijo Lee.
También: ¿Podría ser esta la razón por la que cancela su suscripción de chatgpt?
“En la mayoría de los mercados, terminas con solo dos [competitors]”Notó Lee de los mercados de tecnología”, el ganador, que gana dinero y el subcampeón, que rompe el punto de vista, y todos los demás, que mueren “.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.