Connect with us

Noticias

Operai sacude la voz de voz con nuevos modelos de discurso |

Published

on

Opadai anunció el lanzamiento de nuevos modelos Para el reconocimiento automático de voz (ASR) y el texto a la voz (TTS), marcando otra evolución en la tecnología de voz impulsada por la IA. Sus nuevos modelos prometen no solo una precisión superior, sino también a mejorar la asequibilidad, lo que los convierte en una opción atractiva para las empresas que buscan desplegar agentes de voz con AI.

Capacidades mejoradas de reconocimiento de voz

Los nuevos modelos ASR, GPT-4O-Transcribe y GPT-4O-Mini-Transcribe, representan un salto notable más allá de Whisper, el modelo de transcripción de última generación de OpenAi. Estos modelos ofrecen tasas de error de palabras mejoradas y un mejor manejo de idiomas, acentos y ruido de fondo. La introducción de la versión “mini” es particularmente notable, ya que tiene un precio competitivo para hacer que la transcripción de alta calidad sea más accesible para las empresas que requieren soluciones escalables.

Tecnología avanzada de texto a voz

Operai también ha mejorado significativamente sus capacidades TTS. Los nuevos modelos pueden generar voces altamente realistas, con entonaciones y expresividad de sonido natural. Una característica destacada es la capacidad de dar forma al tono, la emoción y la entrega de una voz utilizando indicaciones de lenguaje natural. Esto significa que las empresas pueden crear voces de IA adaptadas a escenarios específicos, ya sea un representante de servicio al cliente amigable y empático, una voz formal y autorizada para llamadas relacionadas con el cumplimiento, o un narrador dinámico para demostraciones de productos. Esta flexibilidad hace que los modelos TTS de OpenAI sean algunas de las herramientas más versátiles disponibles para construir interacciones de voz atractivas.

Arquitectura del agente de voz: dos enfoques

Otro aspecto interesante de Anuncio de Openai es su enfoque para la arquitectura de agente de voz impulsada por la IA. Actualmente, ha habido dos enfoques principales:

  • Modelo de voz a voz (S2S): Traduce directamente la entrada hablada en discurso generado con una latencia mínima
  • Enfoque encadenado: Divide el proceso en pasos discretos:
    • ASR transcribe el discurso al texto
    • Un modelo de lenguaje grande (LLM) procesa el texto para generar una respuesta
    • TTS convierte la respuesta nuevamente en discurso

Operai está distinguiendo entre estos enfoques, reconociendo que, si bien S2S ofrece una latencia más baja, proporciona menos control. El enfoque encadenado, que ahora es compatible con OpenAI, es más robusto para los casos de uso empresarial, como el servicio al cliente, donde el control, la precisión y el cumplimiento son críticos.

Implicaciones del mercado para plataformas sin código

Con este lanzamiento, Operai ahora ofrece una pila completa de modelos para apoyar el desarrollo de sofisticados agentes de voz de Genai. Esto tiene implicaciones para el mercado, particularmente para las empresas que construyen soluciones sin código para la IA de voz empresarial. Estas plataformas, que permiten a las empresas crear e implementar agentes de voz impulsados ​​por la IA sin una programación extensa, ahora tienen un nuevo conjunto de modelos de alta calidad para integrarse en sus ofertas.

Sin embargo, esto también plantea la cuestión de la diferenciación: si la mayoría de los proveedores sin código terminan utilizando los modelos de OpenAI, el principal factor competitivo cambia de la calidad de la IA subyacente a la usabilidad de la plataforma misma.

Para los proveedores de agentes de voz sin código, esto podría significar que la diferenciación debe venir en otras áreas, como la amplitud de las integraciones, la intuición del diseño y la fuerza de las características críticas como las pruebas, la evaluación y el monitoreo.

La usabilidad, el cumplimiento y el análisis robusto probablemente se convertirán en las características definitorias que distinguen las plataformas en un paisaje donde los modelos de IA fundamentales son en gran medida las mismas. Por supuesto, los modelos de audio competitivos de las compañías rivales también podrían proporcionar diferenciación si ofrecen un rendimiento significativamente mejor a un costo comparable o menor.

Estrategia empresarial de Openai

Este anuncio también señala el movimiento continuo de OpenAi hacia la infraestructura de IA empresarial. Al ofrecer modelos ASR, LLM y TTS de alta calidad, OpenAi se está posicionando como el proveedor fundamental de las interacciones de voz impulsadas por la IA. La compañía no ofrece un constructor de agentes de voz sin código, sino que proporciona los componentes del desarrollador necesarios para construir dichos sistemas.

Este enfoque es similar a cómo los LLM de OpenAI se han convertido en la columna vertebral para varias aplicaciones con IA en todas las industrias. Sugiere que OpenAI ve a la voz de voz de grado empresarial como un área creciente de demanda y quiere establecerse como el proveedor de referencia para organizaciones que buscan modelos de IA robustos para las interacciones con los clientes.

Impacto en las soluciones del centro de contacto

Para los proveedores de CCAA, los nuevos modelos Operai crean oportunidades y desafíos. Los proveedores de soluciones ahora tienen modelos de vanguardia nuevos y asequibles para proporcionar habilidades de automatización de voz mejoradas en sus productos. Sin embargo, la competencia intensificada entre los proveedores que utilizan capacidades de IA similares medias Es posible que las compañías de CCAA necesiten encontrar nuevas formas de diferenciar sus ofertas de agentes de voz. Por lo menos, el conjunto de modelos de OpenAI ejerce presión sobre los proveedores de CCAA para garantizar que ofrezcan plataformas de agentes de voz sin código al menos tan robustos y capaces como aquellas que pueden ser fácilmente creadas por programadores novatos que utilizan modelos y herramientas de desarrolladores de OpenAI.

La experiencia del cliente y los proveedores de CCAA también pueden agregar un valor estratégico mucho más allá de la conexión de modelos ASR, LLM y TTS. Por ejemplo, en campañas salientes, el éxito depende de los datos del cliente, los objetivos comerciales y el cumplimiento. Las plataformas CX pueden ofrecer herramientas para el diseño de la campaña, la ejecución y el análisis.

Para el apoyo, incluso los grandes agentes virtuales necesitan un conocimiento fresco y preciso. Los proveedores pueden ayudar a administrar y actualizar bases de conocimiento para garantizar respuestas confiables alineadas en políticas.

El monitoreo del rendimiento también es vital. Análisis en tiempo real, seguimiento de sentimientos y herramientas de retroalimentación ayudan a ajustar las conversaciones. Las ideas de ROI también son esenciales: los líderes quieren rastrear los ahorros, los impulso de CSAT y el rendimiento en los equipos.

El futuro de la adopción de la voz de la voz de la empresa

En última instancia, el anuncio de OpenAI representa un cambio en cómo las empresas construirán e implementarán agentes de voz impulsados ​​por la IA. Con mejores modelos, menores costos y más flexibilidad, es probable que veamos una aceleración en la adopción de agentes de voz de IA en el servicio al cliente y más allá. Las compañías que tienen éxito en este nuevo panorama probablemente serán las que van más allá de los modelos de IA y se centrarán en ofrecer soluciones perfectas, escalables y diferenciadas a los clientes empresariales.

‹Cognigy muestra la innovación y el valor de AI en Nexus 2025 Summit

Categorías: artículos

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Operai, Google y Xai trabajan para reclutar Top AI Talent: A continuación se muestra cómo

Published

on

jugar

  • La competencia para los principales investigadores de IA se ha intensificado en niveles sin precedentes en Silicon Valley.
  • Empresas como OpenAI y Google están ofreciendo paquetes de compensación exorbitantes, incluidos bonos y capital multimillonarios, para atraer y retener talento.
  • La escasez de personas con experiencia en modelos de idiomas grandes es impulsar las tácticas de reclutamiento agresivas.

SAN FRANCISCO – El concurso en Silicon Valley para dominar la inteligencia artificial se está desarrollando en una nueva corte: los investigadores superestrella.

Si bien la lucha para atraer el mejor talento y mantenerlos felices siempre ha sido un sello distintivo de la industria tecnológica, desde que ChatGPT se lanzó a fines de 2022, el reclutamiento se ha intensificado a los niveles profesionales de atletas, una docena de personas que han estado involucradas en el reclutamiento de investigadores de IA dijeron a Reuters.

“Los laboratorios de IA se acercan a la contratación como un juego de ajedrez”, dijo Ariel Herbert-Voss, CEO de la startup de ciberseguridad Runsybil y un ex investigador de Operai que ingresó a la pelea de talentos después de lanzar su propia compañía. “Quieren moverse lo más rápido posible, por lo que están dispuestos a pagar mucho por candidatos con experiencia especializada y complementaria, al igual que las piezas del juego. Son como, ‘¿Tengo suficientes torres?

Empresas, incluidas OpenAi y Google, ansiosas por obtener o mantenerse por delante en la carrera para crear los mejores modelos de IA, cortan a estos llamados “IC”: los contribuyentes individuales cuyo trabajo puede hacer o romper empresas.

Noam Brown, uno de los investigadores detrás de los recientes avances de IA de OpenAi en el razonamiento complejo de matemáticas y ciencias, dijo que cuando exploró las oportunidades de trabajo en 2023, se encontró siendo cortejado por la élite de Tech: el almuerzo con el fundador de Google Sergey Brin, póker de Sam Altman’s y una visita de avión privado de un ansioso inversor. Elon Musk también hará llamadas para cerrar candidatos para Xai, su compañía de IA, dijeron que dos personas que han hablado con él. Xai no respondió a una solicitud de comentarios.

Finalmente, dijo Brown, eligió OpenAi porque OpenAi estaba dispuesto a poner recursos, tanto las personas como el cálculo, detrás del trabajo que estaba entusiasmado.

“En realidad, no era financieramente la mejor opción que tenía”, dijo, explicando que la compensación no es lo más importante para muchos investigadores. Eso no ha impedido que las empresas arrojen millones de dólares en bonos y paquetes de paquetes a los investigadores STAR, según siete fuentes familiarizadas con el asunto.

Algunos investigadores de los principales abiertos que han indicado interés en unirse a la nueva compañía de la ex científica jefe Ilya Sutskever, SSI, se les ofreció bonos de retención de $ 2 millones, además de aumentos de capital de $ 20 millones o más, si se quedaron, a dos fuentes le dijeron a Reuters. Algunos solo se les ha requerido que se queden durante un año para obtener la bonificación completa. SSI y OpenAi declinaron hacer comentarios.

Otros investigadores de Operai que han presentado ofertas de once laboratorios han recibido bonos de al menos $ 1 millón para quedarse en OpenAI, dijeron dos fuentes a Reuters. Los principales investigadores de OpenAI reciben regularmente paquetes de compensación de más de $ 10 millones al año, dijeron las fuentes.

Google Deepmind ha ofrecido a los principales investigadores $ 20 millones por año paquetes de compensación, otorgados con subvenciones de capital fuera del ciclo específicamente a los investigadores de IA, y también ha reducido la adjudicación de algunos paquetes de valores a 3 años, en lugar de los 4 años normales, dijeron las fuentes. Google declinó hacer comentarios.

Por el contrario, los principales ingenieros de Big Tech Companies reciben una compensación anual promedio de $ 281,000 en salario y $ 261,000 en capital, según CompreHensive.io, una compañía que rastrea la compensación de la industria tecnológica.

La guerra de talentos de IA

Si bien el talento siempre ha sido importante en Silicon Valley, la diferencia con el auge de la IA es cuán pocas personas están en este grupo de élite, dependiendo de a quién le pregunte, el número podría variar de unas pocas docenas a alrededor de mil, ocho fuentes dijeron a Reuters.

Eso se basa en la creencia de que este pequeño número de “IC” ha hecho contribuciones de gran tamaño al desarrollo de grandes modelos de idiomas, la tecnología en la que se basa el auge de IA de hoy y, por lo tanto, podría hacer o romper el éxito de un modelo de IA.

“Seguro que los ingenieros 10X son geniales, pero maldita sea esos 10,000x ingenieros/investigadores …”, tuiteó el CEO de OpenAI, Sam Altman, a finales de 2023, aludiendo a una máxima larga que los mejores ingenieros de software fueron 10 veces más buenos que el promedio (10X), pero ahora en la industria de la IA, los mejores investigadores son 10,000 veces (10,000x) tan efectivos que el promedio.

La partida de septiembre del director de tecnología de OpenAi, Mira Murati, quien luego fundó una startup rival de IA, ha intensificado la Guerra de Talento AI. Murati, conocido en Operai por sus habilidades de gestión y destreza de ejecución, reclutó a 20 empleados de Operai antes de anunciar su empresa en febrero. Ahora ha atraído aún más investigadores de Operai y otros laboratorios, y el equipo ahora tiene alrededor de 60 personas, dijeron dos fuentes a Reuters. Aunque la compañía no tiene ningún producto en el mercado, Murati está en medio de cerrar una ronda de semillas récord que se basa en la fuerza del equipo. Un representante de Murati declinó hacer comentarios.

La escasez de talento ha obligado a las empresas a acercarse a la contratación creativamente. Zeki Data, una empresa de datos centrada en identificar el talento de IA de los mejores IA, dijo que está empleando técnicas de análisis de datos de la industria del deporte como la popularizada por la película “Moneyball” para identificar talento prometedor pero no descubierto. Por ejemplo, los datos de Zeki descubrieron que Anthrope ha estado contratando investigadores con antecedentes de física teórica, y otras compañías de inteligencia artificial han contratado individuos con antecedentes de computación cuántica.

Anthrope no respondió a una solicitud de comentarios.

“En mi equipo, tengo matemáticos extraordinariamente talentosos que no habrían venido a este campo si no fuera por el rápido progreso que estamos viendo ahora”, dijo Sébastien Bubeck, quien dejó su papel como vicepresidente de investigación de Genai en Microsoft el año pasado para unirse a Openi. “Estamos viendo una afluencia de talento de todos los campos que están en IA ahora. Y algunas de estas personas son muy, muy inteligentes, y marcan la diferencia”.

Informes de Anna Tong en San Francisco; Edición de Kenneth Li y Claudia Parsons

Continue Reading

Noticias

Probé Claude 4 soneto vs chatgpt-4o con 7 indicaciones: los resultados fueron sorprendentes

Published

on

Los chatbots de IA avanzan rápidamente y los probando hasta sus límites es lo que hago para vivir. El soneto Claude 4 de Anthrope y el chatgpt-4o de OpenAI son dos de las herramientas más inteligentes disponibles en este momento. Pero, ¿cómo se comparan realmente en el uso diario?

Para averiguarlo, le di a ambos modelos el mismo conjunto de 7 indicaciones; Cubriendo todo, desde narración de cuentos y productividad hasta apoyo emocional y pensamiento crítico.

Continue Reading

Noticias

Una nueva IA prepara proteínas de diseñador con solo un mensaje de texto

Published

on

“Escríbeme un resumen conciso de Misión imposible Personajes y tramas hasta la fecha ”, recientemente le pregunté a ChatGPT antes de atrapar la última entrada de franquicia. Se entregó. No necesitaba entender su código o conocer su conjunto de datos de capacitación. Todo lo que tenía que hacer era preguntar.

ChatGPT y otros chatbots impulsados ​​por modelos de idiomas grandes, o LLM, son más populares que nunca. Los científicos están tomando nota. Las proteínas, los caballos de batalla moleculares de las células, mantienen nuestros cuerpos corriendo suavemente. También tienen un idioma propio. Los científicos asignan una letra abreviada a cada uno de los 20 aminoácidos que componen proteínas. Al igual que las palabras, las cadenas de estas letras se unen para formar proteínas de trabajo, su secuencia determina la forma y la función.

Inspirados en LLM, los científicos ahora están construyendo modelos de lenguaje de proteínas que diseñan proteínas desde cero. Algunos de estos algoritmos están disponibles públicamente, pero requieren habilidades técnicas. ¿Qué pasaría si su investigador promedio podría simplemente pedirle a una IA que diseñe una proteína con un solo mensaje?

El mes pasado, los investigadores dieron a Protein Design AI el tratamiento con chatgpt. De una descripción del tipo, estructura o funcionalidad de una proteína que está buscando, el algoritmo produce posibles candidatos. En un ejemplo, la IA, denominada pinal, hizo con éxito múltiples proteínas que podrían descomponer el alcohol cuando se analizó dentro de las células vivas. Puedes probarlo aquí.

Pinal es el último en un creciente conjunto de algoritmos que traducen el inglés cotidiano en nuevas proteínas. Estos diseñadores de proteínas entienden el lenguaje sencillo y la biología estructural, y actúan como guías para los científicos que exploran proteínas personalizadas, con poca experiencia técnica.

Es un “enfoque ambicioso y general”, el equipo internacional detrás de Pinal escribió en una preimpresión publicada en Biorxiv. La IA aprovecha el “poder descriptivo y la flexibilidad del lenguaje natural” para hacer que las proteínas de diseñador sean más accesibles para los biólogos.

Enfrentados contra los algoritmos de diseño de proteínas existentes, Pinal entendió mejor el objetivo principal de una proteína objetivo y aumentó las posibilidades de que funcionaría en las células vivas.

“Somos los primeros en diseñar una enzima funcional usando solo texto”, dijo Fajie Yuan, científica de IA de la Universidad de Westlake en China que dirigió el equipo. Naturaleza. “Es como la ciencia ficción”.

Más allá de la evolución

Las proteínas son los componentes básicos de la vida. Forman nuestros cuerpos, el metabolismo del combustible y son el objetivo de muchos medicamentos. Estas intrincadas moléculas comienzan a partir de una secuencia de “letras” de aminoácidos, que se unen entre sí y eventualmente se doblan en intrincadas estructuras 3D. Muchos elementos estructurales, un bucle aquí, un tejido o bolsillo allí, son esenciales para su función.

Los científicos han intentado durante mucho tiempo diseñar proteínas con nuevas habilidades, como enzimas que descomponen de manera eficiente los plásticos. Tradicionalmente, han personalizado las proteínas existentes para un cierto uso biológico, químico o médico. Estas estrategias “están limitadas por su dependencia de las plantillas de proteínas existentes y las limitaciones evolutivas naturales”, escribieron los autores. Los modelos de lenguaje de proteínas, en contraste, pueden soñar con un universo de nuevas proteínas sin ataduras de la evolución.

En lugar de absorber el texto, la imagen o los archivos de video, como LLMS, estos algoritmos aprenden el lenguaje de las proteínas entrenando en secuencias y estructuras de proteínas. ESM3 de EvolutionaryScale, por ejemplo, entrenó en más de 2.700 millones de secuencias de proteínas, estructuras y funciones. Los modelos similares ya se han utilizado para diseñar anticuerpos que luchan contra ataques virales y nuevas herramientas de edición de genes.

Pero estos algoritmos son difíciles de usar sin experiencia. Pinal, por el contrario, apunta al científico promedio-joe. Al igual que una cámara DSLR en Auto, el modelo “evita las especificaciones estructurales manuales”, escribió el equipo, lo que hace que sea más simple hacer su proteína deseable.

Háblame

Para usar Pinal, un usuario le pide a la IA que construya una proteína con una solicitud de varias palabras clave, frases o un párrafo completo. En la parte delantera, la IA analiza los requisitos específicos en el aviso. En el back -end, transforma estas instrucciones en una proteína funcional.

Es un poco como pedirle a ChatGTP que le escriba una reseña de restaurante o un ensayo. Pero, por supuesto, las proteínas son más difíciles de diseñar. Aunque también están formados por “letras”, su forma final determina cómo (o si) funcionan. Un enfoque, denominado entrenamiento de extremo a extremo, traduce directamente un aviso en secuencias de proteínas. Pero esto abre la IA a un vasto mundo de secuencias potenciales, lo que hace que sea más difícil marcar las secuencias precisas de las proteínas de trabajo. En comparación con las secuencias, la estructura de proteínas, la forma 3D final, es más fácil para el algoritmo generar y descifrar.

Luego está el dolor de cabeza de los datos de entrenamiento. Aquí, el equipo recurrió a las bases de datos de proteínas existentes y usó LLM para etiquetarlas. El resultado final fue una vasta biblioteca de 1.700 millones de pares de texto proteico, en el que las estructuras de proteínas coinciden con descripciones de texto de lo que hacen.

El algoritmo completado utiliza 16 mil millones de parámetros, estas son las conexiones internas de una IA, para traducir el inglés simple al idioma de la biología.

Pinal sigue dos pasos. Primero traduce las indicaciones en información estructural. Este paso divide una proteína en elementos estructurales, o “fichas”, que son más fáciles de procesar. En el segundo paso, un modelo en idioma proteico llamado Saprot considera la intención del usuario y la funcionalidad de proteínas para diseñar secuencias de proteínas con mayor probabilidad de doblar en una proteína de trabajo que satisfaga las necesidades del usuario.

En comparación con los algoritmos de diseño de proteínas de última generación que también usan el texto como entrada, incluida ESM3, el pinal superó la precisión y la novedad, es decir, generar proteínas no conocidas por la naturaleza. Usando algunas palabras clave para diseñar una proteína, “la mitad de las proteínas de pinal exhiben funciones predecibles, solo alrededor del 10 por ciento de las proteínas generadas por ESM3 lo hacen”.

En una prueba, el equipo le dio a la IA un breve aviso: “Por favor, diseñe una proteína que sea una alcohol deshidrogenasa”. Estas enzimas descomponen el alcohol. De más de 1.600 proteínas candidatas, el equipo eligió los ocho más prometedores y las probó en células vivas. Dos rompieron con éxito el alcohol a temperatura corporal, mientras que otros fueron más activos a un sudor de 158 grados Fahrenheit.

Las indicaciones más elaboradas que incluían la función de una proteína y los ejemplos de moléculas similares, arrojaron candidatos a antibióticos y proteínas para ayudar a las células a recuperarse de la infección.

Pinal no es el único IA de texto a proteína. El Startup 310 AI ha desarrollado una IA denominada MP4 para generar proteínas a partir del texto, con los resultados que la compañía dice que podría beneficiar la enfermedad cardíaca.

El enfoque no es perfecto. Al igual que los LLM, que a menudo “alucinan”, los modelos de lenguaje de proteínas también sueñan secuencias poco confiables o repetitivas que reducen las posibilidades de un resultado final de trabajo. La redacción precisa de las indicaciones también afecta la estructura de proteína final. Aún así, la IA es como la primera versión de Dall-E: juega con ella y luego valida la proteína resultante usando otros métodos.

Continue Reading

Trending