Noticias

Un año después, Operai todavía no ha lanzado su herramienta de clonación de voz

Published

on

A fines de marzo pasado, Openai anunció una “vista previa a pequeña escala” de un servicio de IA, Motor de voz, que la compañía afirmó que podría clonar la voz de una persona con solo 15 segundos de discurso. Aproximadamente un año después, la herramienta permanece en vista previa, y Operai no ha dado ninguna indicación de cuándo se lanzará, o si se lanzará en absoluto.

La renuencia de la compañía a desplegar el servicio ampliamente puede señalar el temor al mal uso, pero también podría reflejar un esfuerzo para evitar invitar al escrutinio regulatorio. Históricamente, Operai ha sido acusado de priorizar los “productos brillantes” a expensas de la seguridad y de los lanzamientos por tierra para vencer a las empresas rivales al mercado.

En un comunicado, un portavoz de OpenAI le dijo a TechCrunch que la compañía continúa probando el motor de voz con un conjunto limitado de “socios de confianza”.

“[We’re] Aprendiendo de cómo [our partners are] Uso de la tecnología para que podamos mejorar la utilidad y seguridad del modelo ”, dijo el portavoz. “Hemos estado emocionados de ver las diferentes formas en que se usa, desde la terapia del habla, hasta el aprendizaje de idiomas, hasta la atención al cliente, hasta personajes de videojuegos, a los avatares de IA”.

Empujado hacia atrás

Voice Engine, que alimenta las voces disponibles en la API de texto a voz de OpenAI, así como el modo de voz de ChatGPT, genera un discurso que suena natural que se parece mucho al altavoz original. La herramienta convierte los caracteres escritos en discurso, limitado solo por ciertas barandillas en el contenido. Pero estaba sujeto a retrasos y ventanas de lanzamiento cambiantes desde el principio.

Como Operai explicó en una publicación de blog de junio de 2024, el modelo de motor de voz aprende a predecir los sonidos más probables que un altavoz hará una transcripción de texto dada, teniendo en cuenta diferentes voces, acentos y estilos de habla. Después de esto, el modelo puede generar no solo versiones habladas de texto, sino también “enunciados hablados” que reflejan cómo los diferentes tipos de altavoces leerían el texto en voz alta.

Inicialmente, Operai tenía la intención de llevar el motor de voz, originalmente llamado Voices Custom, a su API el 7 de marzo de 2024, según un borrador de blogs vistos por TechCrunch. El plan era dar a un grupo de hasta 100 acceso de “desarrolladores de confianza” antes de un debut más amplio, con prioridad otorgada a los desarrolladores de aplicaciones que proporcionaban un “beneficio social” o mostraron usos “innovadores y responsables” de la tecnología. OpenAi incluso lo había registrado y lo había valorado: $ 15 por millón de caracteres para voces “estándar” y $ 30 por millón de caracteres para voces de “calidad HD”.

Luego, a la hora undécima, la compañía pospuso el anuncio. Operai terminó presentando un motor de voz unas semanas más tarde sin una opción de registro. El acceso a la herramienta permanecería limitado a una cohorte de alrededor de 10 desarrolladores con los que la compañía comenzó a trabajar a fines de 2023, dijo Openai.

“Esperamos comenzar un diálogo sobre el despliegue responsable de las voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades”, escribió OpenAI en la publicación del blog de anuncios de Voice Engine a fines de marzo de 2024. “Basado en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre cómo implementar esta tecnología a escala”.

Largo en proceso

El motor de voz ha estado en proceso desde 2022, según OpenAI. La compañía afirma que demostró la herramienta a los “formuladores de políticas globales en los niveles más altos” en el verano de 2023 para mostrar su potencial y riesgos.

Varios socios tienen acceso al motor de voz hoy, incluida la startup Livox, que está construyendo dispositivos que permiten a las personas con discapacidades comunicarse de manera más natural. El CEO Carlos Pereira le dijo a TechCrunch, mientras que Livox finalmente no podía incorporar el motor de voz en un producto debido al requisito en línea de la herramienta (muchos de los clientes de Livox no tienen Internet), encontró que la tecnología es “realmente impresionante”.

“La calidad de la voz y la posibilidad de que las voces hablen en diferentes idiomas es única, especialmente para las personas con discapacidades, nuestros clientes”, dijo Pereira a TechCrunch por correo electrónico. “Es realmente el más impresionante y fácil de usar [tool to] Crea voces que he visto […] Esperamos que Operai desarrolle una versión fuera de línea pronto “.

Pereira dice que no ha recibido orientación de OpenAi en un posible lanzamiento del motor de voz, ni ha visto ninguna señal de que la compañía planee comenzar a cobrar por el servicio. Hasta ahora, Livox no ha tenido que pagar por su uso.

En ese antes mencionado Post de junio de 2024, Operai insinuó que una de sus consideraciones para retrasar el motor de voz era el potencial de abuso durante el ciclo electoral de los Estados Unidos del año pasado. Informado por las discusiones con las partes interesadas, el motor de voz tiene varias medidas de seguridad mitigatorias, incluida la marca de agua para rastrear la procedencia del audio generado.

Los desarrolladores deben obtener “consentimiento explícito” del altavoz original antes de usar Voice Engine, de acuerdo con OpenAI, y deben hacer “revelaciones claras” a su audiencia que las voces están generadas por IA. Sin embargo, la compañía no ha dicho cómo está haciendo cumplir estas políticas. Hacerlo a escala podría resultar inmensamente desafiante, incluso para una empresa con los recursos de Operai.

En sus publicaciones de blog, OpenAi también implicaba que esperaba construir una “experiencia de autenticación de voz” para verificar a los altavoces y una lista de “no ir” que evita la creación de voces que suenan demasiado similares a las figuras prominentes. Ambos son proyectos tecnológicamente ambiciosos, y hacerlos mal se reflejaría mal en una empresa que a menudo ha sido acusada de dejar de lado las iniciativas de seguridad.

El filtrado efectivo y la verificación de ID se están convirtiendo rápidamente en requisitos de referencia para los lanzamientos de tecnología de clonación de voz responsable. La clonación de voz de IA fue la tercera estafa de más rápido crecimiento de 2024, según una fuente. Se ha llevado a fraude y cheques de seguridad bancarios que se pasan por alto a medida que las leyes de privacidad y derechos de autor luchan por mantenerse al día. Los actores maliciosos han utilizado la clonación de voz para crear profundos incendiarios de celebridades y políticos, y esos defensores se han extendido como un incendio forestal en las redes sociales.

Operai podría lanzar Voice Engine la próxima semana, o nunca. La compañía ha dicho repetidamente que está sopesando el mantenimiento del servicio en el alcance. Pero una cosa es clara: por razones ópticas, razones de seguridad o ambas, la vista previa limitada del motor de voz se ha convertido en uno de los más largos en la historia de OpenAI.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version