Noticias
ChatGPT Advanced Voice es genial, pero me siento engañado
Conclusiones clave
- GPT-4o no cumplió sus grandes promesas, carecía de capacidades de visión y ofrecía una practicidad limitada.
- Advanced Voice, que utiliza GPT-4o como base, ofrece voces similares a las humanas, pero carece de funciones de canto y tiene errores.
- Si bien no es lo prometido, ChatGPT Advanced Voice tiene voces únicas y potencial para contar historias básicas y aprender idiomas.
La última oferta de OpenAI prometía una experiencia de ciencia ficción, pero la realidad no está a la altura de las expectativas. Nos prometieron un asistente de inteligencia artificial que podía ver el mundo y hablar como un humano. En cambio, tenemos un chatbot ciego que simplemente dice: “Lo siento, no puedo hacer eso”, en nueve nuevas voces emotivas.
La promesa que hicimos con GPT-4o
Cuando OpenAI presentó GPT-4o en mayo de 2024, parecía que estábamos en la cúspide de la próxima gran revolución tecnológica en la interacción persona-computadora. Fue una historia de ciencia ficción hecha realidad en la que vimos un asistente de inteligencia artificial que realmente puede participar en interacciones similares a las humanas, como en la película. Su.
Aquí hay un recordatorio de todo lo que se demostró:
- Conversaciones de voz en tiempo real.
- La capacidad de interrumpir y redirigir conversaciones de forma natural.
- Una voz realista con un amplio rango emocional.
- Capacidad para contar historias dramáticas y cantar.
- Capacidades multilingües y traducción mejoradas.
- Rendimiento mejorado en idiomas distintos del inglés.
- Capacidades de visión:
- Resolver problemas matemáticos escritos en una hoja de papel.
- Leer expresiones faciales y comprender entornos.
- Más inteligente que GPT-4 Turbo, el modelo insignia de OpenAI anterior a GPT-4o.
Como paquete completo, parecía que GPT-4o traería un cambio de paradigma en la forma en que usamos e interactuamos con nuestras computadoras. Las demostraciones fueron nada menos que alucinantes y mi mente corría con posibilidades ilimitadas.
Por ejemplo, finalmente podría cancelar mi suscripción a Calm y usar ChatGPT para contarme cuentos antes de dormir. Podría usarlo como mi entrenador personal; colocarlo sobre un escritorio para realizar un seguimiento de mis repeticiones y mi postura. Podría cantar mis letras mientras yo creaba melodías con Udio.
No hace falta decir que estaba más que emocionado. ¡Este era el futuro que estaba esperando!
…Pero la promesa aún no se ha cumplido
Una semana después del gran anuncio, finalmente tuve en mis manos GPT-4o. OpenAI declaró que implementarían lentamente todo lo que demostraron. Entonces, este GPT-4o era solo de texto. Podría aceptar texto e imágenes como entrada y responder en texto.
Era más inteligente que el modelo anterior pero no era el asistente de ciencia ficción que nos prometieron. Para colmo de males, su corona “más inteligente” fue rápidamente arrebatada un mes después por Claude 3.5 Sonnet, ¡que supera al GPT-4o tanto en codificación como en tareas creativas!
Finalmente, en julio, Advanced Voice comenzó a implementarse en versión alfa para unos pocos usuarios seleccionados. Pero, de nuevo, era sólo la voz: no había capacidad de visión a la vista. Claro, era mejor que el antiguo modo de voz estándar, donde había que esperar años para que respondiera, pero no era exactamente innovador.
En septiembre de 2024 se produjo un lanzamiento más amplio con la versión final y lo tuve en mis manos. Sin embargo, ¿podemos realmente llamar a esto final cuando todavía no está cumpliendo la promesa inicial?
Mi experiencia con ChatGPT Advanced Voice y por qué me siento engañado
Seamos claros: la función Advanced Voice completamente implementada es impresionante. La calidad de la voz es sin lugar a dudas la voz de IA más humana del mercado. Las conversaciones se sienten inquietantemente naturales, como si estuviera hablando con otra persona.
Desafortunadamente, no es tan útil en la práctica. Todavía no hay capacidad de visión, lo que limita drásticamente lo que puedes hacer con ella. Y lo entiendo; la función se llama Voz Avanzada, así que no debería haber esperado que pudiera ver cosas. Sin embargo, ni siquiera puede ver las imágenes que subiste a un chat. ¡Incluso Standard Voice puede hacer eso!
Además, la voz no es esa. avanzado. Todavía usa GPT-4o como cerebro, que, seamos realistas, ya no es la herramienta más inteligente en el cobertizo de la IA. Advanced Voice también se niega a cantar. Parece que OpenAI no tiene intención de agregar el canto como una característica a pesar de mostrarlo en su demostración. Así es como respondió cuando se le preguntó.
¿Puedo generar contenido musical con conversaciones de voz?
No. Para respetar los derechos de los creadores, hemos implementado varias mitigaciones, incluidos nuevos filtros, para evitar que las conversaciones de voz respondan con contenido musical, incluido el canto.
Si bien es probable que la limitación se deba a posibles problemas legales, es ridículo que mi asistente ni siquiera me cante “¡Feliz cumpleaños!” OpenAI al menos podría haberle permitido cantar cosas de dominio público. ¡Parece que estoy atrapado con el Asistente de Google para recibir deseos de cumpleaños!
Ahora, pasando a la modulación de voz, ¡es bueno! Nuevamente, es mejor que cualquier otra cosa en el mercado, pero no excepcional. Intenté que hablara como Marvel’s Venom, y fue impredecible. A veces decía “seguro” y trataba de sonar como él, pero nunca lograba pronunciar bien la voz. Otras veces, me decía que no puede hacerse pasar por personajes o celebridades específicas.
Supongo que es justo, así que intenté pedir una voz gorgoteante con mucha voz para ver si funcionaba, pero aún así no sonaba bien. Incluso intenté jugar con diferentes parámetros vocales para ver si podía lograr el sonido, pero fue un experimento fallido. Si bien hay una buena cantidad de flexibilidad, no puedes estirarla lo suficiente para obtener esas voces únicas.
Además, debes ser muy preciso con el lenguaje que utilizas. No hará falta que le pidas que imite o se haga pasar por una figura conocida, pero si le pides que intente hablar como alguien, intenta modular su voz.
Si todas estas limitaciones no son suficientes, también tendrás que lidiar con los errores. A veces, Advanced Voice tarda una eternidad en cargarse, lo que me obliga a salir e intentar conectarme nuevamente. Tampoco es bueno para contar historias o ofrecer largos monólogos. Después de aproximadamente un minuto, dejará de hablar a menos que le indiques repetidamente que siga hablando. ¡Hasta aquí mis planes de usarlo como narrador de cuentos antes de dormir!
Todavía hay un lado positivo
¡Afortunadamente, no todo es malo! Obtienes toneladas de nuevas opciones de voz, cada una con su propia personalidad y rango de modulación de voz. Actualmente, mis voces preferidas son Maple, Arbor y Vale. Si bien no pude hacer que ninguno de ellos sonara como Venom, logré que Arbor sonara como un antihéroe, lo cual fue genial.
¡También es genial para pensar en voz alta! Tener un compañero de conversación siempre disponible, aunque no sea el más inteligente, es bastante ingenioso. Es como tener el cráneo de Sherlock para intercambiar ideas.
Si bien Advanced Voice no es lo que se demostró que era GPT-4o, sigue siendo poderoso y potencialmente útil en algunos escenarios. Puedo ver cómo otros podrían usarlo para contar historias básicas para niños, aprender idiomas o traducciones rápidas. Estos son casos de uso legítimos y cualquiera que los busque no se sentirá decepcionado.
Al final, ChatGPT Advanced Voice es un paso adelante, pero es un paso mucho más pequeño de lo que nos prometieron. Es un recordatorio de que en el mundo de la IA, siempre debemos tomar las grandes promesas con cautela. Esperamos que futuras actualizaciones nos acerquen a ese asistente de ciencia ficción con el que todos soñábamos.