Noticias

¿Cuál es la mejor IA conversacional para usted?

Published

on

Conclusiones clave

  • El modo de voz avanzado de ChatGPT permite conversaciones naturales y debates profundos con los usuarios aprovechando el poder de inferencia de GPT-4o.
  • Gemini Live de Google ofrece acceso gratuito en más de 40 idiomas y está disponible a través de las aplicaciones móviles de Gemini.
  • Copilot Voice Interactions de Microsoft también es gratuito, pero actualmente solo está disponible en Australia, Canadá, Nueva Zelanda, el Reino Unido y los EE. UU.


¿Quién necesita indicaciones basadas en texto cuando simplemente puedes hablar con tu IA favorita? La interacción de voz es la nueva característica que los desarrolladores están luchando por agregar a sus modelos, con el modo de voz avanzado de ChatGPT, la interacción de voz natural de Copilot y Gemini Live a la cabeza.



Los chatbots están creciendo rápidamente

Han pasado menos de dos años desde el debut de ChatGPT y ya estamos presenciando cómo los chatbots de IA experimentan un cambio fundamental en la forma en que se comunican con los humanos. A medida que estos modelos han evolucionado rápidamente y han adquirido capacidades multimodales, ya no están sujetos estrictamente a indicaciones y respuestas basadas en texto. Hoy en día pueden conversar contigo como lo harías con cualquier otra persona y, en el caso de Gemini Live, hacerlo en más de 40 idiomas. Obviamente, las indicaciones escritas tradicionales todavía tienen su lugar (es decir, nadie se sienta a dictar miles de líneas de código Python a un chatbot), pero las interacciones de voz y las IA conversacionales están preparadas para revolucionar aún más la forma en que interactuamos con el mundo moderno.


OpenAI fue el primero en llevar la tecnología al mercado con el modo de voz avanzado, pero fue seguido rápidamente por Gemini Live de Google y, más recientemente, Natural Voice Interactions de Meta. Cada sistema ofrece su propio conjunto único de capacidades y limitaciones. Esta guía le ayudará a brindarle la información y los conocimientos que necesita para elegir el mejor para sus necesidades específicas.

Modo de voz avanzado ChatGPT

El modo de voz avanzado (AVM) de ChatGPT aprovecha el último modelo de lenguaje grande de OpenAI, GPT-4o, para facilitar conversaciones más naturales de ida y vuelta con usted, el usuario. Esto lo hace ideal para tareas que requieren interacción en tiempo real, como realizar una lluvia de ideas o discutir temas complejos. Y, dado que tiene GPT-4o bajo el capó, AVM es capaz de discutir de manera competente una amplia gama de temas, desde la bioquímica hasta la filosofía japonesa del siglo XIV. Es más, puede proporcionar respuestas detalladas sobre aquellos temas en los que otras IA proporcionarán breves resúmenes. Personalmente, encuentro que ofrece una sólida combinación de comprensión, adaptabilidad y personalización del lenguaje natural, junto con una amplia base de conocimientos.


AVM fue la primera función de IA conversacional que llegó al mercado. Debutó por primera vez en mayo en el evento Spring Update de OpenAI antes de ser lanzado como versión beta para suscriptores seleccionados de ChatGPT Plus en julio para pruebas y comentarios. Finalmente se lanzó a finales de septiembre para los suscriptores de Plus y Teams. Se puede acceder a él a través de las aplicaciones móviles de ChatGPT, así como a través del portal de escritorio, pero desafortunadamente, aún no está disponible si usa el nivel gratuito de ChatGPT. Tampoco está disponible todavía en la UE, el Reino Unido, Suiza, Islandia, Noruega y Liechtenstein. Si vives en una de esas regiones, tendrás que seguir escribiendo.


Géminis en vivo

Gemini Live es la respuesta de Google al modo de voz avanzado. Está construido sobre el modelo Gemini 1.5 Pro, que es el más avanzado de Google hasta la fecha. La compañía presentó Live en mayo en I/O 2024 y lo probó inicialmente con suscriptores de Gemini Advanced en agosto antes de lanzarlo a todos los usuarios, de forma gratuita, a finales de septiembre. En mi opinión, eso por sí solo le da a Gemini Live una ventaja sobre AVM, porque no tengo que desembolsar $ 20 al mes para probarlo.

Si bien Gemini 1.5 Pro no puede publicar los mismos puntos de referencia que GPT-4o, ofrece una serie de capacidades que AVM no ofrece. No puedo exagerar esto, es de uso gratuito a través de la aplicación de Google o las aplicaciones dedicadas de Gemini para iOS y Android. No hay restricciones regionales para ello ya que existen AVM. El único lugar donde no puedes obtener Gemini Live es en el escritorio, aunque se informa que Google está trabajando para agregar esa capacidad en el futuro. Gemini Live está actualmente disponible en cinco idiomas además del inglés: francés, alemán, portugués, hindi y español, y se expandirá a casi cuatro docenas de idiomas en las próximas semanas.


Voz de copiloto

Copilot Voice es una de una serie de funciones nuevas que debutaron recientemente junto con la interfaz personal Copilot renovada, que se ejecuta en una instancia personalizada de GPT-4. Al igual que AVM y Live, le permite conversar de forma natural con la IA en lugar de escribir sus consultas. Al igual que los demás, Voice está diseñado principalmente para responder preguntas generales y actuar como un asistente digital, aunque debido a que opera sobre GPT-4, tiene acceso al amplio corpus de entrenamiento de ese modelo. Y a diferencia de Live, Voice está disponible a través del portal de escritorio Copilot.

Microsoft lo considera “la forma más intuitiva y natural de intercambiar ideas sobre la marcha, hacer una pregunta rápida o incluso simplemente desahogarse al final de un día difícil”. Porque, ¿quién necesita amigos de verdad cuando puedes simplemente gritarle a tu computadora de bolsillo en el metro de regreso a casa?


Es de uso gratuito, a diferencia de AVM, aunque actualmente está limitado a conversaciones en inglés y solo si vives en Australia, Canadá, Nueva Zelanda, Reino Unido o Estados Unidos. Microsoft está trabajando para ampliar tanto las capacidades lingüísticas como la disponibilidad geográfica de la función en las próximas semanas.

¿Qué IA de voz es adecuada para usted?

Esa es una pregunta que depende de una serie de variables, como cuánto está dispuesto a pagar, qué pretende hacer con la IA y a qué ecosistema de marca se suscribe. Para mí, prefiero Google Live. No sólo porque es gratis, sino porque ya estoy profundamente integrado en el ecosistema de Google. Quiero decir, uso Gemini en un teléfono Android y estoy escribiendo esta publicación en una Chromebook Acer.

Si fuera un usuario de Windows, sería más probable que usara Voice, aunque sólo fuera para minimizar los posibles puntos de fricción con el resto de las aplicaciones que ya uso. Si ejecutara iOS, bueno, estaría esperando pacientemente a que llegara Apple Intelligence con su Siri mejorada con IA y sumamente actualizada. Si, por otro lado, realmente necesitas las capacidades de inferencia y el rendimiento que ofrece ChatGPT, y tienes $20 haciendo un agujero en tu bolsillo, el Modo de Voz Avanzado es probablemente el camino a seguir.


Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version