Connect with us

Noticias

ChatGPT Advanced Voice es genial, pero me siento engañado

Published

on

Conclusiones clave

  • GPT-4o no cumplió sus grandes promesas, carecía de capacidades de visión y ofrecía una practicidad limitada.
  • Advanced Voice, que utiliza GPT-4o como base, ofrece voces similares a las humanas, pero carece de funciones de canto y tiene errores.
  • Si bien no es lo prometido, ChatGPT Advanced Voice tiene voces únicas y potencial para contar historias básicas y aprender idiomas.


La última oferta de OpenAI prometía una experiencia de ciencia ficción, pero la realidad no está a la altura de las expectativas. Nos prometieron un asistente de inteligencia artificial que podía ver el mundo y hablar como un humano. En cambio, tenemos un chatbot ciego que simplemente dice: “Lo siento, no puedo hacer eso”, en nueve nuevas voces emotivas.



La promesa que hicimos con GPT-4o

Cuando OpenAI presentó GPT-4o en mayo de 2024, parecía que estábamos en la cúspide de la próxima gran revolución tecnológica en la interacción persona-computadora. Fue una historia de ciencia ficción hecha realidad en la que vimos un asistente de inteligencia artificial que realmente puede participar en interacciones similares a las humanas, como en la película. Su.


Aquí hay un recordatorio de todo lo que se demostró:

  • Conversaciones de voz en tiempo real.
  • La capacidad de interrumpir y redirigir conversaciones de forma natural.
  • Una voz realista con un amplio rango emocional.
  • Capacidad para contar historias dramáticas y cantar.
  • Capacidades multilingües y traducción mejoradas.
  • Rendimiento mejorado en idiomas distintos del inglés.
  • Capacidades de visión:
    • Resolver problemas matemáticos escritos en una hoja de papel.
    • Leer expresiones faciales y comprender entornos.
  • Más inteligente que GPT-4 Turbo, el modelo insignia de OpenAI anterior a GPT-4o.

Como paquete completo, parecía que GPT-4o traería un cambio de paradigma en la forma en que usamos e interactuamos con nuestras computadoras. Las demostraciones fueron nada menos que alucinantes y mi mente corría con posibilidades ilimitadas.

Por ejemplo, finalmente podría cancelar mi suscripción a Calm y usar ChatGPT para contarme cuentos antes de dormir. Podría usarlo como mi entrenador personal; colocarlo sobre un escritorio para realizar un seguimiento de mis repeticiones y mi postura. Podría cantar mis letras mientras yo creaba melodías con Udio.


No hace falta decir que estaba más que emocionado. ¡Este era el futuro que estaba esperando!

…Pero la promesa aún no se ha cumplido

Una semana después del gran anuncio, finalmente tuve en mis manos GPT-4o. OpenAI declaró que implementarían lentamente todo lo que demostraron. Entonces, este GPT-4o era solo de texto. Podría aceptar texto e imágenes como entrada y responder en texto.

Era más inteligente que el modelo anterior pero no era el asistente de ciencia ficción que nos prometieron. Para colmo de males, su corona “más inteligente” fue rápidamente arrebatada un mes después por Claude 3.5 Sonnet, ¡que supera al GPT-4o tanto en codificación como en tareas creativas!

antrópico

Finalmente, en julio, Advanced Voice comenzó a implementarse en versión alfa para unos pocos usuarios seleccionados. Pero, de nuevo, era sólo la voz: no había capacidad de visión a la vista. Claro, era mejor que el antiguo modo de voz estándar, donde había que esperar años para que respondiera, pero no era exactamente innovador.


En septiembre de 2024 se produjo un lanzamiento más amplio con la versión final y lo tuve en mis manos. Sin embargo, ¿podemos realmente llamar a esto final cuando todavía no está cumpliendo la promesa inicial?

Mi experiencia con ChatGPT Advanced Voice y por qué me siento engañado

Seamos claros: la función Advanced Voice completamente implementada es impresionante. La calidad de la voz es sin lugar a dudas la voz de IA más humana del mercado. Las conversaciones se sienten inquietantemente naturales, como si estuviera hablando con otra persona.

Desafortunadamente, no es tan útil en la práctica. Todavía no hay capacidad de visión, lo que limita drásticamente lo que puedes hacer con ella. Y lo entiendo; la función se llama Voz Avanzada, así que no debería haber esperado que pudiera ver cosas. Sin embargo, ni siquiera puede ver las imágenes que subiste a un chat. ¡Incluso Standard Voice puede hacer eso!

Además, la voz no es esa. avanzado. Todavía usa GPT-4o como cerebro, que, seamos realistas, ya no es la herramienta más inteligente en el cobertizo de la IA. Advanced Voice también se niega a cantar. Parece que OpenAI no tiene intención de agregar el canto como una característica a pesar de mostrarlo en su demostración. Así es como respondió cuando se le preguntó.


¿Puedo generar contenido musical con conversaciones de voz?

No. Para respetar los derechos de los creadores, hemos implementado varias mitigaciones, incluidos nuevos filtros, para evitar que las conversaciones de voz respondan con contenido musical, incluido el canto.

Si bien es probable que la limitación se deba a posibles problemas legales, es ridículo que mi asistente ni siquiera me cante “¡Feliz cumpleaños!” OpenAI al menos podría haberle permitido cantar cosas de dominio público. ¡Parece que estoy atrapado con el Asistente de Google para recibir deseos de cumpleaños!

Ahora, pasando a la modulación de voz, ¡es bueno! Nuevamente, es mejor que cualquier otra cosa en el mercado, pero no excepcional. Intenté que hablara como Marvel’s Venom, y fue impredecible. A veces decía “seguro” y trataba de sonar como él, pero nunca lograba pronunciar bien la voz. Otras veces, me decía que no puede hacerse pasar por personajes o celebridades específicas.


Supongo que es justo, así que intenté pedir una voz gorgoteante con mucha voz para ver si funcionaba, pero aún así no sonaba bien. Incluso intenté jugar con diferentes parámetros vocales para ver si podía lograr el sonido, pero fue un experimento fallido. Si bien hay una buena cantidad de flexibilidad, no puedes estirarla lo suficiente para obtener esas voces únicas.

Además, debes ser muy preciso con el lenguaje que utilizas. No hará falta que le pidas que imite o se haga pasar por una figura conocida, pero si le pides que intente hablar como alguien, intenta modular su voz.

Si todas estas limitaciones no son suficientes, también tendrás que lidiar con los errores. A veces, Advanced Voice tarda una eternidad en cargarse, lo que me obliga a salir e intentar conectarme nuevamente. Tampoco es bueno para contar historias o ofrecer largos monólogos. Después de aproximadamente un minuto, dejará de hablar a menos que le indiques repetidamente que siga hablando. ¡Hasta aquí mis planes de usarlo como narrador de cuentos antes de dormir!


Todavía hay un lado positivo

¡Afortunadamente, no todo es malo! Obtienes toneladas de nuevas opciones de voz, cada una con su propia personalidad y rango de modulación de voz. Actualmente, mis voces preferidas son Maple, Arbor y Vale. Si bien no pude hacer que ninguno de ellos sonara como Venom, logré que Arbor sonara como un antihéroe, lo cual fue genial.

¡También es genial para pensar en voz alta! Tener un compañero de conversación siempre disponible, aunque no sea el más inteligente, es bastante ingenioso. Es como tener el cráneo de Sherlock para intercambiar ideas.

Si bien Advanced Voice no es lo que se demostró que era GPT-4o, sigue siendo poderoso y potencialmente útil en algunos escenarios. Puedo ver cómo otros podrían usarlo para contar historias básicas para niños, aprender idiomas o traducciones rápidas. Estos son casos de uso legítimos y cualquiera que los busque no se sentirá decepcionado.


Al final, ChatGPT Advanced Voice es un paso adelante, pero es un paso mucho más pequeño de lo que nos prometieron. Es un recordatorio de que en el mundo de la IA, siempre debemos tomar las grandes promesas con cautela. Esperamos que futuras actualizaciones nos acerquen a ese asistente de ciencia ficción con el que todos soñábamos.


Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Géminis está reemplazando oficialmente al Asistente de Google, esto es lo que eso significa para ti

Published

on

Google lanzó el Asistente de Google en 2016. Desde entonces, el asistente virtual de primera generación de Google se ha extendido a casi todos los tipos de dispositivos que se le ocurra: teléfonos, tabletas, relojes inteligentes, altavoces inteligentes, televisores, automóviles, si se conecta a Internet, probablemente tenga acceso al Asistente de Google.

Pero hay un nuevo asistente de Google en la ciudad. Desde que Gemini se lanzó hace dos años (inicialmente bajo el nombre de Google Bard), aparentemente ha sido la principal prioridad de Google. Ahora, parece que prácticamente todos los anuncios públicos sobre el hardware o el software de Google son temáticos de Gemini. Dado el enfoque láser de Google, no debería sorprendernos que Gemini ahora esté reemplazando oficialmente al asistente en la mayoría de los contextos. Esto es lo que necesitas saber.

Relacionado

Me guste o no, Gemini está reemplazando oficialmente al Asistente de Google este año

En todas las superficies

¿Qué está cambiando exactamente?

Use Gemini y el espacio de trabajo para ser más productivo

Fuente de la imagen: Google Play Store

Google se ha comprometido a reemplazar al Asistente de Google Legacy con Gemini en la mayoría de los dispositivos. Google anunció la semana pasada que, comenzando en teléfonos, Gemini pronto se convertirá en el asistente de voz predeterminado, y que el Asistente de Google Legacy ya no será accesible allí en el futuro cercano. (Google nota que en los dispositivos que no cumplen con los requisitos mínimos de hardware para Gemini, “la funcionalidad del Asistente de Google no cambiará en este momento”.) Seguirán otros tipos de dispositivos.

Mientras tanto, Google ya ha comenzado a desaprobar algunas características del Asistente de Google. Durante el fin de semana, Google actualizó una página de ayuda de Google Assistant para resaltar algunas características del asistente que pronto desaparecerán, incluidas las siguientes capacidades:

  • “Favorito, compartir y preguntar dónde y cuándo se tomaron tus fotos con tu voz”.

  • “Cambie la configuración del marco de fotos o la configuración de la pantalla ambiental con su voz”.

  • “Traduzca su conversación en vivo con alguien que no habla su idioma con el modo intérprete”.

  • “Obtenga notificaciones de recordatorio de cumpleaños como parte de las rutinas”.

  • “Solicite programar o escuchar anuncios de campana familiar previamente programados”.

  • “Obtenga actualizaciones diarias de su asistente, como ‘Envíame el clima todos los días'”.

  • “Use el Asistente de Google en accesorios para automóviles que tengan una conexión Bluetooth o un enchufe Aux”.

Relacionado

Google Assistant está perdiendo más funciones antes de la jubilación

¡Solo matarlo, ya!

¿Dónde está Géminis reemplazando el Asistente de Google?

El Samsung Galaxy S25 con Google Gemini activado en una mesa de madera

A juzgar por el anuncio de Google, Gemini reemplazará al Asistente de Google en casi todos los casos en el futuro cercano. El proceso comenzará con teléfonos inteligentes poco antes de moverse a tabletas, automóviles, auriculares y relojes inteligentes. Google también dice que traerá “una nueva experiencia, impulsada por Gemini” a dispositivos domésticos inteligentes como altavoces inteligentes, pantallas inteligentes y televisores con Google.

Hemos visto movimiento en esta dirección últimamente. Gemini es el asistente de voz predeterminado en los teléfonos Android de alta gama: dispositivos Google, Samsung y OnePlus, y los altavoces de nidos fueron vistos respondiendo a ciertas consultas en una nueva voz inesperada que parecía generada por IA hace meses. Google también ha estado trabajando para traer experiencias infundidas con Géminis a los automóviles, comenzando con Mercedes.

¿Cuándo tienen lugar estos cambios?

Un altavoz de audio nido frente a una pila de libros.

Google ha sido vago acerca de la línea de tiempo para Gemini reemplazando el Asistente de Google ampliamente. Está sucediendo primero en los teléfonos; Google dice que está “actualizando más usuarios en dispositivos móviles de Google Assistant to Gemini” en los próximos meses, y que el Asistente de Google Legacy ya no será accesible en la mayoría de los teléfonos “a finales de este año” (aunque, nuevamente, los teléfonos que no admiten Gemini retendrán el acceso del Asistente, al menos para el futuro inmediato). Una vez que la transición haya tenido lugar, ya no podrá descargar el Asistente de Google de Play Store.

En cuanto a otros tipos de dispositivos (altavoces y pantallas inteligentes, automóviles, televisores, relojes de uso del sistema operativo y similares, Google solo ha dicho que compartirá más información “en los próximos meses”.

Un asistente más inteligente, próximamente

Gemini Live Running en un teléfono Pixel 9 en un sillón de cuero.

Me he estado quejando durante meses de que los dispositivos impulsados ​​por Google respondan a _hey Google_ indica de manera diferente dependiendo de si actualmente admiten Gemini; A partir de hoy, los teléfonos con Gemini instalaron consultas de respuestas de manera completamente diferente a los relojes Wear OS o los altavoces de nidos, que aún no tienen acceso a Gemini. Esta experiencia puede ser frustrante, y ya es hora de que Google la abordara.

Y tan crítico como puedo ser de la hiper fijación de Google (y de la industria tecnológica) en los servicios de IA en los últimos dos años, Gemini es un buen asistente digital. Ahora es principalmente capaz de realizar las manijas del asistente de tareas inteligentes básicas (encender y apagar las luces conectadas, establecer recordatorios y similares), aunque todavía hay algunas excepciones de nicho, como la capacidad de transmitir anuncios sobre los altavoces inteligentes. Sin embargo, Gemini es innegablemente más para responder preguntas más abstractas sin tener que repetir un fragmento de la web. Entonces, si nada más, debe esperar escuchar sus altavoces inteligentes y usar relojes OS de inicio de respuestas con “Según Wikipedia …” con menos frecuencia en el futuro cercano.

Según lo que Google compartió hasta ahora, Gemini está en camino de reemplazar el Asistente de Google en la mayoría de los dispositivos en algún momento de este año. Compartiremos más sobre los detalles de esa transición a medida que la aprendemos.

Continue Reading

Noticias

Estoy usando chatgpt, copilot y gemini para encontrar nuevas aplicaciones de Android

Published

on

Todavía encuentro que la incorporación de IA en mi trabajo diario es ligeramente incómodo, incluso si tiene algunos casos de uso probados que lo hacen útil. Para poner esto a prueba, decidí usar AI para solucionar un problema subyacente que tengo en la tienda Google Play: utilicé Google Gemini, Microsoft Copilot y ChatGPT para ayudarme a descubrir nuevas aplicaciones. De esa manera, puedo afeitarme el tiempo que paso explorando Reddit y X para nuevas aplicaciones de Android para probar mi confiable Samsung.

Experimenté usando Gemini, Copilot y Chatgpt. Tenía curiosidad sobre cuál de los tres me ofrecería más variedad en opciones y si estos chatbots reconocerían solicitudes específicas como “aplicaciones gratuitas solamente”. Aquí están los resultados que encontré.

Relacionado

Google ha hecho que buscar en la tienda de Play sea tan frustrante que ya ni siquiera me molesto

Arregla tu tienda, Google

Enumeré las recomendaciones de la aplicación para cada chatbot de IA e incluí el número de descarga en la tienda Google Play entre paréntesis para medir la popularidad. Mi esperanza es descubrir nuevas aplicaciones que no necesariamente aparezcan en los resultados de búsqueda inmediatos de Play Store/menos populares.

Experimento 1: Encontrar nuevas aplicaciones de actualización del clima

Aviso utilizado:

Hi [AI]! I'd like to find a new Android app that can tell me the weekly and daily weather forecast. Please give me free apps only.

ChatGPT recomienda:

  • Accuweather (100m+)

  • El canal meteorológico (100m+)

  • Clima subterráneo (10m+)

  • Viento (10m+)

  • Google Weather (1+)

  • 1weather (100m+)

Copilot recomienda:

  • 1weather (100m+)

  • FlowX (500k+)

  • El canal meteorológico (100m+)

  • Accuweather (100m+)

  • Clima impresionante – Yowindow (10m+)

Géminis recomienda:

  • Accuweather (100m+)

  • El canal meteorológico (100m+)

  • Weathercan (500k+)

Comparando los tres modelos, ChatGPT salió en la cima cuantitativamente. Chatgpt me dio seis recomendaciones, Copilot tenía cinco, y Gemini solo dio tres. Otra nota es que me gustó que Gemini considerara mi ubicación (incluso si es un poco espeluznante) proporcionar una recomendación más relevante. De lo contrario, la lista de aplicaciones de los tres era bastante segura.

El resultado final

ChatGPT reconoció qué aplicaciones meteorológicas eran gratuitas o gratuitas con soporte de anuncios. Pero también dio una lista genérica de las mejores aplicaciones del clima, que no quería. Por otro lado, Copilot especificó si estas aplicaciones eran gratuitas en las dos primeras entradas pero luego se detuvieron. Sin embargo, proporcionó un abastecimiento, por lo que podría confirmar el contexto (a diferencia de los otros dos chatbots). Géminis me dio una recomendación interesante adaptada a mi ubicación (Weathercan). Pero tampoco especificó ningún precio de aplicación. En general, la experiencia estuvo bien. Todavía prefiero la selección de Copilot debido a que 3/5 es nuevo.

Ejemplo de copiloto respondiendo a mi consulta para encontrar nuevas aplicaciones meteorológicas y mostrar fuentes proporcionadas

Experimento 2: Encontrar nuevas aplicaciones de toma de notas

Aviso utilizado:

Hi [AI], I am in need of a new note-taking app. I would prefer if it included a place to import PDF documents and had a handwriting mode. I would also like an option for online storage syncing.

ChatGPT recomienda:

  • Notabilidad (no en Play Store)

  • Goodnotes (1m+)

  • Microsoft OneNote (500m+)

  • Evernote (100m+)

  • Notebook Zoho (5m+)

  • Xodo (10m+)

Copilot recomienda:

  • Goodnotes (1m+)

  • Notabilidad (no en Play Store)

  • Microsoft OneNote (500m+)

  • Evernote (100m+)

  • Tejido líquido (no en Play Store)

Géminis recomienda:

  • Goodnotes (1m+)

  • Notabilidad (no en Play Store)

  • Microsoft OneNote (500m+)

  • Nebo (500k+)

  • Samsung Notes (1B+)

Si revisamos mi mensaje, notará que cometí un error y olvidé especificar la plataforma. Como resultado, estaba preocupado de recibir aplicaciones de toma de notas solo en iOS.

Ejemplo de las recomendaciones de aplicaciones de toma de notas de Gemini que toman notas por plataforma

Sin embargo, dadas las respuestas, me di cuenta de que los chatbots eran en su mayoría perdonando esa omisión. Por ejemplo, Gemini reconoció que no especificé la plataforma, pero aún rompí las recomendaciones por plataforma.

Relacionado

Gemini podría responder pronto todas las consultas de sus aplicaciones sin salir de Play Store

‘Ask Play About esta aplicación’ está en pruebas

El resultado final

Me impresionó la respuesta de Gemini a mi solicitud. Me dio una buena lista de aplicaciones (menos notabilidad) y la clasificó por plataforma. También reconoce la anotación de PDF y la escritura a mano. Los listados de copilotes eran más genéricos y no especificaron las plataformas como lo hizo Gemini. Tampoco proporcionó ningún abastecimiento (como lo había hecho en la solicitud anterior).

Chatgpt salió en la cima; No solo reconoció todas mis especificaciones (opciones de sincronización, escritura a mano y soporte para PDF), sino que también las enumeró punto por punto e incluía las plataformas disponibles. Además, descubrí aplicaciones de las que ni siquiera había oído hablar (Zoho Notebook y Xodo). En general, la experiencia fue adecuada, considerando mi aviso inicial.

Experimento 3: Recomendaciones de juego

Como beneficio adicional, intenté obtener recomendaciones de juegos para novelas visuales basadas en misterio y juegos de rompecabezas similares a Danganronpa. Desafortunadamente, los resultados fueron increíblemente decepcionantes, así que aquí hay un desglose de lo que ocurrió.

Aviso utilizado:

​​​​Hi [AI], I am looking for paid Visual Novel and puzzle game recommendations on the Play Store that match the style and themes of Danganronpa.

ChatGPT recomienda:

  • The Arcana: un romance místico (1m+)

  • Ace Abogado Trilogía Phoenix Wright (10k+)

  • Synchronicity de Dead: Mañana llega hoy (no en Play Store)

  • The Nonor Games: 999 y la última recompensa de Virtue (no en Play Store)

  • ¡Doki Doki Literature Club! Puerto móvil (no en Play Store)

  • Elección de juegos: elección de robots (10k+)

  • Reigns: Su Majestad (100k+)

  • La edad silenciosa (no en Play Store)

  • Profesor Layton y Curious Village Via Emulator (no en Play Store)

  • Planeta destrozado (no en Play Store)

Copilot recomienda:

  • Cero Escape: The Nonor Games (no en Play Store)

  • Trilogía de abogados de as (10k+)

  • La casa en Fata Morgana (no en Play Store)

  • Steins; puerta (10k+, requiere crunchyroll)

  • Muerte de la muerte (no en Play Store)

Géminis recomienda:

  • Puertos móviles de la serie Danganronpa (1K-10K)

  • Serie de abogados de as (10k+)

  • ¡7days!: Mystery Visual Novel (5m+)

  • ARGO’s Choice: Visual Novel (100k+)

No me gustó la mayoría de estas recomendaciones. ChatGPT proporcionó una lista extensa, pero la mayoría no estaba en Play Store. El copiloto no pudo recomendar los títulos de Play Store (solo 2/5). Gemini desperdició una recomendación sobre el título real en lugar de un juego similar similar, además de 2/4 fueron títulos gratuitos, que no es lo que quería.

Por otro lado, tanto ChatGPT como Copilot siguieron las instrucciones para exhibir títulos pagados. También esperaba ver a la tribu nueve en estos listados, un nuevo título de Gacha de los creadores de Danganronpa; Se ajustaría a la factura de los temas, pero es un servicio en vivo, lo que ya significa que es un no-go basado en los criterios que proporcioné. Debería omitir a Tribe nueve según mis especificaciones, y lo hizo.

El contexto es clave al conversar con AI

A partir de estos experimentos, dominar sus indicaciones es más importante que hacer la pregunta. De lo contrario, la IA solo sugerirá las aplicaciones más populares con un desglose general de lo que hacen, lo que no es útil. Si tiene necesidades específicas, debe incluirlas en sus indicaciones/indicaciones de seguimiento. No incluí una plataforma en mi segundo intento y recibí algunas recomendaciones que no me aplicaron. En contraste, utilicé un ejemplo específico en mi experimento de juego, lo que lleva a malos resultados. Para aplicaciones generalizadas, dio recomendaciones sólidas. La clave está en algún punto intermedio.

Mi única preocupación es cómo maneja nuevas aplicaciones. Los chatbots públicos se ejecutan en modelos más antiguos, lo que significa que pueden perderse las aplicaciones publicadas recientemente. La herramienta está lejos de ser perfecta, por lo que tratamos de examinar nuevas aplicaciones a medida que venían, como la aplicación Manga Mirai que Matthew vio a principios de marzo.

Continue Reading

Noticias

7 errores de chatgpt que podrías estar cometiendo y cómo arreglarlos

Published

on

ChatGPT simplemente funciona como se prometió. Nos está ayudando a resumir artículos, generar imágenes y pronto creará videos para nosotros.

Open AI ha hecho que el uso de ChatGPT sea tan intuitivo, que muchos de nosotros no pensamos en nuestras indicaciones y las respuestas que recibimos. Y ahí está el problema.

Continue Reading

Trending