Connect with us

Noticias

ChatGPT Advanced Voice es genial, pero me siento engañado

Published

on

Conclusiones clave

  • GPT-4o no cumplió sus grandes promesas, carecía de capacidades de visión y ofrecía una practicidad limitada.
  • Advanced Voice, que utiliza GPT-4o como base, ofrece voces similares a las humanas, pero carece de funciones de canto y tiene errores.
  • Si bien no es lo prometido, ChatGPT Advanced Voice tiene voces únicas y potencial para contar historias básicas y aprender idiomas.


La última oferta de OpenAI prometía una experiencia de ciencia ficción, pero la realidad no está a la altura de las expectativas. Nos prometieron un asistente de inteligencia artificial que podía ver el mundo y hablar como un humano. En cambio, tenemos un chatbot ciego que simplemente dice: “Lo siento, no puedo hacer eso”, en nueve nuevas voces emotivas.



La promesa que hicimos con GPT-4o

Cuando OpenAI presentó GPT-4o en mayo de 2024, parecía que estábamos en la cúspide de la próxima gran revolución tecnológica en la interacción persona-computadora. Fue una historia de ciencia ficción hecha realidad en la que vimos un asistente de inteligencia artificial que realmente puede participar en interacciones similares a las humanas, como en la película. Su.


Aquí hay un recordatorio de todo lo que se demostró:

  • Conversaciones de voz en tiempo real.
  • La capacidad de interrumpir y redirigir conversaciones de forma natural.
  • Una voz realista con un amplio rango emocional.
  • Capacidad para contar historias dramáticas y cantar.
  • Capacidades multilingües y traducción mejoradas.
  • Rendimiento mejorado en idiomas distintos del inglés.
  • Capacidades de visión:
    • Resolver problemas matemáticos escritos en una hoja de papel.
    • Leer expresiones faciales y comprender entornos.
  • Más inteligente que GPT-4 Turbo, el modelo insignia de OpenAI anterior a GPT-4o.

Como paquete completo, parecía que GPT-4o traería un cambio de paradigma en la forma en que usamos e interactuamos con nuestras computadoras. Las demostraciones fueron nada menos que alucinantes y mi mente corría con posibilidades ilimitadas.

Por ejemplo, finalmente podría cancelar mi suscripción a Calm y usar ChatGPT para contarme cuentos antes de dormir. Podría usarlo como mi entrenador personal; colocarlo sobre un escritorio para realizar un seguimiento de mis repeticiones y mi postura. Podría cantar mis letras mientras yo creaba melodías con Udio.


No hace falta decir que estaba más que emocionado. ¡Este era el futuro que estaba esperando!

…Pero la promesa aún no se ha cumplido

Una semana después del gran anuncio, finalmente tuve en mis manos GPT-4o. OpenAI declaró que implementarían lentamente todo lo que demostraron. Entonces, este GPT-4o era solo de texto. Podría aceptar texto e imágenes como entrada y responder en texto.

Era más inteligente que el modelo anterior pero no era el asistente de ciencia ficción que nos prometieron. Para colmo de males, su corona “más inteligente” fue rápidamente arrebatada un mes después por Claude 3.5 Sonnet, ¡que supera al GPT-4o tanto en codificación como en tareas creativas!

antrópico

Finalmente, en julio, Advanced Voice comenzó a implementarse en versión alfa para unos pocos usuarios seleccionados. Pero, de nuevo, era sólo la voz: no había capacidad de visión a la vista. Claro, era mejor que el antiguo modo de voz estándar, donde había que esperar años para que respondiera, pero no era exactamente innovador.


En septiembre de 2024 se produjo un lanzamiento más amplio con la versión final y lo tuve en mis manos. Sin embargo, ¿podemos realmente llamar a esto final cuando todavía no está cumpliendo la promesa inicial?

Mi experiencia con ChatGPT Advanced Voice y por qué me siento engañado

Seamos claros: la función Advanced Voice completamente implementada es impresionante. La calidad de la voz es sin lugar a dudas la voz de IA más humana del mercado. Las conversaciones se sienten inquietantemente naturales, como si estuviera hablando con otra persona.

Desafortunadamente, no es tan útil en la práctica. Todavía no hay capacidad de visión, lo que limita drásticamente lo que puedes hacer con ella. Y lo entiendo; la función se llama Voz Avanzada, así que no debería haber esperado que pudiera ver cosas. Sin embargo, ni siquiera puede ver las imágenes que subiste a un chat. ¡Incluso Standard Voice puede hacer eso!

Además, la voz no es esa. avanzado. Todavía usa GPT-4o como cerebro, que, seamos realistas, ya no es la herramienta más inteligente en el cobertizo de la IA. Advanced Voice también se niega a cantar. Parece que OpenAI no tiene intención de agregar el canto como una característica a pesar de mostrarlo en su demostración. Así es como respondió cuando se le preguntó.


¿Puedo generar contenido musical con conversaciones de voz?

No. Para respetar los derechos de los creadores, hemos implementado varias mitigaciones, incluidos nuevos filtros, para evitar que las conversaciones de voz respondan con contenido musical, incluido el canto.

Si bien es probable que la limitación se deba a posibles problemas legales, es ridículo que mi asistente ni siquiera me cante “¡Feliz cumpleaños!” OpenAI al menos podría haberle permitido cantar cosas de dominio público. ¡Parece que estoy atrapado con el Asistente de Google para recibir deseos de cumpleaños!

Ahora, pasando a la modulación de voz, ¡es bueno! Nuevamente, es mejor que cualquier otra cosa en el mercado, pero no excepcional. Intenté que hablara como Marvel’s Venom, y fue impredecible. A veces decía “seguro” y trataba de sonar como él, pero nunca lograba pronunciar bien la voz. Otras veces, me decía que no puede hacerse pasar por personajes o celebridades específicas.


Supongo que es justo, así que intenté pedir una voz gorgoteante con mucha voz para ver si funcionaba, pero aún así no sonaba bien. Incluso intenté jugar con diferentes parámetros vocales para ver si podía lograr el sonido, pero fue un experimento fallido. Si bien hay una buena cantidad de flexibilidad, no puedes estirarla lo suficiente para obtener esas voces únicas.

Además, debes ser muy preciso con el lenguaje que utilizas. No hará falta que le pidas que imite o se haga pasar por una figura conocida, pero si le pides que intente hablar como alguien, intenta modular su voz.

Si todas estas limitaciones no son suficientes, también tendrás que lidiar con los errores. A veces, Advanced Voice tarda una eternidad en cargarse, lo que me obliga a salir e intentar conectarme nuevamente. Tampoco es bueno para contar historias o ofrecer largos monólogos. Después de aproximadamente un minuto, dejará de hablar a menos que le indiques repetidamente que siga hablando. ¡Hasta aquí mis planes de usarlo como narrador de cuentos antes de dormir!


Todavía hay un lado positivo

¡Afortunadamente, no todo es malo! Obtienes toneladas de nuevas opciones de voz, cada una con su propia personalidad y rango de modulación de voz. Actualmente, mis voces preferidas son Maple, Arbor y Vale. Si bien no pude hacer que ninguno de ellos sonara como Venom, logré que Arbor sonara como un antihéroe, lo cual fue genial.

¡También es genial para pensar en voz alta! Tener un compañero de conversación siempre disponible, aunque no sea el más inteligente, es bastante ingenioso. Es como tener el cráneo de Sherlock para intercambiar ideas.

Si bien Advanced Voice no es lo que se demostró que era GPT-4o, sigue siendo poderoso y potencialmente útil en algunos escenarios. Puedo ver cómo otros podrían usarlo para contar historias básicas para niños, aprender idiomas o traducciones rápidas. Estos son casos de uso legítimos y cualquiera que los busque no se sentirá decepcionado.


Al final, ChatGPT Advanced Voice es un paso adelante, pero es un paso mucho más pequeño de lo que nos prometieron. Es un recordatorio de que en el mundo de la IA, siempre debemos tomar las grandes promesas con cautela. Esperamos que futuras actualizaciones nos acerquen a ese asistente de ciencia ficción con el que todos soñábamos.


Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Deje que Operai tome los riesgos • el registro

Published

on

Análisis El CEO de Microsoft AI, Mustafa Suleyman, ha ensalzado las virtudes de jugar el segundo violín en la carrera Generation-AI.

En una entrevista de noticias de televisión la semana pasada, Suleyman argumentó que es más rentable para los constructores de modelos de frontera, incluido OpenAi que ha tomado miles de millones de Windows Giant, de tres a seis meses y construir sobre sus éxitos que competir directamente con ellos.

Nuestra estrategia es jugar un segundo muy apretado, dada la intensidad de capital de estos modelos

“Nuestra estrategia es jugar un segundo muy apretado, dada la intensidad de capital de estos modelos”, dijo a CNBC el viernes.

Además de ser más barato, Suleyman dijo que el tiempo extra permite a Microsoft optimizar para casos de uso específicos de los clientes.

Si bien la estrategia puede parecer inusual para una corporación en el corazón latido del movimiento Genai, refleja la posición en la que Microsoft, y ahora Suleyman, se encuentra a sí mismo.

Como recordarán, Suleyman se hizo un nombre como cofundador de Deepmind, que fue adquirido por Google en 2014. Suleyman se unió a Microsoft el año pasado después de un breve período como CEO de Inflexión de IA.

Mientras que su antiguo empleador en la fábrica de chocolate compite directamente con los gustos de Anthrope y Openai para construir modelos cada vez más capaces y ricos en funciones, Microsoft aún no ha lanzado un modelo fronterizo propio.

En cambio, la estrategia de Redmond está estrechamente vinculada a OpenAi, a la que proporciona una cantidad no desconsiderable de Azure Cloud Compute a cambio del derecho de usar la familia de modelos GPT de la startup en su creciente conjunto de servicios de IA con la marca de copilot.

Esta relación bien puede explicar el enfoque de Suleyman. No tiene mucho sentido invertir las cantidades masivas de capital necesarias para construir modelos fronterizos que puedan o no tener éxito en el mercado cuando su amigo Sam Altman en OpenAi lo hará por usted.

Dicho esto, Microsoft no está poniendo todos sus huevos en una cesta. Si bien la serie GPT está en el corazón de muchos servicios familiares de Copilot de Windows y Microsoft Cloud, no es la única colección de modelos que existe. El gigante de Excel desarrolla notablemente una línea de modelos de idiomas pequeños con licencia permisivamente bajo el nombre de codeName PHI.

En comparación con algo como GPT-4.5, estos modelos abiertos son minúsculos, que generalmente pesan en el rango de parámetros individuales a dos dígitos de mil millones de parámetros, lo que los hace apropiados para el uso de dispositivos en el borde, incluidas las computadoras portátiles, en lugar de los grupos de GPU multimillonarios. Los modelos también generalmente se han quedado atrás de las ofertas de primer nivel de OpenAI en términos de características, como las arquitecturas multimodalidad o la mezcla de expertos (MOE).

En la experiencia personal de este buitre, la familia de modelos PHI de Microsoft es generalmente bastante competente dado su tamaño, incluso si no tienden a ser tan emocionantes en cuanto a características, relativamente hablando.

Y su pequeño tamaño trae consigo ciertas ventajas. Con parámetros de 14 mil millones, PHI-4, por ejemplo, puede operar en una sola GPU de alta gama mientras mantiene tasas de generación aceptables. Esto hace que estas redes neuronales sean relativamente baratas para ejecutar junto a los modelos varias veces más grandes, lo que a menudo requiere múltiples GPU, si no los servidores de GPU, para lograr un rendimiento aceptable.

Un precursor de la autosuficiencia

Si bien Suleyman podría no estar interesado en competir directamente con Openai o Anthrope en el corto plazo, la dependencia de Microsoft en OpenAI puede no durar para siempre.

Es absolutamente la misión crítica que a largo plazo podamos hacer AI autosuficientemente en Microsoft

“Es absolutamente crítico que a largo plazo podamos hacer AI a sí mismo en Microsoft”, dijo a CNBC.

Pero si bien PHI puede ser un precursor para lograr este objetivo, parece que el vínculo de Redmond con OpenAi durará al menos otros cinco años. “Hasta 2030, al menos, estamos profundamente asociados con Operai, que tienen [had an] Una relación enormemente exitosa para nosotros “, agregó.

Suleyman minimizó las preocupaciones sobre la relación de Microsoft con Operai sigue la colaboración Stargate del Super Lab con Oracle y SoftBank, que se anunció el año pasado. Como parte de ese acuerdo, Microsoft ya no era el socio en la nube exclusivo de OpenAI.

Sin embargo, debe tenerse en cuenta que Microsoft no es el único que juega este juego. Varios otros proveedores de la nube han encontrado éxito en esta estrategia de seguimiento del líder.

Amazon Web Services posiblemente cae directamente en este campamento. AWS está fuertemente invertido en el rival de Operai Anthrope, al que contribuye con una cantidad astronómica de cómputo, como su clúster Project Rainier anunciado en diciembre.

Al mismo tiempo, AWS ha estado construyendo silenciosamente una familia de modelos de idiomas propios, con nombre en código Nova. Sin embargo, a diferencia de Microsoft, AWS parece estar manteniendo una correa más estrecha en su proyecto. Nova es propietaria, mientras que los modelos PHI de Microsoft tienen licencia de MIT y están disponibles libremente en los centros de modelos, incluida la cara de abrazo.

También se puede argumentar que el comercio electrónico chino y el gigante de la nube Alibaba han empleado una estrategia similar con su equipo de Qwen.

La familia Qwen de modelos atrajo una atención considerable por muchas de las mismas razones que Microsoft’s PHI. Los modelos, aunque no necesariamente innovadoras tecnológicamente, a menudo golpean muy por encima de su clase de peso, logrando un rendimiento comparable con LLM varias veces su tamaño.

La vista previa QWQ 32B de Qwen hizo su debut a fines de noviembre, poco más de dos meses después de la vista previa de Openi, la vista previa de O1 popularizó el concepto de “pensar”, también conocido como modelos de razonamiento. Tomó otros tres meses de pulido antes de que Alibaba lanzara el modelo final, tres meses después de que se finalizara el O1.

Se puede hacer un argumento similar para Deepseek. Con el concepto de modelos de lenguaje de razonamiento confirmado, la startup de IA china podría centrarse en iterar y optimizar el concepto para reducir enormemente los requisitos de calcular para crear y ejecutar dicho modelo.

Un enfoque de sistemas

Además de ser más barata, la estrategia de Suleyman también significa que Microsoft puede enfocar más energía en la creación de aplicaciones y otros sistemas en torno a modelos de idiomas grandes en lugar de encontrar nuevas formas de discutir redes neuronales.

Si bien se ha prestado mucha atención a los modelos en sí, como hemos discutido anteriormente, integrándolos en sistemas empresariales de una manera realmente valiosa puede ser una propuesta bastante complicada.

Junto con sus modelos PHI, Microsoft ha bombeado constantemente los marcos de investigación y software diseñados para que la integración de estos modelos sea más fácil y más eficiente.

Por ejemplo, el Titán de TI desarrolló Autogen, un marco para orquestar múltiples agentes de IA. Mientras tanto, el mes pasado, Redmond detalló su trabajo en KBLAM, cuyo objetivo es reducir el cálculo y la complejidad asociados con la extensión del conocimiento de un modelo de lenguaje utilizando datos estructurados.

Y la semana pasada, Microsoft presentó a Vidtok, un tokenizador de video de código abierto para convertir el video en tokens para facilitar que los modelos de aprendizaje automático comprendan contenido de video. ®

Continue Reading

Noticias

La nueva generación de imágenes de Chatgpt se siente como un acceso telefónico de nuevo

Published

on

Resumen

  • La generación de imágenes 4O es una actualización significativa para ChatGPT.

  • Las imágenes aparecen lentamente de arriba hacia abajo, al igual que las imágenes descargadas a través de las conexiones de acceso telefónico.

  • Esperar imágenes es un cambio bienvenido de la gratificación instantánea de la mayoría de la tecnología moderna.

En marzo de este año, Operai lanzó una característica llamada 4O Image Generation. Esta es una actualización de las capacidades de generación de imágenes de ChatGPT que provoca una serie de mejoras, como texto más preciso, mejor adherencia de instrucciones y un mejor fotorrealismo.

Sin embargo, el proceso no es instantáneo. La forma en que puede ver las imágenes que aparecen en tiempo real me lleva de regreso a los buenos viejos tiempos de acceso telefónico.

Imágenes de chatgpt y la revelación lenta

Muchas imágenes de IA se generan comenzando con un ruido aleatorio, como la estática que ves en los espectáculos de introducción a HBO. El modelo AI luego refina ese ruido en función del aviso, con cada iteración se vuelve menos como ruido aleatorio y más como la imagen prevista. Finalmente, después de suficientes iteraciones, la imagen debería parecerse al aviso.

Esto significa que generar una imagen lleva tiempo. Con algunos modelos de IA, puede ver que el proceso ocurre, viendo que la imagen va de la estática difusa a una imagen terminada. Cada paso muestra el estado de la imagen completa antes de que tenga lugar la próxima iteración.

Sin embargo, la generación de imágenes 4O es un poco diferente. Primero mostrará una representación muy borrosa de cómo sería la imagen final, pero luego la imagen aclara gradualmente. Sin embargo, en lugar de que esto le suceda a toda la imagen a la vez, sucede de arriba hacia abajo.

La parte superior de la imagen está terminada primero, mientras que el resto sigue siendo un desenfoque. El límite entre la imagen completa y difusa se mueve lentamente por la imagen para que no vea la imagen completa hasta que llegue al fondo.

Un flashback a los días de acceso telefónico

La primera vez que vi que esto sucedió, inmediatamente me devolvieron 30 años a los días de Internet de acceso telefónico. En aquel entonces, las velocidades más rápidas que podías obtener eran 56 kbps, y la realidad generalmente era mucho más lenta. Estas velocidades fueron tan lentas que descargar una imagen de 100 kb podría tomar fácilmente 30 segundos o más.

Relacionado

7 Cosas nostgalicas sobre Internet de acceso telefónico que realmente no nos perdemos

Marque “m” para “recuerdos”.

La forma en que las imágenes descargadas a través de Dial-Up son muy similar a cómo aparecen las nuevas imágenes de ChatGPT. Cada fila de píxeles se cargaría de arriba hacia abajo, lo que significa que vería la parte superior de la imagen y primero tendrá que esperar a que se cargue el resto de la imagen antes de que pueda verla.

¿Por qué la desaceleración?

No está del todo claro por qué la nueva función de generación de imágenes de ChatGPT utiliza este nuevo método de arriba hacia abajo. Dall-E, el modelo anterior de generación de imágenes de OpenAI, no se comportó de la misma manera.

Las imágenes generadas con la generación de imágenes 4O son ciertamente muy superiores a las generadas usando Dall-E, y es probable que producir mejores imágenes tome más tiempo. Según un tweet del CEO de OpenAi, Sam Altman, parece que muchos usuarios de ChatGPT están utilizando la función bastante, hasta el punto de que la compañía está considerando limitar su uso temporalmente. Si las GPU de OpenAI se están “derritiendo”, entonces es probable que la generación de imágenes tome más tiempo de lo que podría de otra manera.

Esto explicaría por qué las imágenes se están cargando lentamente, pero no la forma en que las imágenes se refinan de arriba hacia abajo. No está claro si esto es una consecuencia de la forma en que se generan las imágenes o porque alguien en OpenAI realmente pierde los días de acceso telefónico.

Hay algo que decir por tener que esperar

Vivimos en un mundo de gratificación instantánea. Tiene acceso a la suma total de todos los conocimientos humanos en su bolsillo trasero, y la mayoría lo damos por sentado. Ya nunca tenemos que esperar las cosas, excepto cuando compañías como Apple cruelmente repartir episodios de indemnización a una tasa de una por semana.

Relacionado

¿Deberías esperar toda una temporada o ver programas semanalmente?

¿Boring o no atracones?

Odio el hecho de que si tengo que esperar 30 segundos para un ascensor o para que los comerciales terminen, mi mano alcanzará automáticamente mi teléfono, para llenar esos segundos con un desplazamiento sin sentido. Tengo que hacer todo lo posible para detenerme de los juicios en todas las oportunidades disponibles.

Relacionado

10 maneras de detener a las doomscalias en su iPhone

Obtenga ayuda para escapar del ciclo para que pueda tocar un poco de hierba.

Pero hay algo que decir por tener que esperar algo bueno. La carga lenta de imágenes en los días de acceso telefónico fue frustrante, especialmente si la información que necesitaba (o el bit de la imagen que más quería ver) era en la parte inferior y era lo último que se cargaba.

Sin embargo, había algo bastante mágico en ver que la imagen aparecía ante tus ojos, y no me di cuenta de cuánto me perdí hasta que Chatgpt me recordó.

La generación lenta puede no estar cerca por mucho tiempo

Si bien realmente estoy disfrutando la experiencia de ver mis imágenes aparecer lentamente ante mis ojos, es posible que no pueda disfrutarla por mucho tiempo. El ritmo de los desarrollos de IA no muestra signos de desaceleración. No hace mucho tiempo que las imágenes de IA fueran hilarantemente fáciles de detectar simplemente mirando las manos destrozadas, pero las imágenes generadas actuales de IA se están volviendo seriamente difíciles de detectar.

Ilustración de una cabeza con el logotipo de Chatgpt en el cerebro.
Lucas Gouveia / Jason Montoya / Geek How-To

A medida que esta tecnología mejora, es probable que la generación de imágenes se vuelva aún más rápida, y la revelación lenta desaparecerá para siempre. Planeo disfrutarlo mientras pueda, porque no sabes lo que tienes hasta que se haya ido.

Continue Reading

Noticias

Las herramientas de IA más populares de 2025 (y lo que eso significa)

Published

on

Moor Studio/Getty Images

La popularidad en el mundo tecnológico es difícil de medir. He hablado extensamente sobre esto en mis discusiones sobre la popularidad del lenguaje de programación. Realmente se reduce a lo que usa para medir la popularidad, y cuán disponibles están esas métricas para quienes hacen el análisis.

Es difícil definir genéricamente la popularidad, especialmente cuando incluye herramientas que hacen cosas muy diferentes. Por ejemplo, ¿es un generador de texto a imagen de uso general como MidJourney inherentemente más popular que una herramienta que elimina los fondos de imágenes como Remout.bg?

En los últimos años, hemos estado refinando cuidadosamente nuestra metodología del índice de popularidad. Nuestros índices toman una página del mundo del análisis político: agregamos los datos de la encuesta de múltiples clasificaciones y los ponderamos cuidadosamente para dar cuenta de las fortalezas y debilidades de cada conjunto de datos.

Dado que los conjuntos de datos tienen clasificaciones muy diferentes y, en algunos casos, muestran diferentes herramientas, tiene sentido aplicar un proceso de normalización en los campos de los datos.

El índice ZDNET de la popularidad de la herramienta de IA

Con nuestro índice, decidimos medir el interés general de la herramienta, principalmente en función de las estadísticas de tráfico web disponibles para nuestros proveedores de datos de origen. En particular, faltan las herramientas de Adobe AI en cualquiera de nuestros conjuntos de datos, posiblemente porque el volumen de tráfico es demasiado bajo, porque las herramientas de Adobe están en su mayoría detrás de un muro de pago, o porque las herramientas de Adobe se entregan principalmente en aplicaciones de escritorio independientes como Photoshop.

Aun así, lo que podemos proporcionar es un índice general de interés en las diversas herramientas, lo que debería proporcionar información sobre dónde los usuarios están llamando su atención. Aquí están las 20 mejores herramientas de IA, clasificadas por la popularidad general.

AI-Popularidad-001

David Gewirtz/Zdnet

Agregando múltiples fuentes de datos

Como datos de origen para este análisis, estamos utilizando tablas de datos de cuatro fuentes. Las diferentes fuentes agregan diferentes niveles de valor al agregado general en función de los datos que contienen.

Debido a que tenemos cuatro fuentes, cada una comenzó con un peso asignado del 25% (por lo que todos sumaron el 100%). Dos de las fuentes son más antiguas, por lo que tomamos un 5% de ellas y las proporcionamos a las clasificaciones más actuales, lo que resultó en dos fuentes ponderadas al 30% y dos fuentes ponderadas al 20%.

Pero uno de los sitios solo tiene datos de rango y no hay datos de tráfico. Los datos con mediciones de tráfico en todo el mundo proporcionan más detalles sobre la popularidad general que las simples encuestas de usuarios, por lo que reducimos la fuerza de la fuente de solo encuesta y aumentamos el peso de las fuentes con datos de tráfico.

Terminamos un 6% de la ponderación de la fuente de solo encuesta (6 en lugar de 5 porque es más fácil distribuir en tres fuentes) y le dio a las tres fuentes restantes un 2% de ponderación adicional.

Eso nos da las siguientes fuentes y pesos. Puede ver en los gráficos adjuntos cuán variantes son los datos entre las fuentes. También asignamos a cada fuente una ID de tres letras que se utilizó durante el análisis de datos.

Temas de explosión (peso 32%, ID XPT)

Exploding Topics es una compañía que analiza las tendencias basadas en búsquedas en la web, conversaciones y menciones. Sus datos se derivan principalmente de plataformas de análisis web.

Desde este conjunto de datos obtenemos una clasificación general, visitas mensuales y una cuota de mercado estimada basada en visitas mensuales. Los datos son actuales a partir de febrero de 2025.

AI-Popularidad-003

David Gewirtz/Zdnet

Herramientas de IA (peso 32%, ID AIT)

AI Tools es un directorio de herramientas de IA que cataloga más de 10,000 herramientas de IA, cada una categorizada en una de las 171 categorías individuales. Sus datos se derivan de las plataformas de análisis de tráfico.

A partir de este conjunto de datos, obtenemos una clasificación general, visitas mensuales, datos sobre el cambio de períodos anteriores y una cuota de mercado estimada basada en visitas mensuales. Los datos son actuales a partir de febrero de 2025.

AI-Popularidad-004

David Gewirtz/Zdnet

Grupo del Banco Mundial (peso 22%, ID WBG)

El Grupo del Banco Mundial es una organización internacional de desarrollo y un instituto financiero. En marzo de 2024, la organización publicó un trabajo de investigación de políticas titulado “¿Quién en la Tierra está usando IA generativa?” En la página 12, el documento tiene una clasificación de herramientas de IA generativas basadas en el tráfico.

AI-Popularidad-005

David Gewirtz/Zdnet

Encuesta TechRadar (peso 14% ID TRS)

TechRadar es un sitio web tecnológico que es un competidor para ZDNET. A través de la empresa matriz Future PLC, el sitio realizó una encuesta en dos puntos durante 2024, que publicaron en 2025.

A partir de este conjunto de datos, obtenemos una clasificación general tanto para los Estados Unidos como para el Reino Unido para su uso, pero no hay números de tráfico. Aunque el artículo se publicó en 2025, los datos son de 2024.

ai-popularidad-006

David Gewirtz/Zdnet

Lista de herramientas agregadas

A continuación, construí una lista de herramientas agregadas. Agregué las 20 herramientas principales de cada fuente en una tabla. Como puede ver, algunas herramientas (CHATGPT, por ejemplo) están representadas en las clasificaciones de las cuatro fuentes, mientras que algunas solo están representadas en una o dos listas de origen.

AI-Popularidad-002

David Gewirtz/Zdnet

Herramientas que se representan con la ponderación de recolección de datos de clasificación en función de su posición y cantidad de tráfico para cada fuente. La excepción es la encuesta TechRadar, que solo recoge datos de posición. Si una herramienta no está representada en una lista, no elige ningún datos de representación.

A partir de esto, comencé a construir la hoja de cálculo de agregación. Tomé la representación compartida de cada herramienta y la puse en una fila en la hoja de cálculo. En total, había 45 herramientas representadas. Luego logré la clasificación porcentual sin procesar de cada fuente, dejando las celdas en blanco donde no había datos.

Una vez hecho esto, construí la siguiente sección del análisis, que fue la clasificación ponderada para cada fuente. Luego totalicé los valores de las cuatro clasificaciones ponderadas, lo que nos dio nuestra clasificación agregada.

En este punto, la hoja de cálculo estaba bastante dispersa (técnicamente, era una matriz escasa). No fue fácil ver la clasificación final de ZDNET. Pero hice un tipo, clasificando el campo de resultados, y eso nos dio los datos para la tabla de clasificaciones al comienzo de este artículo.

Para aquellos de ustedes interesados ​​en recoger hojas de cálculo, aquí están las primeras 20 filas de mi análisis agregado.

hoja de cálculo

David Gewirtz/Zdnet

¿Qué significa todo?

Antes de hablar sobre las clasificaciones en sí, me gustaría mencionar otro aspecto del proceso de análisis: hice todo a mano. Oh, sí, pasé horas bajando una madriguera de conejo con ChatGPT tratando de que tomara los conjuntos de datos y escupiera un agregado, pero se volvió terco.

Realmente, muy terco. Se quejó que no podía leer los datos. Así que convertí los datos en texto, pero aún así se confundió. Comenzó a combinar los resultados de las diferentes fuentes. Perdió la noción de su progreso y tuvimos que comenzar de nuevo, tres o cuatro veces.

No tengo dudas de que podría haber desarrollado una serie de indicaciones cuidadosamente elaboradas que me habrían llevado un archivo al que podría exportar a Excel, pero pronto me di cuenta de que el proceso de negociación y cajoling con la IA tomaría más tiempo que llenar el tanque de agua de Nespresso para preparar algo de espresso y hacerlo todo a mano, utilizando la tecnología de la cafeína para ayudarme.

Sí, veo la ironía de un artículo sobre la popularidad de la herramienta de IA que se realiza completamente sin la ayuda de las herramientas de IA. Y esa, tal vez es mi conclusión.

Tan populares como son estas muchas herramientas, son herramientas. A veces son útiles y a veces tercos. Si los va a usar, tendrá que poder, constantemente, determinar cuándo la herramienta es el camino más rápido y cuándo la vieja escuela lo llevará allí, ya sea más rápido o más confiable, o ambos.

No me sorprendió que ChatGPT lidere el paquete. Sigo olvidando que el Canva ahora se considera una herramienta de IA, por lo que eso me sorprendió. Para tantos usuarios, cuando piensan en las herramientas de IA, esas son los dos que más vienen a la mente.

Me sorprendió un poco que DeepL superó a Google Translate como una herramienta de IA, pero eso puede deberse a que la mayoría de las personas no piensan en el traductor de Google como una herramienta de IA. Después de todo, ha existido mucho más tiempo que el boom generativo de IA que estamos experimentando ahora.

Cuando se trata de chatbots, está claro que Gemini y Copilot, junto con la perplejidad y Claude, tienen un largo camino por recorrer para ponerse al día con ChatGPT. Dicho esto, Apple faltaba por completo en la mesa, lo que no puede ser bueno. Pero, de nuevo, también lo fue Facebook/Meta.

Por ahora, parece que ChatGPT está lamiendo todas las otras herramientas, y Canva lidera el segundo nivel. Espere que el resto esté en una batalla lanzada por el tercer lugar, donde no hay líderes destacados.

Manténganse al tanto. Será interesante, si nada más.

¿Qué pasa contigo? ¿Te has encontrado confiando más en herramientas como ChatGpt, Canva o Gemini últimamente? ¿Qué herramientas de IA usas regularmente y cuáles crees que están sobrevaloradas? ¿Hay alguna herramienta que te sorprendas al ver en los ranking? Y como Medir popularidad: ¿por características, zumbido comunitario o simplemente lo que sea que te ayude a hacer el trabajo? Háganos saber en los comentarios a continuación.


Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en bluesky en @davidgewirtz.com, y en YouTube en youtube.com/davidgewirtztv.

Continue Reading

Trending