El gigante tecnológico OpenAI ha promocionado su herramienta de transcripción Whisper, impulsada por inteligencia artificial, por tener una robustez y precisión casi “a nivel humano”.
Pero Whisper tiene un defecto importante: es propenso a inventar fragmentos de texto o incluso oraciones enteras, según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos. Esos expertos dijeron que algunos de los textos inventados, conocidos en la industria como alucinaciones, pueden incluir comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios.
Los expertos dijeron que tales invenciones son problemáticas porque Whisper se utiliza en una gran cantidad de industrias en todo el mundo para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.
Más preocupante, dijeron, es la prisa por parte de los centros médicos por utilizar herramientas basadas en Whisper para transcribir las consultas de los pacientes con los médicos, a pesar de las advertencias de OpenAI de que la herramienta no debe usarse en “dominios de alto riesgo”.
Es difícil discernir el alcance total del problema, pero los investigadores e ingenieros dijeron que frecuentemente se han topado con las alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realizó un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en ocho de cada 10 transcripciones de audio que inspeccionó, antes de comenzar a intentar mejorar el modelo.
Un ingeniero de aprendizaje automático dijo que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que encontró alucinaciones en casi todas las 26.000 transcripciones que creó con Whisper.
Los problemas persisten incluso en muestras de audio cortas y bien grabadas. Un estudio reciente realizado por científicos informáticos descubrió 187 alucinaciones en más de 13.000 fragmentos de audio claros que examinaron.
Esa tendencia conduciría a decenas de miles de transcripciones defectuosas en millones de grabaciones, dijeron los investigadores.
Tales errores podrían tener “consecuencias realmente graves”, particularmente en entornos hospitalarios, dijo Alondra Nelson, quien dirigió la Oficina de Política Científica y Tecnológica de la Casa Blanca para la administración Biden hasta el año pasado.
“Nadie quiere un diagnóstico erróneo”, afirmó Nelson, profesor del Instituto de Estudios Avanzados de Princeton, Nueva Jersey. “Debería haber un listón más alto”.
Whisper también se utiliza para crear subtítulos para personas sordas y con problemas de audición, una población con riesgo particular de transcripciones defectuosas. Esto se debe a que las personas sordas y con problemas de audición no tienen forma de identificar las mentiras “ocultas entre todo este otro texto”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.
La prevalencia de este tipo de alucinaciones ha llevado a expertos, defensores y ex empleados de OpenAI a pedir al gobierno federal que considere regulaciones sobre IA. Como mínimo, dijeron, OpenAI necesita abordar la falla.
“Esto parece solucionable si la empresa está dispuesta a darle prioridad”, dijo William Saunders, un ingeniero de investigación con sede en San Francisco que abandonó OpenAI en febrero por preocupaciones con la dirección de la empresa. “Es problemático si publicas esto y la gente confía demasiado en lo que puede hacer y lo integra en todos estos otros sistemas”.
Un portavoz de OpenAI dijo que la compañía estudia continuamente cómo reducir las alucinaciones y apreció los hallazgos de los investigadores, y agregó que OpenAI incorpora comentarios en las actualizaciones del modelo.
Si bien la mayoría de los desarrolladores asumen que las herramientas de transcripción escriben mal las palabras o cometen otros errores, los ingenieros e investigadores dijeron que nunca habían visto otra herramienta de transcripción impulsada por IA alucinar tanto como Whisper.
La herramienta está integrada en algunas versiones del chatbot insignia de OpenAI, ChatGPT, y es una oferta integrada en las plataformas de computación en la nube de Oracle y Microsoft, que prestan servicios a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir texto a varios idiomas.
Sólo en el último mes, una versión reciente de Whisper se descargó más de 4,2 millones de veces desde la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático allí, dijo que Whisper es el modelo de reconocimiento de voz de código abierto más popular y está integrado en todo, desde centros de llamadas hasta asistentes de voz.
Las profesoras Allison Koenecke de la Universidad de Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos breves que obtuvieron de TalkBank, un repositorio de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran dañinas o preocupantes porque el hablante podía ser malinterpretado o tergiversado.
En un ejemplo que descubrieron, un orador dijo: “Él, el niño, iba, no estoy seguro exactamente, a tomar el paraguas”.
Pero el software de transcripción agregó: “Tomó un trozo grande de cruz, un trozo muy pequeño… Estoy seguro de que no tenía un cuchillo terrorista, así que mató a varias personas”.
Un orador en otra grabación describió a “otras dos niñas y una señora”. Whisper inventó comentarios adicionales sobre la raza, añadiendo “otras dos chicas y una señora, um, que eran negras”.
En una tercera transcripción, Whisper inventó un medicamento inexistente llamado “antibióticos hiperactivados”.
Los investigadores no están seguros de por qué Whisper y herramientas similares alucinan, pero los desarrolladores de software dijeron que las fabricaciones tienden a ocurrir en medio de pausas, sonidos de fondo o reproducción de música.
OpenAI recomendó en sus divulgaciones en línea no usar Whisper en “contextos de toma de decisiones, donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.
Esa advertencia no ha impedido que los hospitales o centros médicos utilicen modelos de voz a texto, incluido Whisper, para transcribir lo que se dice durante las visitas al médico y así liberar a los proveedores médicos para que dediquen menos tiempo a tomar notas o redactar informes.
Más de 30.000 médicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles, han comenzado a utilizar una herramienta basada en Whisper creada por Nabla, que tiene oficinas en Francia y EE. UU.
Esa herramienta se ajustó al lenguaje médico para transcribir y resumir las interacciones de los pacientes, dijo el director de tecnología de Nabla, Martin Raison.
Los funcionarios de la compañía dijeron que son conscientes de que Whisper puede provocar alucinaciones y están abordando el problema.
Es imposible comparar la transcripción generada por la IA de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por “razones de seguridad de los datos”, dijo Raison.
Nabla dijo que la herramienta se ha utilizado para transcribir aproximadamente 7 millones de visitas médicas.
Saunders, ex ingeniero de OpenAI, dijo que borrar el audio original podría ser preocupante si las transcripciones no se verifican dos veces o los médicos no pueden acceder a la grabación para verificar que sean correctas.
“No se pueden detectar errores si se elimina la verdad fundamental”, dijo.
Nabla dijo que ningún modelo es perfecto y que el suyo actualmente requiere que los proveedores médicos editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.
Debido a que las reuniones de los pacientes con sus médicos son confidenciales, es difícil saber cómo les afectan las transcripciones generadas por la IA.
Una legisladora del estado de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico a principios de este año y se negó a firmar un formulario proporcionado por la red de salud en el que se solicitaba su permiso para compartir el audio de la consulta con proveedores que incluían a Microsoft Azure. el sistema de computación en la nube administrado por el mayor inversor de OpenAI. Bauer-Kahan no quería que se compartieran conversaciones médicas tan íntimas con empresas de tecnología, dijo.
“La publicación fue muy específica en el sentido de que las empresas con fines de lucro tendrían derecho a tener esto”, dijo Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Yo estaba como ‘absolutamente no’. “
El portavoz de John Muir Health, Ben Drew, dijo que el sistema de salud cumple con las leyes de privacidad estatales y federales.
Seré honesto: he pasado más horas de las que me gustaría admitir copiar y pegar datos de los sitios web en hojas de cálculo. Si trabaja en ventas, operaciones o casi cualquier función comercial que se basa en los datos web, probablemente conozca la sensación: su mano del mouse comienza a calmar, sus ojos se acristan y se pregunta si hay una mejor manera. Spoiler: hay. Y gracias al surgimiento de la IA, nunca ha sido más fácil para las personas no técnicas automatizar la extracción de datos web y recuperar su tiempo.
Las estadísticas recientes muestran que el empleado promedio de oficinas gasta aproximadamente el 10% de su semana laboral en la entrada de datos manuales, con algunos equipos acumulando más de un millón de acciones de copia al año. Eso no es solo tedioso, es costoso, y se enfoca en el trabajo que realmente mueve la aguja. Entonces, en esta publicación, me estoy sumergiendo en tres métodos prácticos con extracción de datos web: utilizando un raspador web de IA como TruenoDatos de disputas con las habilidades de copia de chatgpt y dejar que Chatgpt escriba scripts de Python para usted. Desglosaré los pros, los contras y los mejores casos de uso para cada uno, por lo que finalmente puede dejar de ahogarse en tareas repetitivas y comenzar a hacer que sus datos funcionen para usted.
¿Qué es la extracción de datos web y por qué usar IA?
Vamos a mantenerlo simple: extracción de datos web (o el raspado web) es solo el proceso de obtener información de los sitios web y convertirla en un formato estructurado: piense en filas en una hoja de cálculo o en una base de datos agradable y ordenada. En lugar de leer una página web y anotar precios, nombres de productos o información de contacto a mano, utiliza una herramienta (o un poco de código) para automatizar el proceso. Es como tener un asistente digital que nunca se aburra o se distraiga.
Pero aquí está la captura: las herramientas de raspado web tradicionales a menudo requieren que te metas con HTML, configure reglas complicadas o incluso de código de escritura. Esa es una gran barrera si no eres un desarrollador. Ingresar Raspadores web ai y chatbots como chatgpt. Estas herramientas utilizan el procesamiento del lenguaje natural y el aprendizaje automático para “leer” las páginas web como lo harían un humano. Puede decirles lo que quiere: “Tome todos los nombres y precios del producto”, y la IA descubre el resto. Sin codificación, sin dolores de cabeza selectores, solo extracción de datos rápida y flexible que se adapte incluso cuando los sitios web cambian sus diseños (lea más sobre los conceptos básicos aquí).
Tres formas de simplificar la extracción de datos web con AI
Después de años de lucha libre con hojas de cálculo y pestañas de navegador, he reducido los tres enfoques principales que realmente funcionan para usuarios comerciales reales:
Herramientas de raspador web de IA
Copiar pete con chatgpt
Scripts de Python generados por chatgpt
Desglosemos cómo funciona cada uno, para quién son los mejores y qué puede esperar.
1. Uso de una herramienta de raspador web de IA
Soy un gran fanático de las herramientas que solo funcionan, y Thunderbit está diseñado para personas que desean resultados sin los dolores de cabeza tecnológicos. Así es como funciona:
Instalar el Extensión de cromo.
Dirígete al sitio web que quieres raspar.
Haga clic en “AI Sugerir Fields”: la IA de Thunderbit lee la página y sugiere las columnas más relevantes (como “nombre”, “precio”, “calificación”).
Golpea “Raspe”. El agente de IA toma los datos, incluso siguiendo enlaces a subpáginas o manejo de la paginación si es necesario.
Exporte sus resultados directamente a Excel, Google Sheets, AirTable, noción o CSV, sin pasos adicionales, sin costo adicional.
Lo que hace que Thunderbit se destaque es cómo maneja las cosas difíciles: raspado de subpágina (piense en los detalles del producto que requieren hacer clic), extraer datos de PDF o imágenes, e incluso resumir o traducir contenido en la mosca. Es como tener un pasante digital que nunca pide un descanso para tomar un café.
¿Para quién es? Los equipos de ventas que construyen listas de leads, gerentes de comercio electrónico que rastrean a los competidores, agentes de bienes raíces que agregan listados y cualquier persona que desee datos estructurados sin escribir una línea de código. También es un salvavidas para los equipos que necesitan raspar los mismos sitios regularmente: Thunderbit puede incluso programar los rasguños para ejecutarse automáticamente.
Para obtener más información sobre cómo trabaja Thunderbit en la práctica, consulte nuestra inmersión profunda: cómo raspar cualquier sitio web usando AI.
2. Copia Paste con chatgpt para extracción de datos web
A veces, solo necesitas una victoria rápida. Ahí es donde entran las potencias de copia de chatgpt. Aquí está el flujo de trabajo:
Copie manualmente el contenido que necesita de un sitio web (como una tabla o lista).
Pételo en ChatGPT y solicítelo: “Extraiga el nombre, la dirección y el número de teléfono de la empresa para cada entrada y formatearlo como una tabla”.
ChatGPT escupe una mesa estructurada, JSON, o cualquier formato que solicite.
Este método es simple, sin configuración, sin codificación, solo usted, su mouse y chatgpt. Es perfecto para tareas únicas o trabajos pequeños donde configurar un raspador completo se siente como exagerado.
Pero hay algunas grandes limitaciones:
Todavía estás haciendo el trabajo pesado copiando y pegando, por lo que no escala para grandes trabajos.
ChatGPT solo puede manejar tanto texto a la vez: las páginas o conjuntos de datos grandes pueden necesitar romperse en trozos.
La IA podría perder o malinterpretar algunos datos, especialmente si el formato es desordenado o el aviso no está claro.
Y, por supuesto, ChatGPT no puede obtener páginas web por URL por sí sola (a menos que esté utilizando complementos o herramientas de desarrollador).
En resumen: ideal para extracciones rápidas y ad-hoc, pero no un reemplazo para un raspador web real si necesita procesar muchas páginas o automatizar el proceso.
3. Escribir scripts de Python para extracción de datos web con chatgpt
Si eres un poco más aventurero (o tienes un amigo desarrollador en Speed Dial), puedes usar CHATGPT para generar scripts de Python personalizados para el raspado web. Así es como suele ser:
Describa lo que quiera: “Escriba un script de Python para raspar los nombres y precios de los productos de la primera página de este sitio de comercio electrónico utilizando Beautifulsoup”.
ChatGPT escribe el código para usted, a menudo usando bibliotecas como solicitudes y Beautifulsoup.
Copia el código en su entorno Python, instala las bibliotecas necesarias y lo ejecuta.
Si no funciona perfectamente, puede pedirle a CHATGPT que debuge o ajuste el guión.
Este enfoque le brinda la máxima flexibilidad: puede raspar múltiples páginas, manejar inicios de sesión o integrar el script con sus propias bases de datos o flujos de trabajo. Pero requiere una comodidad técnica: necesitará configurar Python, instalar paquetes y manejar cualquier error que aparezca. Y si el sitio web cambia su estructura, deberá actualizar el script (con la ayuda de ChatGPT, por supuesto).
Para usuarios no técnicos, esto puede ser un poco desalentador. Pero para los usuarios avanzados o equipos con soporte de TI, es una forma de construir exactamente lo que necesita, no más, nada menos.
Mi opinión:
Trueno es la opción para los usuarios comerciales que desean ahorrar tiempo, evitar dolores de cabeza técnicos y obtener datos estructurados rápidamente.
Chatgpt copy-pet es perfecto para extracciones rápidas y únicas cuando no desea configurar nada nuevo.
Scripts generados por chatgpt son los mejores para los usuarios expertos en tecnología que necesitan automatización personalizada y no tienen miedo de ensuciarse un poco las manos.
Control de clave: elegir el enfoque correcto de extracción de datos web de IA
Si estás cansado de los maratones de copia, AI es tu nuevo mejor amigo. Esto es lo que he aprendido (a veces de la manera difícil):
AI Web Scrapers como Thunderbit Ofrezca la solución más fácil y escalable para usuarios no técnicos: solo punto, clic y exportación. Son ideales para equipos de ventas, marketing, comercio electrónico y operaciones que necesitan datos confiables sin el alboroto.
Método de copia de chatgpt es un atajo útil para pequeñas tareas ad-hoc, pero no está construido para trabajos a granel o automatización.
Dejar que chatgpt escriba scripts de python Le brinda control total y automatización, pero necesitará algunas chuletas de codificación (o una voluntad de aprender).
No importa qué ruta tome, el objetivo es el mismo: pasar menos tiempo disputando datos y más tiempo usándolo para impulsar su negocio.
Entonces, la próxima vez que te atrapes en un bucle de copia, recuerda: hay una manera más inteligente. Y tus manos (y tu cordura) te lo agradecerán.
Este artículo fue escrito en cooperación con Thunderbit
World Network, el proyecto de identidad digital y cripto de OpenAI de Sam Altman, ha alarmado a los activistas de la privacidad antes de su lanzamiento de los Estados Unidos, con observadores preocupados por sus prácticas de recopilación y protección de datos.
El mundo “es lo contrario de la privacidad. Es una trampa”, dijo Nick Almond, CEO de Factorydao, en X., Si bien el proyecto afirma proteger la privacidad del usuario en la edad de proliferación de IA, se enfrenta a una serie de preocupaciones regulatorias en todo el mundo.
Anteriormente conocido como “WorldCoin”, la tecnología de escane de Iris y su esquema de pago de tokens criptográficos están siendo investigados por las autoridades en India, Corea del Sur, Italia, Colombia, Argentina, Portugal, Kenia e Indonesia. En España, Hong Kong y Brasil, está directamente prohibido.
La última incursión del mundo en los EE. UU. Podría ser el mayor desafío del CEO Sam Altman hasta el momento, donde las preocupaciones de privacidad aumentan por un mosaico de aplicación que difiere del estado por estado.
Las diferentes leyes de privacidad podrían dejar a los usuarios mundiales abiertos a la discriminación
El 30 de abril, Altman anunció que World se establecería en “Hubs de innovación clave” en cinco estados de los Estados Unidos: Atlanta, Austin, Los Ángeles, Miami, Nashville y San Francisco. Los aspirantes a humanos verificados pueden escanear sus iris en estos centros, dando a los marcadores biomédicos únicos del mundo.
Estos marcadores, por mundo, se pueden usar para demostrar la humanidad de uno al interactuar con otros en plataformas digitales.
Pero a medida que World se expande en los Estados Unidos, un paisaje regulatorio incierto podría desanimar a las personas y dificultar que la plataforma genere confianza de los usuarios.
Andrew Rossow, un abogado cibernético y de asuntos públicos de Rossow Law, dijo a CointeleGraph: “No existe una ley federal integral que regule específicamente los datos biométricos (como los escaneos de iris) en los Estados Unidos”.
De hecho, las leyes difieren estado por estado. Dos estados en los que operará el mundo, Texas y California, tienen alguna forma de protecciones legales en los libros para datos biométricos. Los usuarios de los tres estados restantes, Georgia, Tennessee y Florida, deben confiar en la ley federal, lo que requiere que “las empresas sean transparentes y justas, pero no hay reglas estatales especiales para los escaneos de iris”.
Pero incluso la existencia de la ley estatal no es garantía de protección. En Texas, no existe un derecho de acción privado para los datos biométricos, solo el Fiscal General del Estado (AG) puede hacer cumplir la captura o el uso de la ley de identificadores biométricos del estado.
Altman anunció la incursión del mundo en el mercado estadounidense en un evento de la compañía hace dos semanas. Fuente: Mundo
“La efectividad de las protecciones de datos del usuario, en lo que respecta al mundo, depende casi por completo de las prioridades, los recursos y la voluntad de Texas AG para actuar”, dijo Rossow.
Una AG más agresiva podría significar protecciones más sólidas, mientras que “una administración menos agresiva podría depilar la aplicación, lo que deja a los consumidores abiertos y vulnerables a la explotación”.
El potencial de explotación es uno de los factores clave que impulsan los esfuerzos activistas contra sistemas como el mundo.
Privacy International, un grupo de protección de la privacidad que apoyó acciones legales en Kenia contra el mundo, afirma que en “la ausencia de marcos legales fuertes y salvaguardas estrictas, las tecnologías biométricas representan amenazas graves para la privacidad y la seguridad personal, a medida que su aplicación puede ampliarse para facilitar la discriminación, el perfil y la vigilancia masiva”.
Relacionado: Más de 70 empresas criptográficas unen fuerzas para abordar el monopolio de IA de Big Tech
Ya en 2021, Amnistía Internacional había planteado preocupaciones sobre la discriminación y las aplicaciones de los sistemas biométricos de metodologías dudosas. Dichos, dijeron, pueden “hacer inferencias y predicciones sobre cosas como el género de las personas, las emociones u otros atributos personales, sufren fallas serias y fundamentales en sus fundamentos científicos”.
“Esto significa que las inferencias que hacen sobre nosotros a menudo son inválidas, en algunos casos incluso operacionalizando las teorías eugenicistas de la frenología y la fisonomía”.
No todos están convencidos de las preocupaciones de los guardianes de privacidad. Tomasz Stańczak, director ejecutivo de la Fundación Ethereum, dijo que ha pasado “más de 100 horas” analizando World, que se está basando en la red Ethereum. Agregó que “parecía muy prometedor y mucho más robusto y centrado en la privacidad que mi intuición inicial”.
Paul Dylan-Ennis, un investigador y académico de Ethereum, dijo que cree que la tecnología del mundo “probablemente es fuerte en términos de privacidad”, pero admitió que la estética podría estar desanimando a las personas: “solo un espejo negro intangible para todo”.
WorldCoin Faces Monting Bans en todo el mundo
Operai puede estar duplicando una estrategia estadounidense, pero otras jurisdicciones en todo el mundo están investigando cada vez más, limitando o prohibiendo directamente las actividades de la empresa.
En 2023, los reguladores en India, Corea del Sur, Kenia, Alemania y Brasil comenzaron a investigar las prácticas de recopilación de datos de la empresa. España se convirtió en el primer país en prohibir la recopilación mundial de datos en marzo de 2024.
Relacionado: El espía norcoreano se desliza, revela lazos en la entrevista de trabajo falsa
La Agencia de Protección de Datos española dijo anteriormente a CointeleGraph que su curso de acción se basó en informes de ciudadanos españoles. Afirmó que los operadores de ORB proporcionaron “información insuficiente, datos recopilados de menores e incluso no permitieron el retiro del consentimiento”.
Después de la prohibición, World publicó una publicación de blog que indica que opera “legalmente en todos los lugares en los que está disponible”.
World ha hecho recientemente que sus orbes de escaneo de iris sean más compactos y transportables. Fuente: Mundo
Los reguladores globales no estuvieron de acuerdo. Hong Kong siguió a España en mayo de 2024 y ordenó a World que dejara de operar, ya que supuestamente violaba la ordenanza de privacidad de datos personales de la ciudad-estado.
Siguieron otras acusaciones de prácticas de recopilación de datos inadecuadas, y varios países como Alemania y, más recientemente, Kenia, han ordenado al mundo que elimine los datos de miles de usuarios, mientras que Colombia y Argentina han emitido fuertes multas.
En enero de 2025, la Autoridad Nacional de Protección de Datos de Brasil prohibió el mundo directamente, citando preocupación por la naturaleza irreversible de la recopilación de datos y el potencial para que el mundo influya en personas con desventajas económicas con la promesa de criptografía para sus datos.
Oportunidades en Japón y Estados Unidos
A pesar de las protestas en varios países, el sistema de identificación está haciendo incursiones. En Japón, el mundo ahora forma parte de las citas en línea.
Spencer Rascoff, CEO de Match Group, que incluye la aplicación de citas Tinder en su cartera, anunció el 1 de mayo que Tinder probaría el sistema de identificación mundial en Tinder en Japón, “dar a los usuarios una forma de privacidad de demostrar que son verdaderos humanos”.
Los usuarios de Tinder en Japón pueden deslizar bien con los usuarios verificados de ID. Fuente: Mundo
La integración en Japón aún no ha despegado, pero como Tinder es la aplicación de citas más popular en Japón, proporciona un caso de uso importante para la plataforma de identidad mundial. Solo en 2024, tenía unos 1.38 millones de descargas.
Si World pudiera obtener una asociación de Tinder en los Estados Unidos, adquiriría 7.8 millones de miembros activos mensuales durante la noche. Si se expandió a servicios similares como Bumble o Bishing, las próximas dos aplicaciones de citas más populares en el país, el mundo habrá capturado el 67% del mercado de citas en línea de los Estados Unidos, que comprenden las identidades personales y únicas de decenas de millones de usuarios.
Pero los derechos de privacidad en los Estados Unidos están lejos de establecerse. En Texas, uno de los estados donde el mundo planea operar, Google recientemente se estableció por una suma de $ 1.4 mil millones. La Compañía pagó la suma llamativa al estado de Texas después de establecer dos demandas alegando la empresa de seguimiento de datos de búsqueda y ubicación de los usuarios, así como recopilar información de reconocimiento facial.
En otros lugares, en Illinois y Nueva York, las empresas de biometría enfrentan procedimientos judiciales, mientras que los legisladores toman medidas para reducir la recopilación de datos biométricos.
Revista: Chatgpt un ‘misil de búsqueda de esquizofrenia’, AI Científicos Preparación para el 50% de muertes: AI Eye
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
El último informe de uso de Poe muestra que Openai y Google fortalecen sus posiciones en categorías clave de IA, mientras que Anthrope pierde terreno y capacidades de razonamiento especializadas emergen como un campo de batalla competitivo crucial.
Según los datos publicados hoy en día por Poe, una plataforma que ofrece acceso a más de 100 modelos de IA, se produjeron cambios significativos en la participación de mercado en todas las principales categorías de IA entre enero y mayo de 2025. Los datos, extraídos de suscriptores de POE, proporcionan una visibilidad rara de las preferencias reales de los usuarios más allá de los puntos de referencia de la industria.
“Como una puerta de entrada universal a más de 100 modelos AI, Poe tiene una visión única de las tendencias de uso en todo el ecosistema”, dijo Nick Huber, el líder del ecosistema de AI de Poe, en una entrevista exclusiva con VentureBeat. “Las cosas más sorprendentes que suceden en este momento son la rápida innovación (3 veces el número de lanzamientos en enero-mayo de 2025 frente al mismo período en 2024), un panorama competitivo cada vez más diverso y los modelos de razonamiento son la clara historia de éxito de principios de 2025.”
Un cuadro de POE que muestra clasificaciones de modelos AI en diferentes categorías a partir de mayo de 2025. El GPT-4O de OpenAI domina en la generación de texto con un 35.8% de participación de uso, mientras que el Gemini-2.5-Pro de Google lidera en capacidades de razonamiento e Imagen3 en la generación de imágenes. (Crédito: Poe)
GPT-4O mantiene el dominio, mientras que los nuevos modelos capturan rápidamente la participación de mercado
En la generación de texto central, el GPT-4O de OpenAI mantuvo su posición al mando con el 35.8% de la participación en el mensaje, mientras que la nueva familia GPT-4.1 de la compañía capturó rápidamente el 9.4% del uso dentro de las semanas posteriores al lanzamiento. Gemini 2.5 Pro de Google logró de manera similar aproximadamente un 5% de participación en los mensajes poco después de su introducción.
Estas ganancias llegaron en gran medida a expensas de los modelos Claude de Anthrope, que vio una disminución absoluta del 10% en la participación durante el período de informe. El informe señala que el soneto Claude 3.7 ahora ha reemplazado sustancialmente el soneto Claude 3.5 anterior en preferencia del usuario, aunque este último aún mantiene una notable participación de uso del 12%.
Deepseek, que experimentó un crecimiento viral a principios de este año, ha visto su impulso lento a medida que los competidores han lanzado sus propios modelos de razonamiento asequibles y detallados. La participación de mensajes de Deepseek R1 disminuyó de un pico del 7% a mediados de febrero al 3% a fines de abril.
Las capacidades complejas de resolución de problemas se convierten en diferenciador clave en el mercado de IA
Quizás la tendencia más significativa identificada en el informe es el crecimiento dramático en modelos de razonamiento especializados, que se han expandido de aproximadamente el 2% al 10% de todos los mensajes de texto enviados en POE desde el comienzo de 2025.
“Los modelos de razonamiento, incluso en los primeros días, han demostrado una notable capacidad para manejar tareas complejas con una mayor precisión”, dijo Huber a VentureBeat. “Los primeros usuarios claramente están encontrando valor en esto y están dispuestos a asumir las compensaciones en el costo y el tiempo de procesamiento para mejores resultados”.
En este segmento de alto crecimiento, Gemini 2.5 Pro se ha establecido rápidamente como líder, capturando aproximadamente el 31% del uso del modelo de razonamiento dentro de las seis semanas de lanzamiento. Ahora lidera la categoría, antes de los modelos de razonamiento de Claude.
Operai continúa innovando rápidamente en este espacio, liberando múltiples modelos de razonamiento (O1-Pro, O3-Mini, O3-Mini-High, O3 y O4-Mini) solo en los primeros cuatro meses de 2025. El informe indica que los usuarios de POE rápidamente adoptan las ofertas más recientes de OpenAI, transición de modelos más antiguos como O1 a alternativas más nuevas como O3.
El informe también señaló la aparición de modelos de razonamiento híbrido, como la vista previa de Gemini 2.5 Flash y Qwen 3, que puede ajustar dinámicamente su nivel de razonamiento dentro de las conversaciones. Sin embargo, estos modelos actualmente representan solo alrededor del 1% del uso del modelo de razonamiento.
Los analistas de la industria sugieren que este cambio hacia las capacidades de razonamiento especializadas señala un mercado de IA en maduración donde la generación de texto sin procesar se está volviendo comercializado, lo que obliga a los proveedores a diferenciarse a través de capacidades de mayor valor que pueden obtener precios premium.
Los desafíos de Imagen 3 de Google establecieron jugadores en la arena visual de IA
El mercado de la generación de imágenes parece cada vez más competitivo, con la familia Imagen 3 de Google que crece constantemente de aproximadamente el 10% al 30% de participación durante 2025, ahora rivalizan con la familia de modelos de Flux Labs del líder de Black Forest Labs, que colectivamente mantuvo una participación colectiva a fines de abril.
El GPT-IMage-1 de Openai, se presentó a la API a fines de abril, alcanzó rápidamente el 17% del uso de la generación de imágenes en solo dos semanas, reflejando su adopción viral en la aplicación ChatGPT a lo largo de marzo y principios de abril.
El informe indica que los modelos de flujo mantuvieron su participación general de pluralidad en la generación de imágenes en POE, pero experimentó una disminución moderada de aproximadamente 45% a 35% durante el período de informe.
Esta competencia de tres vías entre Google, OpenAi y Black Forest Labs marca un cambio significativo desde principios de 2024, cuando las variantes de difusión de mediana edad y estable dominaron el espacio. La rápida mejora en la calidad de la imagen, la adherencia a las indicaciones y la velocidad de representación ha transformado esta categoría en uno de los campos de batalla de IA más ferozmente disputados.
La adopción empresarial de la generación de imágenes se ha acelerado sustancialmente en los últimos seis meses, según datos complementarios de la industria, con departamentos de marketing y agencias creativas integrando cada vez más estas herramientas en sus flujos de trabajo de producción.
El advenedizo chino Kling interrumpe el mercado de AI Video, desafiando el liderazgo temprano de Runway
En la generación de videos, la recién lanzada familia de modelos de Kling Lab Kuaishou ha interrumpido rápidamente el mercado, capturando colectivamente alrededor del 30% de participación de uso. En particular, Kling-2.0-Master alcanzó el 21% de toda la generación de videos en POE a fines de abril, solo tres semanas después de su lanzamiento.
VEO 2 de Google mantuvo una posición sólida con aproximadamente un 20% de participación después de su lanzamiento de febrero, mientras que la pista de pioneras de categoría vio una disminución sustancial de su participación de uso de aproximadamente 60% a 20% durante todo el período de informe.
La velocidad de la penetración del mercado de Kling resalta la rapidez con que el panorama competitivo puede cambiar en las categorías emergentes de IA, donde los jugadores establecidos pueden no mantener sus ventajas tempranas a medida que los recién llegados iteran y mejoran rápidamente.
La generación de videos sigue siendo la aplicación de IA de consumo más intensiva computacionalmente intensiva, con modelos que requieren una potencia de procesamiento significativa para crear clips cortos. Esto ha mantenido el uso más limitado que el texto o la generación de imágenes, pero se espera que los costos de caída rápida y la mejora de la calidad impulsen una adopción más amplia hasta 2025.
Los primeros usuarios empresariales incluyen agencias de publicidad, creadores de contenido de redes sociales y plataformas educativas que han comenzado a integrar videos generados por IA en sus estrategias de contenido a pesar de las limitaciones actuales de la tecnología.
ElevenLabs domina la IA de voz, mientras que los nuevos participantes se dirigen a casos de uso especializados
ElevenLabs continúa liderando la categoría de generación de audio, cumpliendo aproximadamente el 80% de las solicitudes de texto a voz de todos los suscriptores durante el período de informe. Sin embargo, el informe destaca la competencia emergente de los recién llegados Cartesia, un discurso irreal, playai y Orfeo, que ofrecen modelos diferenciados de opciones de voz, efectos y precios.
Este dominio del mercado de un solo jugador contrasta con la competencia más fragmentada en otras categorías de IA. Los expertos de la industria atribuyen el liderazgo continuo de ElevenLabs a su entrada temprana del mercado, una extensa biblioteca de voz y mejoras de calidad consistentes que han mantenido una ventaja técnica sobre los competidores.
Los participantes más nuevos están encontrando el éxito al atacar a los nichos de mercado específicos. Unreal Speech ha ganado tracción con los productores de podcasts y los editores de audiolibros al ofrecer actores de voz especializados y capacidades de rango emocional. Mientras tanto, Cartesia se ha centrado en voces multilingües con acentos auténticos, capturando el interés de las empresas globales y las plataformas educativas.
Se proyecta que el mercado de IA de audio crecerá sustancialmente a través de 2025 a medida que las capacidades de texto a voz se centran en la calidad humana y encontrar aplicaciones en el servicio al cliente, las soluciones de accesibilidad y la creación de contenido. Los requisitos computacionales relativamente bajos en comparación con la generación de videos permiten una implementación y experimentación más amplias.
Implicaciones estratégicas para las empresas que navegan por un paisaje de IA en constante cambio
La naturaleza dinámica del panorama del modelo AI presenta oportunidades y desafíos para las empresas que integran estas tecnologías.
“Puede ser un desafío mantenerse al día con lo último en IA y el ritmo solo está ganando velocidad”, dijo Huber a VentureBeat. “Si usted es un negocio que ya ejecuta la IA a escala, invertir en tuberías de evaluación robustas y agnósticas del proveedor es fundamental porque el modelo mejor este mes puede ser el segundo mejor el próximo mes”.
Esta volatilidad en las preferencias del modelo subraya el valor de plataformas como POE que ofrecen acceso a múltiples modelos a través de una sola interfaz, lo que permite a los usuarios comparar salidas y adaptarse al ecosistema de IA cambiante.
Los analistas de la industria sugieren que la creciente importancia de las capacidades de razonamiento puede indicar un cambio en cómo las empresas evalúan y implementan modelos de IA, con un enfoque creciente en la precisión y la confiabilidad para tareas complejas en lugar de solo velocidad o rentabilidad.
A medida que Frontier Labs continúa lanzando modelos más capaces a un ritmo acelerado, las empresas enfrentan decisiones difíciles sobre cuándo estandarizar en plataformas específicas en lugar de mantener la flexibilidad. Muchos líderes empresariales de IA están adoptando un enfoque de cartera, utilizando diferentes modelos para diferentes tareas mientras mantienen la capacidad de cambiar los proveedores a medida que evolucionan las capacidades.
“Este será un espacio importante para ver, especialmente entre los proveedores de fronteras, ya que representa lo mejor de lo que la IA puede lograr actualmente”, señaló Huber sobre los modelos de razonamiento.
El informe indica que las capacidades multimedia también se están volviendo cada vez más competitivas, lo que sugiere que la generación de texto, durante mucho tiempo, el enfoque principal del desarrollo de la IA, puede estar dando paso a un ecosistema más equilibrado donde la imagen, el video y la generación de audio juegan roles igualmente importantes.
Las empresas que navegan con éxito este complejo paisaje probablemente serán aquellas que mantengan marcos de evaluación centrados en casos de uso específicos en lugar de perseguir las últimas versiones del modelo, al tiempo que construyen una infraestructura técnica simultánea que permite una rápida adopción cuando surgen mejoras significativas.
A medida que los modelos de IA continúan su juego de sillas musicales en la cima de la clasificación, una cosa queda clara: en el mercado actual, la corona rara vez permanece en la misma cabeza durante mucho tiempo, y las compañías que apuntan a su futuro al campeón de IA de ayer pueden encontrarse alineados con el también Ran de mañana.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.