Noticias
Nuevos datos muestran cuán mal se están atornillando a los editores.

Ilustración de Fernando Capeto para Forbes; Gráficos de Cherezoff/Getty Images
doompanas como OpenAi y perplejidad han hecho altas afirmaciones de que sus motores de búsqueda con IA, que raspan información de la web para generar respuestas resumidas, proporcionarán nuevas fuentes de ingresos para los editores dirigiendo más lectores a sus sitios. Pero la realidad es muy diferente: los motores de búsqueda de IA envían un 96% menos de tráfico de referencia a sitios de noticias y blogs que la búsqueda tradicional de Google, según un nuevo informe de la plataforma de licencia de contenido Tollbit, compartido exclusivamente con Forbes. Mientras tanto, el raspado de sitios web de los desarrolladores de IA se ha más que duplicado en los últimos meses, según el informe.
Operai, perplejidad, meta y otras compañías de IA rasparon sitios web 2 millones de veces en promedio en el cuarto trimestre del año pasado, según el informe, que analizó 160 sitios web, incluidas noticias nacionales y locales, tecnología de consumo y blogs de compras en los últimos tres meses de 2024. Cada página fue raspada aproximadamente siete veces en promedio.
“Estamos viendo una afluencia de bots que están martillando estos sitios cada vez que un usuario hace una pregunta”, dijo el CEO Toshit Panigrahi Forbes. “La cantidad de demanda de contenido del editor no es trivial”. Tollbit, que se integra con los editores para rastrear a las compañías de raspado y cobrar cada vez que lo hacen, recopiló los datos de los editores que se han registrado en su plataforma para el análisis, dándole información sobre el tráfico y la actividad de raspado en sus sitios.
Operai no hizo comentarios, y Meta no respondió a una solicitud de comentarios. Un portavoz de perplejidad no abordó los reclamos específicos del informe, pero dijo que la compañía respeta las directivas “robots.txt”, que instruyen a los rastreadores web en qué partes de un sitio pueden acceder.
“Es hora de decir que no”.
En febrero pasado, la firma de investigación Gartner predijo que el tráfico de los motores de búsqueda tradicionales caería un 25% para 2026, en gran parte debido a los chatbots de IA y otros agentes virtuales. Las empresas que dependen del tráfico de búsqueda ya han comenzado a recibir un éxito. La compañía Edtech Chegg recientemente demandó a Google, alegando que los resúmenes generados por la IA del gigante de la búsqueda incluían contenido de su sitio web sin atribución, arrebatando los ojos de su sitio y lastimando sus ingresos ya disminuidos. El tráfico de Chegg se desplomó del 49% en enero año tras año, una fuerte disminución de la caída del 8% en el segundo trimestre del año pasado, cuando Google lanzó resúmenes de IA. La disminución del tráfico ha afectado a Chegg en la medida en que está considerando ir en privado o ser adquirido, dijo el CEO Nathan Schultz en una llamada de ganancias.
“Es hora de decir que no”, dijo Schultz Forbes. Dijo que Google y los editores han tenido un contrato social para enviar a los usuarios a contenido de alta calidad, y no solo retener ese tráfico en Google. “Cuando rompes ese contrato, eso no está bien”.
Ian Crosby, socio de la firma de abogados, Susman Godfrey, representa a Chegg, dijo que la práctica dañará a las compañías de búsqueda como Google a largo plazo, lo que resulta en una “lechada de IA” si compañías como Chegg están fuera del negocio. “Es una amenaza para Internet”, dijo.
Google ha llamado a la demanda de Chegg “sin mérito”, alegando que su servicio de búsqueda de IA envía tráfico a una mayor diversidad de sitios.
Los sitios de reserva de viajes como Kayak y TripAdvisor también están preocupados por las descripción general de la búsqueda de IA de Google que le quitan el tráfico, Forbes reportado. Mientras tanto, los editores de noticias han emprendido acciones legales contra Operai y perplejidad por supuestamente infringir su propiedad intelectual. (Ambas compañías están luchando contra los trajes).
Los desarrolladores de IA usan lo que se llaman agentes de usuario para rastrear la web y recopilar datos, pero muchos no identifican o divulgan adecuadamente sus bots raspadores, lo que dificulta que los propietarios de sitios web descubran y comprendan cómo las empresas de IA están accediendo a su contenido. Algunos, como Google, parecen usar los mismos bots para múltiples propósitos, incluida la indexación de la web y raspando datos para sus herramientas de IA, dijo Panigrahi.
“Es muy difícil para los editores querer bloquear Google. Podría afectar su SEO “.
“Es muy difícil para los editores querer bloquear Google. Podría afectar su SEO, y es imposible para nosotros deducir exactamente el caso de uso de sus bots “, dijo la cofundadora de Tollbit, Olivia Joslin.
Google no respondió a una solicitud de comentarios.
Y luego está la perplejidad de la inicio de búsqueda de IA de AI de $ 9 mil millones. Incluso cuando los editores bloquean la perplejidad para acceder a sus sitios, la startup de IA continúa enviando el tráfico de referencia a ellos, lo que implica que continúa raspando en secreto los sitios bajo el radar, según el informe. En un ejemplo, raspó el sitio web de un editor 500 veces, pero envió más de 10,000 referencias. Una explicación para esto, dijo Panigrahi, es que la perplejidad utilizó un rastreador web no identificado para acceder al sitio. La perplejidad solo decía que respeta “robots.txt”.
El año pasado, la bulliciosa startup tomó calor por raspar y volver a publicar artículos con paredes de pago, en algunos casos, incluida la redacción casi idéntica, de medios de comunicación como ForbesCNBC y Bloomberg sin una atribución adecuada. También citó blogs de baja calidad, generados por IA y publicaciones en redes sociales que contienen información inexacta, Forbes encontrado en junio. En respuesta a Forbes ‘ Los informes, el CEO Aravind Srinivas, dijo que la característica de republicación, llamada Permexity Pages, tiene “bordes ásperos”. Forbes Envió una carta de cese y desistimiento a la perplejidad en junio, acusándola de infringir derechos de autor.
En octubre, el New York Post y Dow Jones demandaron a la perplejidad por presunta infracción de derechos de autor y atribuir hechos inventados a las compañías de medios. En ese momento, la perplejidad dijo que la demanda refleja una postura que es “fundamentalmente miope, innecesaria y autodestructiva”.
A principios de este mes, otra startup de IA se encontró en la mira de las compañías de medios. Un grupo de editores, incluidos Condé Nast, Vox y The Atlantic, presentaron una demanda contra la compañía de IA Enterprise coherentes por supuestamente raspar 4.000 trabajos con derechos de autor de Internet y usarlos para capacitar su conjunto de modelos de idiomas grandes. (Forbes fue parte de la demanda).
Rampant AI Scraping no solo perjudica el tráfico y los ingresos de búsqueda de los editores. A medida que más y más bots visitan sitios web para leer y raspar su contenido, también están ejecutando millones en costos de servidor, dijo Panigrahi. Con empresas como OpenAI y la perplejidad que lanzan a los agentes de IA de investigación que visitan de forma autónoma a cientos de sitios para producir informes en profundidad, el problema empeorará.
Una forma clara de abordar este problema es la licencia de los artículos directamente. Por ejemplo, Associated Press, Axel Springer y Financial Times han alcanzado los acuerdos de contenido con OpenAI. Pero también ha surgido un nuevo cuadro de empresas para encontrar nuevos modelos económicos para los editores en la era de la inteligencia artificial. Tollbit, por ejemplo, cobra a las compañías de IA cada vez que raspan el contenido del sitio de un editor. Tollbit funciona con 500 editores, incluidos Time, Hearst y Adweek.
“La IA no lee como lo hacen los humanos. Los humanos harán clic en un enlace, harán clic en el segundo enlace y luego seguirán adelante ”, dijo Panigrahi. “La IA leerá de 10 a 20 enlaces para obtener su respuesta”.
Más de Forbes