Noticias

Informe de IA: las batallas por derechos de autor ponen bajo el microscopio los conjuntos de datos Meta y OpenAI

Published

1 año ago

20 enero, 2025

La semana pasada se destacaron no una, sino dos batallas legales de alto perfil sobre IA, con actualizaciones en casos de derechos de autor separados contra Meta y OpenAI.

Los documentos judiciales revelados en un caso de derechos de autor de IA contra Meta plantearon nuevas preguntas sobre el uso de libros electrónicos de un sitio de piratería de libros Library Genesis (LibGen). También plantean nuevas preguntas sobre cuánto sabían el CEO Mark Zuckerberg y otros ejecutivos de Meta sobre el uso de contenido pirateado por parte de los equipos de Meta para ayudar a entrenar sus modelos Llama.

Los documentos judiciales alegan que los empleados de Meta intentaron eliminar información de derechos de autor (incluidos encabezados y otros identificadores) de diversos materiales. Una presentación muestra un metadocumento interno con una sugerencia para eliminar líneas que contengan palabras como “ISBN”, “derechos de autor” y “todos los derechos reservados”. Otra presentación incluye mensajes entre empleados que hablan sobre el deseo de competir con otros rivales de IA, incluido el de vencer al GPT-4 de OpenAI y al mismo tiempo describen al rival francés Mistral como “maní”.

Otros documentos incluyen partes del testimonio de Zuckerberg de su declaración de diciembre. Zuckerberg dijo que las caracterizaciones amplias hacen que el uso de contenido pirateado parezca “algo malo”, pero agregó que los equipos de Meta “piensan en esto detenidamente porque a menudo hay más matices de los que parecen aparentes al principio”. (Meta no respondió a la solicitud de Digiday de comentar sobre los documentos judiciales).

Los libros del conjunto de datos de LibGen incluyen títulos de autores destacados, incluidos Ta-Nehisi Coates y Sarah Silverman, que se encuentran entre los autores que presentaron la demanda. Zuckerberg afirmó no estar familiarizado con LibGen. Sin embargo, el abogado del demandante preguntó si Meta haría negocios con una empresa que se jacta de utilizar materiales pirateados.

“En general, si alguien transmite en voz alta que está haciendo algo ilegal, sería una gran señal de alerta que me gustaría que analizáramos detenidamente antes de interactuar con él de cualquier manera”, dijo Zuckerberg.

Cuando un abogado le preguntó si Meta no debería descargar materiales de sitios web que se sabe que tienen materiales pirateados, Zuckerberg dijo que YouTube aloja “algo por ciento” de contenido pirateado incluso si la mayor parte del contenido es “bastante bueno y tienen la licencia para hacerlo”. “

“Al principio, creo que la gente hizo algunas afirmaciones sobre la intención de YouTube en este sentido, y eran menos maduros en el desarrollo de su gestión de derechos de propiedad intelectual”, dijo Zuckerberg. “Pero incluso entonces, no creo que hubiera dicho que no quisiera que la gente de Meta no usara YouTube en ese momento. Entonces… entonces no lo sé”.

Otros documentos sugieren que los ejecutivos de Meta sabían que los datos de entrenamiento de Llama tenían contenido LibGen y otros materiales protegidos por derechos de autor de fuentes como CommonCrawl. Los documentos también sugieren que los equipos de Meta sabían que podría haber consecuencias negativas y posibles multas en virtud de la Ley de IA de la UE si se descubriera el uso de LibGen. Un documento menciona que los equipos Meta sugieren que los conjuntos de datos deberían formar equipos rojos para filtrar información potencial sobre armas biológicas y estereotipos dañinos.

NYT contra OpenAI y Microsoft

Las revelaciones en el caso Meta se producen cuando las empresas de tecnología enfrentan un mayor escrutinio sobre los tipos de contenido utilizados para entrenar grandes modelos lingüísticos. En una demanda separada entre The New York Times y OpenAI, los abogados presentaron argumentos orales ante el tribunal que describieron los puntos clave que ambas partes están elaborando como parte del caso. En ambos casos, los demandantes alegan que las empresas de tecnología eliminaron la información de derechos de autor del contenido utilizado para entrenar modelos de IA.

“Estás dejando a la gente expuesta a infracciones masivas de derechos de autor sin la capacidad de rastrearlas”, dijo Steven Lieberman, abogado que representa al New York Daily News, que presentó un caso separado contra OpenAI y Microsoft. “Es como si hiciera que el sistema de alarma de tu casa se desconectara”.

Más allá de los tribunales: los editores firman nuevos acuerdos sobre IA

La semana pasada, Axios y OpenAI anunciaron una nueva asociación que incluye la financiación de nuevas salas de redacción locales de Axios en cuatro ciudades, incluidas Pittsburgh, Pensilvania, y Kansas City, Missouri. El acuerdo también otorga a Axios acceso a la tecnología de OpenAI para crear nuevos productos, procesos y sistemas de IA. En una publicación de blog sobre el acuerdo, el director ejecutivo de Axios, Jim VanderHei, escribió que el acuerdo de tres años también brindará a todo el personal de Axios acceso a la versión empresarial de OpenAI.

Esa no fue la noticia de la semana pasada sobre las noticias impulsadas por la IA. Associated Press y Google también anunciaron una nueva asociación que incluye que AP proporcione información en tiempo real a la aplicación Gemini de Google. Las publicaciones del blog de las compañías no revelaron los términos del acuerdo ni lo que implicará, pero señalaron que el plan ayudará a “mejorar la utilidad de los resultados” dentro de la aplicación Gemini. Kristin Heitmann, directora de ingresos de AP, afirmó que las actualizaciones son parte de la relación continua de las empresas y “se basan en el trabajo conjunto para brindar noticias e información oportuna y precisa a audiencias globales”.

Más allá de los planes de Axios y AP de ampliar las noticias sobre IA, otra empresa que comenzaba con “A” dio un paso atrás. La semana pasada, Apple suspendió el uso de alertas de noticias de IA, tras las críticas por generar imprecisiones en las notificaciones resumidas de IA. Mientras tanto, un nuevo informe de DoubleVerify detalla una red de más de 200 sitios web que generan “inmersiones de IA” que imitan a los editores reales y al mismo tiempo engañan a los proveedores y compradores de tecnología publicitaria.

Avisos y productos: otras noticias y anuncios sobre IA

Anthrologic, una nueva startup cofundada por ex ejecutivos de MediaMonks, se lanzó con el objetivo de ayudar a las marcas a crear agentes de inteligencia artificial.
Adobe presentó una nueva herramienta de inteligencia artificial generativa para su plataforma Firefly que tiene como objetivo brindar a los minoristas más formas de escalar contenido personalizado.
La Corte Suprema de Estados Unidos confirmó la prohibición de TikTok a menos que la empresa se venda a una entidad estadounidense.
La Autoridad de Mercados de Competencia del Reino Unido anunció una nueva investigación sobre el negocio de búsqueda y anuncios de búsqueda de Google, que explorará si el gigante tiene un “estatus de mercado estratégico” según la ley de competencia recientemente promulgada en el Reino Unido. Una de las razones de la investigación de la CMA es asegurarse de que las nuevas empresas de IA puedan competir de manera justa con los productos y servicios de IA de Google.
La FTC, que ha estado investigando el chatbot My AI de Snapchat, anunció que remitió la investigación al Departamento de Justicia de Estados Unidos. La investigación incluye los “riesgos y daños supuestamente resultantes para los usuarios jóvenes”, según la FTC. “Aunque la Comisión normalmente no hace público el hecho de que ha remitido una queja, hemos determinado que hacerlo aquí es de interés público”.

Otras historias relacionadas con la IA de todo Digiday

Noticias de Inteligencia Artificial

Noticias

Informe de IA: las batallas por derechos de autor ponen bajo el microscopio los conjuntos de datos Meta y OpenAI

Leave a Reply

Leave a Reply

Trending

Leave a Reply Cancelar respuesta

Leave a Reply

Trending

Leave a Reply