Una importante demanda por derechos de autor contra Meta ha revelado un tesoro de comunicaciones internas sobre los planes de la compañía para desarrollar sus modelos de IA de código abierto, Llama, que incluyen discusiones sobre cómo evitar “la cobertura de los medios que sugiera que hemos utilizado un conjunto de datos que sabemos que es pirateado”.
Noticias
Dentro de la carrera de Meta para vencer a OpenAI: “Necesitamos aprender a construir fronteras y ganar esta carrera”
Los mensajes, que formaban parte de una serie de pruebas reveladas por un tribunal de California, sugieren que Meta utilizó datos protegidos por derechos de autor cuando entrenó sus sistemas de inteligencia artificial y trabajó para ocultarlos, mientras corría para vencer a rivales como OpenAI y Mistral. Partes de los mensajes se revelaron por primera vez la semana pasada.
En un correo electrónico de octubre de 2023 al investigador de Meta AI Hugo Touvron, Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, escribió que el objetivo de la compañía “debe ser GPT4”, refiriéndose al modelo de lenguaje grande OpenAI anunciado en marzo de 2023. Meta Teníamos que “aprender a construir fronteras y ganar esta carrera”, añadió Al-Dahle. Esos planes aparentemente involucraban al sitio de piratería de libros Library Genesis (LibGen) para entrenar sus sistemas de inteligencia artificial.
Un correo electrónico sin fecha del director de producto de Meta, Sony Theakanath, enviado a la vicepresidenta de investigación de IA, Joelle Pineau, sopesó si usar LibGen solo internamente, para los puntos de referencia incluidos en una publicación de blog o para crear un modelo entrenado en el sitio. En el correo electrónico, Theakanath escribe que “GenAI ha sido aprobado para usar LibGen para Llama3… con una serie de mitigaciones acordadas” después de escalarlo a “MZ”, presumiblemente el CEO de Meta, Mark Zuckerberg. Como se señala en el correo electrónico, Theakanath creía que “Libgen es esencial para cumplir con SOTA [state-of-the-art] números”, y agregó “se sabe que OpenAI y Mistral están utilizando la biblioteca para sus modelos (de boca en boca)”. Mistral y OpenAI no han declarado si utilizan o no LibGen. (El borde contacté a ambos para obtener más información).
Los documentos judiciales surgen de una demanda colectiva que el autor Richard Kadrey, la comediante Sarah Silverman y otros presentaron contra Meta, acusándola de utilizar contenido protegido por derechos de autor obtenido ilegalmente para entrenar sus modelos de IA, en violación de las leyes de propiedad intelectual. Meta, al igual que otras empresas de inteligencia artificial, ha argumentado que el uso de material protegido por derechos de autor en datos de entrenamiento debería constituir un uso legítimo y legal. El borde Se comunicó con Meta para solicitar comentarios, pero no recibió respuesta de inmediato.
Algunas de las “mitigaciones” para el uso de LibGen incluían estipulaciones de que Meta debía “eliminar los datos claramente marcados como pirateados/robados”, evitando al mismo tiempo citar externamente “el uso de cualquier dato de entrenamiento” del sitio. El correo electrónico de Theakanath también decía que la compañía necesitaría “equipar” los modelos de la compañía “para armas biológicas y CBRNE”. [Chemical, Biological, Radiological, Nuclear, and Explosives]“Riesgos.
El correo electrónico también repasaba algunos de los “riesgos políticos” que plantea el uso de LibGen, incluyendo cómo los reguladores podrían responder a la cobertura de los medios que sugiere el uso de contenido pirateado por parte de Meta. “Esto puede socavar nuestra posición negociadora con los reguladores sobre estos temas”, decía el correo electrónico. Una conversación de abril de 2023 entre el investigador de Meta Nikolay Bashlykov y el miembro del equipo de IA David Esiobu también mostró que Bashlykov admitió que “no está seguro de que podamos usar las IP de Meta para cargar torrents”. [of] contenido pirata”.
Otros documentos internos muestran las medidas que tomó Meta para ocultar la información de derechos de autor en los datos de entrenamiento de LibGen. Un documento titulado “observaciones sobre LibGen-SciMag” muestra los comentarios dejados por los empleados sobre cómo mejorar el conjunto de datos. Una sugerencia es “eliminar más encabezados de derechos de autor e identificadores de documentos”, lo que incluye cualquier línea que contenga “ISBN”, “Copyright”, “Todos los derechos reservados” o el símbolo de copyright. Otras notas mencionan eliminar más metadatos “para evitar posibles complicaciones legales”, así como considerar la posibilidad de eliminar la lista de autores de un artículo “para reducir la responsabilidad”.
El pasado mes de junio, Los New York Times informó sobre la frenética carrera dentro de Meta después del debut de ChatGPT, revelando que la compañía se había topado con un muro: había agotado casi todos los libros, artículos y poemas en inglés disponibles que pudo encontrar en línea. Desesperados por obtener más datos, los ejecutivos supuestamente discutieron la compra directa de Simon & Schuster y consideraron contratar contratistas en África para resumir libros sin permiso.
En el informe, algunos ejecutivos justificaron su enfoque señalando el “precedente de mercado” de OpenAI de utilizar obras protegidas por derechos de autor, mientras que otros argumentaron que la victoria judicial de Google en 2015 estableciendo su derecho a escanear libros podría proporcionar cobertura legal. “Lo único que nos impide ser tan buenos como ChatGPT es, literalmente, el volumen de datos”, dijo un ejecutivo en una reunión, según Los New York Times.
Se ha informado que laboratorios de vanguardia como OpenAI y Anthropic se han topado con un muro de datos, lo que significa que no tienen suficientes datos nuevos para entrenar sus grandes modelos de lenguaje. Muchos líderes lo han negado, el director ejecutivo de OpenAI, Sam Altman, dijo claramente: “No hay ningún muro”. El cofundador de OpenAI, Ilya Sutskever, que dejó la empresa en mayo pasado para iniciar un nuevo laboratorio de frontera, ha sido más directo sobre el potencial de un muro de datos. En una importante conferencia sobre IA el mes pasado, Sutskever dijo: “Hemos alcanzado el pico de datos y no habrá más. Tenemos que lidiar con los datos que tenemos. Sólo hay una Internet”.
Esta escasez de datos ha dado lugar a muchas formas nuevas y extrañas de obtener datos únicos. Bloomberg informó que laboratorios de vanguardia como OpenAI y Google han estado pagando a los creadores de contenido digital entre $ 1 y $ 4 por minuto por sus secuencias de video no utilizadas a través de un tercero para capacitar a los LLM (ambas compañías tienen productos de generación de video de IA de la competencia).
Dado que empresas como Meta y OpenAI esperan hacer crecer sus sistemas de inteligencia artificial lo más rápido posible, es probable que las cosas se pongan un poco complicadas. Aunque un juez desestimó parcialmente la demanda colectiva de Kadrey y Silverman el año pasado, las pruebas descritas aquí podrían fortalecer partes de su caso a medida que avanza en los tribunales.