Noticias
Hiltzik: Cómo la IA empeora aún más el caos en la legislación sobre derechos de autor
El juicio rápido entre los expertos legales fue que la desestimación por parte de un juez federal el 7 de noviembre de una demanda por infracción de derechos de autor contra OpenAI, el líder en chatbots avanzados, cortocircuitará un esfuerzo cada vez mayor de artistas y escritores para evitar que las empresas de inteligencia artificial roben sus contenido.
No hay duda de que el fallo dictado el jueves por la jueza Colleen McMahon en Nueva York aterrizó con un ruido sordo entre los abogados que intentaban presentar este tipo de casos.
McMahon fue más allá de simplemente desestimar la demanda interpuesta contra OpenAI por Raw Story Media, el propietario de sitios web de noticias progresistas. Socavó el argumento básico que los creadores de contenido han esgrimido contra las empresas de IA: que el proceso de alimentar a sus modelos de IA con datos “extraídos” indiscriminadamente de Internet implica inevitablemente el uso de contenido protegido por derechos de autor sin permiso.
No le doy mucha importancia a nadie que te diga cómo van a terminar estos casos.
— Experto en derechos de autor Aaron Moss
El fallo de McMahon, basado en una decisión de la Corte Suprema en un caso no relacionado, “podría dejar los reclamos de derechos de autor de IA en terreno inestable”, escribió el abogado de propiedad intelectual de Los Ángeles, Aaron Moss, en su sitio web. El juez no sólo desestimó el caso de Raw Story; Ella dio a entender que ningún titular de derechos de autor podría demostrar suficiente daño por el raspado de IA como para ganar un caso de infracción.
Esto se debe a que la cantidad de contenido que se envía a los robots de IA, como ChatGPT de OpenAI, para “entrenarlos” es tan inmensa que es casi imposible identificar algún contenido en particular que haya sido infringido cuando el robot escupe una respuesta a la consulta de un usuario.
Hoja informativa
Obtenga lo último de Michael Hiltzik
Comentario sobre economía y más de un ganador del Premio Pulitzer.
Es posible que ocasionalmente recibas contenido promocional de Los Angeles Times.
“Dada la cantidad de información”, afirmó McMahon, “la probabilidad de que ChatGPT genere contenido plagiado de uno de [Raw Story’s] Los artículos parecen remotos”.
El fallo de McMahon también puede socavar lo que ha sido una tendencia creciente hacia la concesión de licencias de contenido protegido por derechos de autor a los desarrolladores de inteligencia artificial, en parte para prevenir demandas por infracción de derechos de autor. Dow Jones, la matriz del Wall Street Journal, llegó a un acuerdo de licencia con OpenAI en mayo que podría valer más de 250 millones de dólares en cinco años. Esto siguió a acuerdos de licencia multimillonarios que OpenAI alcanzó con Axel Springer, el propietario de Business Insider y Politico; el Tiempos financieros; y Prensa Asociada.
“Este tribunal está permitiendo que este próspero y lucrativo mercado de contenido con licencia para capacitación en inteligencia artificial le sea quitado a Raw Story Media”, me dijo Peter Csathy, presidente de Creative Media, una firma de consultoría y marketing de medios y entretenimiento de Los Ángeles.
Eso pudo haber sucedido porque Raw Story no le dio mucha importancia al potencial de ese mercado en su demanda. En su denuncia mencionó los acuerdos de licencia que OpenAI alcanzó con Associated Press y Axel Springer, pero solo señaló que la empresa de inteligencia artificial “no ha ofrecido compensación” a Raw Story.
Por todo eso, el significado total de la decisión de McMahon no está nada claro. Esto se debe a que el caso reúne dos regímenes legales confusos: la ley de derechos de autor, conocida por su locura y confusión; y la ley de IA, que pueden tardar años en lograr coherencia.
Al menos 12 demandas contra desarrolladores de IA alegando violaciones de derechos de autor se están abriendo camino en los tribunales federales, entre los demandantes se encuentran los editores de Mother Jones, el Wall Street Journal y el New York Times; la industria discográfica; y los escritores Michael Chabon y Sarah Silverman.
Los fallos de los tribunales intermedios en estos casos se contradicen entre sí y plantean cuestiones que no se habían visto antes ni siquiera en la legislación sobre propiedad intelectual de alta tecnología.
Los jueces han tenido dificultades incluso para definir cómo se aplican los principios de infracción de derechos de autor a la tecnología que no produce copias exactas de obras protegidas por derechos de autor, sino que las “imita”, de manera similar a cómo la máquina de bebidas en la “Guía del autoestopista galáctico” de Douglas Adams entregaba “una taza de líquido que era casi, pero no del todo, diferente al té”.
Todos esos casos se encuentran todavía en sus primeras etapas. “No le doy mucha confianza a nadie que te diga cómo van a terminar estos casos”, dice Moss.
Antes de adentrarnos en el pantano legal que estas demandas intentan atravesar, echemos un vistazo rápido a cómo se desarrolla la tecnología y por qué los derechos de autor se han convertido en un problema.
Los modelos que actualmente están a la vanguardia de la investigación y el desarrollo de la inteligencia artificial no piensan por sí mismos. Son depósitos de miles de millones de artículos, líneas de software y música o arte creados por humanos. Cuando se les hace una pregunta, revisan su base de datos e intentan sintetizar a partir de ella la respuesta más probable. A menudo lo hacen bien; muchas veces se equivocan.
A veces están lo suficientemente confundidos como para generar errores obvios, como descubrieron los investigadores de Apple cuando pidieron a los modelos que resolvieran problemas matemáticos escritos en inglés sencillo. A veces demuestran que no saben lo que no saben y llenan los espacios en blanco de su conocimiento con fabricaciones o, como las llaman los desarrolladores de IA, “alucinaciones”.
Como observó McMahon, el gran volumen de materiales de los que extraen los robots y el proceso de síntesis hacen que sea poco probable que una respuesta replique exactamente un contenido específico.
Esto ha sido un obstáculo para algunos de los demandantes en los casos de derechos de autor. La mayoría de quienes afirman que su contenido escrito ha sido infringido afirman principalmente que las bases de datos que se sabe que han sido alimentadas a algunos modelos de IA incluyen sus libros u otros escritos. (Al menos uno de los repositorios de contenido utilizados por algunos desarrolladores de IA incluye tres de mis propios libros, pero no soy parte de ninguna de las demandas).
En su demanda, el New York Times cita texto producido por ChatGPT-4 de OpenAI que reproduce partes de sus artículos palabra por palabra, sin crédito ni permiso. (Microsoft, citado como demandado como inversor en OpenAI y usuario de su tecnología, respondió que el New York Times había “convencido” efectivamente al chatbot para que reprodujera sus textos formulando ingeniosamente sus consultas para obtener respuestas infractoras).
Eso nos lleva de regreso a la demanda de Raw Story Media. La compañía, que opera los sitios de noticias Raw Story y AlterNet, no presentó su reclamo como una denuncia por infracción de derechos de autor. En cambio, afirmó que OpenAI había eliminado deliberadamente las etiquetas de autor, título y derechos de autor (conocidas colectivamente como información de gestión de derechos de autor o CMI) de los artículos que importaba para entrenar a sus robots.
Raw Story argumentó que este proceso facilitó futuras infracciones al dejar a los usuarios sin saber que estaban recibiendo, y posiblemente distribuyendo, material protegido por derechos de autor sin permiso.
Eliminar deliberadamente CMI con la intención de fomentar violaciones de derechos de autor es una violación directa de la Ley de Derechos de Autor del Milenio Digital de 1998, que rige los derechos de propiedad intelectual de los productores de contenido digital. Raw Story solicitó una indemnización por la violación de la ley por parte de OpenAI y una orden judicial que exigía a la empresa de IA eliminar de su base de datos todo el contenido de Raw Story del que se había eliminado el CMI.
Ahí es donde Raw Story se topó con un obstáculo levantado por la Corte Suprema. En una decisión de 5 a 4 que involucró a la agencia de crédito TransUnion en 2021, el tribunal declaró que no es suficiente que un demandante presente una demanda por la violación de un estatuto federal por parte del demandado. Para tener legitimación activa para presentar un caso federal, dictaminó el tribunal, un demandante debe demostrar que ha sufrido un “daño concreto” derivado de la violación.
Raw Story no pudo demostrar eso porque no pudo presentar evidencia de que alguno de sus contenidos hubiera sido copiado en las respuestas a las consultas de los usuarios y, por lo tanto, que hubiera sufrido un “daño concreto”. Como resultado, McMahon desestimó la demanda alegando que Raw Story no tenía legitimación activa para presentarla.
De hecho, McMahon parecía molesto ante la idea de que Raw Story estuviera tratando de hacer algo rápido. “Seamos claros sobre lo que realmente está en juego aquí”, escribió. La supuesta lesión por la que Raw Story buscaba alivio, escribió, “no es la exclusión de CMI” de la base de datos de OpenAI, sino la “usar de los artículos de los Demandantes para desarrollar Chat GPT sin compensación para los Demandantes”.
McMahon le dio a Raw Story la oportunidad de volver a presentar su demanda para demostrar que fue perjudicada por los actos de OpenAI. No parecía optimista y se autodenominaba “escéptica” de que la empresa pueda alegar una “lesión reconocible”.
Pero Csathy sostiene que McMahon pasó por alto la posibilidad de que su fallo pudiera socavar el mercado de licencias: si los desarrolladores de IA pueden eliminar CMI de los datos de entrenamiento con impunidad, es posible que no sientan ninguna necesidad de licenciar material protegido por derechos de autor en el futuro. “Hay mucho dinero allí”, dice.
Raw Story bien puede citar la pérdida de ingresos por licencias como una “lesión reconocible” siempre que presente una queja enmendada. Sería una nueva arruga en un campo que en este momento prácticamente no es más que arrugas.