Noticias
El futuro de la IA depende de las demandas de derechos de autor del NY Times y los autores
- Los abogados del New York Times están estudiando detenidamente el código fuente y el material de capacitación de ChatGPT.
- Los casos de derechos de autor de editores y autores están tratando de descubrir cómo se entrena la IA en el trabajo creativo.
- Las demandas podrían trazar un camino a seguir, tal como lo hizo el pantano legal de Napster hace dos décadas.
En algún lugar de los Estados Unidos, en una habitación segura, en una computadora desconectada de Internet, se encuentra el código fuente de ChatGPT.
Está ahí para que lo inspeccionen los abogados del New York Times.
Por orden de un juez federal, los abogados sólo podrán entrar a la sala si muestran una identificación emitida por el gobierno a un guardia de seguridad. Tienen prohibido traer sus propios teléfonos, unidades flash o cualquier otro dispositivo electrónico. Se les proporciona una computadora, también desconectada de Internet, con un programa de procesamiento de textos. Después de cada sesión, sus notas se pueden descargar a una computadora diferente y luego se puede borrar la computadora original para tomar notas.
Los abogados del Times pueden compartir sus notas con hasta cinco consultores externos para ayudarles a comprender qué hace el código. Si uno de los abogados quiere mostrarle al director ejecutivo de OpenAI, Sam Altman, un fragmento del código para hacerle preguntas al respecto para una declaración, esa copia será destruida posteriormente.
OpenAI vale 157 mil millones de dólares en gran parte debido al éxito de ChatGPT. Pero para construir el chatbot, la empresa entrenó a sus modelos en grandes cantidades de texto por el que no pagó ni un centavo.
Ese texto incluye historias de The New York Times, artículos de otras publicaciones y una cantidad incalculable de libros con derechos de autor.
El examen del código de ChatGPT, así como de los modelos de inteligencia artificial de Microsoft creados con la tecnología OpenAI, es crucial para las demandas por infracción de derechos de autor contra las dos empresas.
Editores y artistas han presentado alrededor de dos docenas de importantes demandas por derechos de autor contra empresas de IA generativa. Están sedientos de sangre y exigen una porción del pastel económico que convirtió a OpenAI en el actor dominante de la industria y que impulsó la valoración de Microsoft a más de 3 billones de dólares. Los jueces que deciden esos casos pueden establecer los parámetros legales sobre cómo se entrenan los grandes modelos lingüísticos en Estados Unidos.
“Los desarrolladores deberían pagar por el valioso contenido del editor que se utiliza para crear y operar sus productos”, dijo un portavoz del Times a BI. “El éxito futuro de esta tecnología no tiene por qué llegar a expensas de las instituciones periodísticas”.
Para la demanda, el Times empleó a un bufete de abogados de élite, Susman Godfrey, que recientemente ganó el gigantesco acuerdo de 787,5 millones de dólares de Dominion con Fox News. Otras demandas de redacciones, incluidas The New York Daily News y Mother Jones, se han aferrado al caso.
Susman Godfrey también representa a un grupo de autores, entre ellos George RR Martin, Jodi Picoult y Ta-Nehisi Coates, que presentaron reclamaciones de derechos de autor meses antes que el Times. Si un juez certifica su estatus de demanda colectiva, un eventual acuerdo o sentencia podría tener ramificaciones para prácticamente todos los autores y artistas cuyo trabajo se haya utilizado para entrenar modelos de IA.
El 12 de septiembre, docenas de abogados de empresas de tecnología y periodismo se reunieron en la sala de un tribunal de primera instancia en el bajo Manhattan para encontrar la mejor manera de dividir el proceso de descubrimiento, incluida la inspección del código de ChatGPT y los datos de capacitación. Junto con los abogados de los autores, todavía están decidiendo a quién pueden declarar y cómo programar las declaraciones.
“Es muy emocionante para los profesores de derecho que trabajan en derechos de autor”, dijo Kristelia García, profesora de derecho de propiedad intelectual en la Universidad de Georgetown.
Estableciendo las reglas
Mientras el Congreso pasa a un segundo plano en la regulación de la IA, la industria espera que los tribunales establezcan (o, esperan, no establezcan) las reglas.
Muchos editores, incluido el propietario de Business Insider, Axel Springer, han llegado a acuerdos con empresas de IA generativa para compartir su contenido para la formación LLM.
El alcance y los recursos de la demanda del Times lo convierten en un candidato probable para una Corte Suprema que siente precedente. Los abogados también están analizando demandas colectivas de autores, así como un caso de la industria musical contra Anthropic, como casos a seguir.
“El New York Times es un gigante periodístico”, dijo García. “Es grande, tiene mucho contenido. Quizás lo más importante es que tiene mucho poder de mercado detrás de ese contenido”.
La demanda argumenta que OpenAI infringió su propiedad intelectual de dos maneras.
Está el caso de las “entradas”, que alega que el LLM aspiró ilegalmente más de 10 millones de artículos del New York Times para entrenar a ChatGPT y Microsoft Copilot sin compensación. Y el caso del “resultado”: argumentar que cuando se le pregunta, ChatGPT puede escupir un artículo del New York Times por el que los lectores pagarían una suscripción.
En los documentos judiciales, los abogados han citado repetidamente a Napster, que copió ilegalmente millones de canciones y las puso a disposición de forma gratuita. OpenAI también utilizó artículos del New York Times de alta calidad, bien investigados, bien escritos y basados en hechos para hacer que ChatGPT fuera tan impresionante, argumenta el Times.
En todo caso, OpenAI es peor, según Justin Nelson, un abogado de Susman Godfrey que representa a los autores en una demanda colectiva paralela al caso del Times y en un caso similar contra Anthropic.
Napster fue un proyecto de universitarios; OpenAI está respaldado por Microsoft y ya vale miles de millones.
“En lugar de niños, era una empresa sofisticada”, dijo Nelson a BI. “Y en lugar de hacerlo para su uso personal, lo hacían para obtener ganancias comerciales.
Los representantes de OpenAI y Microsoft no respondieron a las solicitudes de comentarios de Business Insider. En el tribunal, argumentan que la doctrina legal del “uso justo” protege cómo sus modelos ingieren los artículos. Los resultados de ChatGPT con copias casi textuales de los artículos del Times fueron resultados “altamente anómalos” que no son representativos de cómo se usa la aplicación, dicen.
Napster fue demandado hasta dejar de existir, pero inspiró a la industria de la música a adoptar MP3 y, eventualmente, el streaming, que ahora se usa para todo, desde videojuegos hasta películas. El cofundador de Spotify, Daniel Ek, ha citado a Napster como inspiración, y el cofundador de Napster, Sean Parker, ha elogiado a Spotify como sucesor.
Las demandas por derechos de autor de organizaciones periodísticas pueden marcar el ritmo para todos los generadores de IA, predijo García, quien trabajó en la industria musical durante una década. La IA no es particularmente buena para generar películas o hacer reportajes, pero puede imitar de manera convincente el periodismo.
“El periodismo es una especie de canario en la mina de carbón”, dijo García. “De la misma manera que la música era el canario en los días de Napster, porque la gente podía descargar fácilmente un MP3. Pero en ese momento no se podía descargar fácilmente una película”.
Dada la gran cantidad de personas involucradas, las demandas de los autores podrían tener un efecto aún más dramático. Un acuerdo o sentencia podría cambiar los modelos de negocio.
“La gente se vuelve creativa en los acuerdos de demandas colectivas”, dijo Matthew Sag, profesor de derecho de la Universidad Emory que estudia derechos de autor e inteligencia artificial. “Se podría recortar a los autores de Estados Unidos un porcentaje de las acciones o algo así”.
El código fuente
La propia naturaleza de la tecnología de IA generativa está en el centro de las disputas sobre derechos de autor.
¿Qué sucede realmente cuando un modelo de lenguaje grande “aprende” un libro o artículo de noticias? ¿Qué pasa cuando ChatGPT explora el modelo para responder una consulta? ¿El proceso hace una “copia” en algún sentido significativo de la palabra? ¿O los datos de entrenamiento son solo parte de una gran mezcla de unos y ceros que ya no se parecen significativamente a trabajos específicos?
Los abogados y consultores que analizan minuciosamente el código de ChatGPT están tratando de responder esas preguntas. También están examinando los datos de capacitación del LLM y planean preguntar a ejecutivos y programadores clave de OpenAI, bajo juramento, cómo deben funcionar los modelos.
Una vez que se lea el código y se tomen las declaraciones, las partes estarán en una mejor posición para discutir sobre el “uso justo”, una doctrina legal notoriamente engañosa que protege el uso de creaciones “transformadoras” derivadas de material protegido por derechos de autor.
Si OpenAI realmente está haciendo copias de libros y artículos de noticias, al estilo Napster, ¿es su proceso de capacitación lo suficientemente transformador como para ser considerado “uso legítimo”? Los jueces de todo el país están “por todas partes” al decidir casos de derechos de autor de uso legítimo, según Christa Laser, profesora de derecho de propiedad intelectual en la Universidad Estatal de Cleveland, lo que plantea riesgos altos e impredecibles.
“Creo que esa será la gran pregunta al final del día que llegará hasta la Corte Suprema”, dijo Laser a BI. “Esa cuestión del uso legítimo en torno a los datos de entrenamiento, la ingesta y el entrenamiento”.
Una cuestión clave sobre el “uso legítimo” es si las creaciones de ChatGPT compiten con los trabajos periodísticos originales, un tema urgente para las organizaciones de noticias.
“Los editores de noticias son los primeros en presentar estos grandes pleitos porque tienen más en juego”, dijo García.
Para presentar un reclamo de derechos de autor, un demandante no puede simplemente señalar un corpus de trabajo utilizado como inspiración. Debe señalar un trabajo específico que, según dicen, ha sido copiado.
En su demanda, The New York Times adjuntó decenas de miles de páginas de pruebas que tabulaban 10.553.897 artículos. Dice que OpenAI y Microsoft violaron ilegalmente los derechos de autor de cada uno de ellos.
Entre esos artículos hay una historia de 2001, poco después de que un tribunal de apelaciones fallara contra Napster, donde un periodista preguntó a los usuarios qué harían. Todos coincidieron en que no había vuelta atrás.
“Si Napster cierra, habrá más sitios por ahí”, dijo un usuario al periodista. “Y puede que consigan algunos, pero no pueden detenerlos a todos”.