Noticias
Cómo la capacitación de ChatGPT violó la ley de derechos de autor
En una revelación reveladora que subraya las crecientes preocupaciones éticas en el desarrollo de la inteligencia artificial, el ex investigador de OpenAI Suchir Balaji ha presentado acusaciones preocupantes sobre las prácticas de recopilación de datos de la empresa. Su salida se suma al creciente éxodo de personal clave del gigante de la IA, lo que plantea dudas sobre la dirección y las prácticas de la empresa.
De acuerdo a Los New York TimesBalaji, que se unió a OpenAI en 2020 a los 25 años, pasó cuatro años como un miembro crucial del equipo de recopilación de datos de la empresa. Inicialmente atraído por el potencial de la IA para resolver los mayores desafíos de la humanidad, desde la prevención de enfermedades hasta la investigación de la longevidad, Balaji se encontró en el centro de lo que ahora describe como una operación de recolección de datos legal y éticamente cuestionable.
La crisis de derechos de autor de OpenAI
Durante su mandato, Balaji ayudó a orquestar los esfuerzos masivos de recopilación de datos de OpenAI, que ahora cree que violaban la ley de derechos de autor. Inicialmente no cuestionó si la empresa tenía derechos legales sobre los datos que estaba recopilando. El enfoque de la empresa fue notablemente amplio: cualquier contenido accesible en Internet se consideraba un juego limpio para entrenar sus modelos de lenguajes grandes (LLM). Esto incluía de todo, desde archivos de libros pirateados y contenido detrás de muros de pago hasta contenido generado por usuarios desde plataformas como Reddit y materiales protegidos por derechos de autor sin permiso explícito.
La suposición era simple: si los datos se publicaban en Internet y estaban disponibles gratuitamente, se consideraba aceptable su uso.
Para 2022, Balaji comenzó a cuestionar las implicaciones legales y éticas de los métodos de recopilación de datos de OpenAI. Concluyó que los métodos de recopilación de OpenAI violaban la ley de derechos de autor y que tecnologías como ChatGPT estaban causando daño a Internet en su conjunto. Esta comprensión llevó a su partida en agosto de 2024.
“Si crees lo que yo creo, simplemente tienes que dejar la empresa”, dijo Balaji. Los New York Times. Explicó que la tecnología que ayudó a crear está “destruyendo la viabilidad comercial de los individuos, las empresas y los servicios de Internet que crearon los datos digitales utilizados para entrenar los sistemas de IA”.
Wall Street está prestando atención. Los analistas de inversiones están empezando a tener en cuenta posibles responsabilidades legales relacionadas con la infracción de derechos de autor en sus valoraciones de las empresas de IA. Morgan Stanley estima que resolver los problemas de derechos de autor podría costarle a la industria de la IA miles de millones en derechos de licencia y acuerdos. Morgan Stanley ha sugerido que los costos de resolver disputas sobre derechos de autor, incluida la capacitación en IA sobre contenidos protegidos por derechos de autor, tarifas de licencia, posibles acuerdos legales y nuevos marcos necesarios para cumplir con las obligaciones de derechos de autor, podrían costar miles de millones a las empresas de IA.
Análisis Técnico y Legal
En un ensayo detallado publicado en su sitio web, Balaji analiza el complejo panorama legal que rodea los datos de entrenamiento de IA. Sostiene que las prácticas actuales quedan fuera de los límites del “uso justo”, una posición que desafía la defensa legal empleada por las principales empresas de IA como OpenAI y Anthropic.
La realidad técnica de la formación en IA presenta importantes desafíos legales. “Si bien los modelos generativos rara vez producen resultados que sean sustancialmente similares a cualquiera de sus entradas de entrenamiento, el proceso de entrenamiento de un modelo generativo implica hacer copias de datos protegidos por derechos de autor”, escribe Balaji. Enfatiza que “debido a que el ‘uso legítimo’ se determina caso por caso, no se puede hacer una declaración amplia sobre cuándo la IA generativa califica para uso legítimo”.
Los conocedores de la industria sugieren que las revelaciones de Balaji apenas tocan la superficie de una práctica industrial más amplia. Varios ex empleados de otras importantes empresas de inteligencia artificial, que hablaron bajo condición de anonimato, confirmaron que prácticas similares de recopilación de datos están muy extendidas. Esto plantea dudas sobre si toda la base del desarrollo moderno de la IA se basa en un terreno jurídicamente cuestionable.
Según Balaji, los efectos de la IA en el ecosistema colaborativo de Internet ya son visibles. Stack Overflow ha experimentado importantes caídas en el tráfico a medida que los usuarios pasan cada vez más por alto los recursos seleccionados por humanos en favor de las respuestas de IA. Este cambio amenaza la sostenibilidad de las plataformas que originalmente proporcionaron los datos de entrenamiento para estos sistemas de IA, creando una relación parasitaria que, en última instancia, podría dañar tanto a los creadores de contenido como a los sistemas de IA que dependen de ellos. La ironía no pasa desapercibida para los creadores: su trabajo se está utilizando para entrenar sistemas de inteligencia artificial que, en última instancia, pueden sacarlos del negocio.
La industria en una encrucijada
OpenAI ha tomado algunas medidas para abordar estas preocupaciones a través de acuerdos de licencia con varias organizaciones de noticias. Sin embargo, la empresa sigue enfrentándose a desafíos legales por parte de los autores por el uso no autorizado de sus obras. Estas disputas en curso resaltan el debate más amplio sobre la compensación justa para los creadores de contenido y la sostenibilidad de las prácticas actuales de capacitación en IA.
Balaji aboga por una regulación más estricta del desarrollo de la IA, argumentando que la autorregulación de la industria es insuficiente para abordar estos desafíos. Su posición refleja la creciente preocupación entre los investigadores y especialistas en ética de la IA sobre la necesidad de marcos legales claros que regulen la recopilación y el uso de datos de entrenamiento de IA.
La única solución podría ser una revisión completa de la forma en que las empresas de inteligencia artificial recopilan y compensan los datos de entrenamiento. Como sostiene Balaji, el modelo actual no sólo es jurídicamente cuestionable sino, en última instancia, contraproducente. Al destruir los incentivos económicos para la creación de contenidos, las empresas de IA corren el riesgo de envenenar el pozo del que extraen sus datos de formación.
El desarrollo sostenible de la IA requiere un nuevo contrato social entre las empresas de tecnología y los creadores de contenidos y sólo puede funcionar con un sistema en el que los creadores de contenidos reciban una compensación justa por sus contribuciones al desarrollo de la IA. Están surgiendo varios modelos alternativos y algunas empresas están explorando sistemas de recopilación de datos opcionales con compensación directa para los creadores. Otros están desarrollando métodos de entrenamiento de IA que requieren menos datos pero ofrecen más transparencia sobre sus fuentes.
Las revelaciones sobre la partida de Balaji subrayan la urgente necesidad de directrices legales claras en la recopilación de datos de entrenamiento de IA. La industria debe desarrollar mecanismos de compensación justos para los creadores de contenido y establecer modelos sostenibles para el desarrollo de la IA que preserven los ecosistemas de Internet. Mientras continúan los debates sobre cómo lograr el equilibrio adecuado entre el avance tecnológico y los derechos de los creadores de contenido, las ideas de Balaji brindan una perspectiva crucial sobre los desafíos que enfrentan tanto los desarrolladores de IA como los creadores de contenido en la era digital.
La salida de Balaji de OpenAI marca algo más que otro escándalo de la industria tecnológica. Representa un momento de ajuste de cuentas para una industria que ha operado bajo la filosofía de “moverse rápido y romper cosas”. La pregunta ahora es si las empresas de IA pueden adaptar sus prácticas antes de que los reguladores y las demandas los obliguen. El camino actual es insostenible, ya que necesitamos reconstruir el desarrollo de la IA sobre la base del respeto a los derechos de propiedad intelectual y una compensación justa para los creadores. La alternativa es un futuro en el que los sistemas de IA canibalicen la creatividad de la que dependen.
Este conflicto entre innovación y protección de derechos no muestra signos de resolución sin cambios significativos en la forma en que las empresas de IA abordan la recopilación y el uso de datos. A medida que surgen más voces como la de Balaji dentro de la industria, la presión por reformas y regulaciones continúa aumentando, lo que podría remodelar el futuro del desarrollo de la IA.