Connect with us

Noticias

El futuro de la IA depende de las demandas de derechos de autor del NY Times y los autores

Published

on

  • Los abogados del New York Times están estudiando detenidamente el código fuente y el material de capacitación de ChatGPT.
  • Los casos de derechos de autor de editores y autores están tratando de descubrir cómo se entrena la IA en el trabajo creativo.
  • Las demandas podrían trazar un camino a seguir, tal como lo hizo el pantano legal de Napster hace dos décadas.

En algún lugar de los Estados Unidos, en una habitación segura, en una computadora desconectada de Internet, se encuentra el código fuente de ChatGPT.

Está ahí para que lo inspeccionen los abogados del New York Times.

Por orden de un juez federal, los abogados sólo podrán entrar a la sala si muestran una identificación emitida por el gobierno a un guardia de seguridad. Tienen prohibido traer sus propios teléfonos, unidades flash o cualquier otro dispositivo electrónico. Se les proporciona una computadora, también desconectada de Internet, con un programa de procesamiento de textos. Después de cada sesión, sus notas se pueden descargar a una computadora diferente y luego se puede borrar la computadora original para tomar notas.

Los abogados del Times pueden compartir sus notas con hasta cinco consultores externos para ayudarles a comprender qué hace el código. Si uno de los abogados quiere mostrarle al director ejecutivo de OpenAI, Sam Altman, un fragmento del código para hacerle preguntas al respecto para una declaración, esa copia será destruida posteriormente.

OpenAI vale 157 mil millones de dólares en gran parte debido al éxito de ChatGPT. Pero para construir el chatbot, la empresa entrenó a sus modelos en grandes cantidades de texto por el que no pagó ni un centavo.

Ese texto incluye historias de The New York Times, artículos de otras publicaciones y una cantidad incalculable de libros con derechos de autor.

El examen del código de ChatGPT, así como de los modelos de inteligencia artificial de Microsoft creados con la tecnología OpenAI, es crucial para las demandas por infracción de derechos de autor contra las dos empresas.

Editores y artistas han presentado alrededor de dos docenas de importantes demandas por derechos de autor contra empresas de IA generativa. Están sedientos de sangre y exigen una porción del pastel económico que convirtió a OpenAI en el actor dominante de la industria y que impulsó la valoración de Microsoft a más de 3 billones de dólares. Los jueces que deciden esos casos pueden establecer los parámetros legales sobre cómo se entrenan los grandes modelos lingüísticos en Estados Unidos.

“Los desarrolladores deberían pagar por el valioso contenido del editor que se utiliza para crear y operar sus productos”, dijo un portavoz del Times a BI. “El éxito futuro de esta tecnología no tiene por qué llegar a expensas de las instituciones periodísticas”.

Para la demanda, el Times empleó a un bufete de abogados de élite, Susman Godfrey, que recientemente ganó el gigantesco acuerdo de 787,5 millones de dólares de Dominion con Fox News. Otras demandas de redacciones, incluidas The New York Daily News y Mother Jones, se han aferrado al caso.

Susman Godfrey también representa a un grupo de autores, entre ellos George RR Martin, Jodi Picoult y Ta-Nehisi Coates, que presentaron reclamaciones de derechos de autor meses antes que el Times. Si un juez certifica su estatus de demanda colectiva, un eventual acuerdo o sentencia podría tener ramificaciones para prácticamente todos los autores y artistas cuyo trabajo se haya utilizado para entrenar modelos de IA.

El 12 de septiembre, docenas de abogados de empresas de tecnología y periodismo se reunieron en la sala de un tribunal de primera instancia en el bajo Manhattan para encontrar la mejor manera de dividir el proceso de descubrimiento, incluida la inspección del código de ChatGPT y los datos de capacitación. Junto con los abogados de los autores, todavía están decidiendo a quién pueden declarar y cómo programar las declaraciones.

“Es muy emocionante para los profesores de derecho que trabajan en derechos de autor”, dijo Kristelia García, profesora de derecho de propiedad intelectual en la Universidad de Georgetown.

Estableciendo las reglas

Mientras el Congreso pasa a un segundo plano en la regulación de la IA, la industria espera que los tribunales establezcan (o, esperan, no establezcan) las reglas.

Muchos editores, incluido el propietario de Business Insider, Axel Springer, han llegado a acuerdos con empresas de IA generativa para compartir su contenido para la formación LLM.

El alcance y los recursos de la demanda del Times lo convierten en un candidato probable para una Corte Suprema que siente precedente. Los abogados también están analizando demandas colectivas de autores, así como un caso de la industria musical contra Anthropic, como casos a seguir.

“El New York Times es un gigante periodístico”, dijo García. “Es grande, tiene mucho contenido. Quizás lo más importante es que tiene mucho poder de mercado detrás de ese contenido”.

La demanda argumenta que OpenAI infringió su propiedad intelectual de dos maneras.

Está el caso de las “entradas”, que alega que el LLM aspiró ilegalmente más de 10 millones de artículos del New York Times para entrenar a ChatGPT y Microsoft Copilot sin compensación. Y el caso del “resultado”: argumentar que cuando se le pregunta, ChatGPT puede escupir un artículo del New York Times por el que los lectores pagarían una suscripción.

En los documentos judiciales, los abogados han citado repetidamente a Napster, que copió ilegalmente millones de canciones y las puso a disposición de forma gratuita. OpenAI también utilizó artículos del New York Times de alta calidad, bien investigados, bien escritos y basados ​​en hechos para hacer que ChatGPT fuera tan impresionante, argumenta el Times.

En todo caso, OpenAI es peor, según Justin Nelson, un abogado de Susman Godfrey que representa a los autores en una demanda colectiva paralela al caso del Times y en un caso similar contra Anthropic.

Napster fue un proyecto de universitarios; OpenAI está respaldado por Microsoft y ya vale miles de millones.

“En lugar de niños, era una empresa sofisticada”, dijo Nelson a BI. “Y en lugar de hacerlo para su uso personal, lo hacían para obtener ganancias comerciales.

Los representantes de OpenAI y Microsoft no respondieron a las solicitudes de comentarios de Business Insider. En el tribunal, argumentan que la doctrina legal del “uso justo” protege cómo sus modelos ingieren los artículos. Los resultados de ChatGPT con copias casi textuales de los artículos del Times fueron resultados “altamente anómalos” que no son representativos de cómo se usa la aplicación, dicen.

Napster fue demandado hasta dejar de existir, pero inspiró a la industria de la música a adoptar MP3 y, eventualmente, el streaming, que ahora se usa para todo, desde videojuegos hasta películas. El cofundador de Spotify, Daniel Ek, ha citado a Napster como inspiración, y el cofundador de Napster, Sean Parker, ha elogiado a Spotify como sucesor.

Las demandas por derechos de autor de organizaciones periodísticas pueden marcar el ritmo para todos los generadores de IA, predijo García, quien trabajó en la industria musical durante una década. La IA no es particularmente buena para generar películas o hacer reportajes, pero puede imitar de manera convincente el periodismo.

“El periodismo es una especie de canario en la mina de carbón”, dijo García. “De la misma manera que la música era el canario en los días de Napster, porque la gente podía descargar fácilmente un MP3. Pero en ese momento no se podía descargar fácilmente una película”.

Dada la gran cantidad de personas involucradas, las demandas de los autores podrían tener un efecto aún más dramático. Un acuerdo o sentencia podría cambiar los modelos de negocio.

“La gente se vuelve creativa en los acuerdos de demandas colectivas”, dijo Matthew Sag, profesor de derecho de la Universidad Emory que estudia derechos de autor e inteligencia artificial. “Se podría recortar a los autores de Estados Unidos un porcentaje de las acciones o algo así”.

El código fuente

La propia naturaleza de la tecnología de IA generativa está en el centro de las disputas sobre derechos de autor.

¿Qué sucede realmente cuando un modelo de lenguaje grande “aprende” un libro o artículo de noticias? ¿Qué pasa cuando ChatGPT explora el modelo para responder una consulta? ¿El proceso hace una “copia” en algún sentido significativo de la palabra? ¿O los datos de entrenamiento son solo parte de una gran mezcla de unos y ceros que ya no se parecen significativamente a trabajos específicos?

Los abogados y consultores que analizan minuciosamente el código de ChatGPT están tratando de responder esas preguntas. También están examinando los datos de capacitación del LLM y planean preguntar a ejecutivos y programadores clave de OpenAI, bajo juramento, cómo deben funcionar los modelos.

Una vez que se lea el código y se tomen las declaraciones, las partes estarán en una mejor posición para discutir sobre el “uso justo”, una doctrina legal notoriamente engañosa que protege el uso de creaciones “transformadoras” derivadas de material protegido por derechos de autor.

Si OpenAI realmente está haciendo copias de libros y artículos de noticias, al estilo Napster, ¿es su proceso de capacitación lo suficientemente transformador como para ser considerado “uso legítimo”? Los jueces de todo el país están “por todas partes” al decidir casos de derechos de autor de uso legítimo, según Christa Laser, profesora de derecho de propiedad intelectual en la Universidad Estatal de Cleveland, lo que plantea riesgos altos e impredecibles.

“Creo que esa será la gran pregunta al final del día que llegará hasta la Corte Suprema”, dijo Laser a BI. “Esa cuestión del uso legítimo en torno a los datos de entrenamiento, la ingesta y el entrenamiento”.

Una cuestión clave sobre el “uso legítimo” es si las creaciones de ChatGPT compiten con los trabajos periodísticos originales, un tema urgente para las organizaciones de noticias.

“Los editores de noticias son los primeros en presentar estos grandes pleitos porque tienen más en juego”, dijo García.

Para presentar un reclamo de derechos de autor, un demandante no puede simplemente señalar un corpus de trabajo utilizado como inspiración. Debe señalar un trabajo específico que, según dicen, ha sido copiado.

En su demanda, The New York Times adjuntó decenas de miles de páginas de pruebas que tabulaban 10.553.897 artículos. Dice que OpenAI y Microsoft violaron ilegalmente los derechos de autor de cada uno de ellos.

Entre esos artículos hay una historia de 2001, poco después de que un tribunal de apelaciones fallara contra Napster, donde un periodista preguntó a los usuarios qué harían. Todos coincidieron en que no había vuelta atrás.

“Si Napster cierra, habrá más sitios por ahí”, dijo un usuario al periodista. “Y puede que consigan algunos, pero no pueden detenerlos a todos”.

Continue Reading

Noticias

Hollywood a Trump: No dejes que Operai y Google entrenen en nuestro trabajo con derechos de autor

Published

on

La lucha entre los creadores y los titanes tecnológicos de IA por la ley de derechos de autor y la licencia se está calentando. En una carta presentada a la Oficina de Política de Ciencia y Tecnología de la Administración Trump el 15 de marzo, más de 400 actores, escritores y directores pidieron al gobierno que defendiera la ley actual de derechos de autor.

Los firmantes incluyen a Paul McCartney, Guillermo del Toro, Ava Duvernay, Cynthia Erivo, Phoebe Waller-Bridge, Ayo Edebiri, Chris Rock y Mark Ruffalo. La carta solicita específicamente al gobierno que no otorgue excepciones de uso justo a las compañías tecnológicas que capacitan la IA.

El uso justo es un concepto fundamental en la ley de derechos de autor que brinda a las personas una excepción para usar contenido protegido, incluso si no son el titular de los derechos de autor, en casos limitados y específicos. Anteriormente, las compañías de IA, hambrientas por el contenido generado por los humanos para capacitar y mejorar sus modelos de IA, han necesitado pagar a los editores y catálogos de contenido por el acceso a ese material. Una excepción de uso justo facilitaría que las compañías tecnológicas accedan a contenido sin obstáculos legales.

Google y Openai propusieron cambios similares a la ley actual de derechos de autor en sus propuestas para el plan de acción de IA de la administración. Google escribió que tales excepciones le permiten “evitar negociaciones a menudo altamente impredecibles, desequilibradas y largas con los titulares de datos durante el desarrollo del modelo”. Operai escribió que las protecciones de uso justo para la IA son necesarias para proteger la seguridad nacional estadounidense.

Parte del reciente impulso gubernamental alrededor de la IA es una preocupación por la pérdida de la posición global y una ventaja tecnológica sobre el desarrollo de IA a adversarios como China. La IA china, como el rival de chatgpt Deepseek, continúa procesando, pero las preocupaciones abundan sobre su seguridad y falta de barandillas.

En otras palabras, compañías tecnológicas como Google y OpenAI, cada una valorada por la capitalización de mercado en los cientos de miles de millones y billones de dólares, no quieren pasar por el proceso legal establecido y pagar los derechos del contenido que necesitan para que su AIS sea competitivo con los desarrollados por China. Y quieren que la administración Trump codifique las protecciones para ellos como parte de su plan de acción de IA.

Los firmantes de Hollywood se oponen firmemente a la posibilidad de tal reescritura de la ley de derechos de autor. “Estados Unidos no se convirtió en una potencia cultural global por accidente”, dice la carta. “Nuestro éxito se deriva directamente de nuestro respeto fundamental por la IP y los derechos de autor que recompensa la toma de riesgos creativos por estadounidenses talentosos y trabajadores de todos los estados y territorio”.

La Oficina de Derechos de Autor de EE. UU. Ha estado desarrollando orientación sobre cómo manejar los reclamos de derechos de autor por contenido generado por IA. Pero la gente ha estado preocupada durante años, e incluso demandó, cómo los modelos de IA están entrenados de una manera que potencialmente viola los derechos de los titulares de derechos de autor. El doble huelga en el verano de 2023 por miembros del Guild de Escritores de América y el Gremio de Actores de Screen y la Federación Americana de Artistas de Televisión y Radio, o Sag-Aftra, incluyó a la IA como una de sus principales preocupaciones. Ni Openai ni Google han compartido exactamente qué contenido constituye sus bases de datos de capacitación para ChatGPT y Gemini.

La ecuación de derechos de autor se vuelve aún más complicada, ya que sabemos al menos una compañía que recibió un reclamo de derechos de autor para una imagen cuya IA genera cada parte. Deja espacio para la incertidumbre en cada lado del desastre que es los derechos de autor y la IA.

La administración Trump y la IA

Hasta este punto, no ha habido un progreso mucho significativo en la supervisión del gobierno o la legislación que regula cómo los gigantes tecnológicos como OpenAI y Google desarrollan IA. El ex presidente Biden consiguió que muchas de las principales compañías tecnológicas se comprometieran voluntariamente a desarrollar AI de manera responsable e intentó promulgar algunas barandillas en torno al desarrollo de la IA a través de la orden ejecutiva. Pero a las pocas horas de ser inaugurado, Trump retrocedió la orden ejecutiva de AI de Biden con una de las suyas.

En su propia orden ejecutiva sobre IA, Trump dijo que quiere “mantener y mejorar el dominio global de IA de Estados Unidos”. El Plan de Acción de AI es cómo planea promulgar su versión de la política tecnológica. El vicepresidente Vance presentó el plan, y más ampliamente la opinión de la administración sobre la tecnología, en una cumbre internacional sobre IA en enero.

Vance dijo: “Cuando conferencias como esta se convierten en discutir una tecnología de vanguardia, a menudo, creo que nuestra respuesta es ser demasiado consciente de sí misma, demasiado requerida por el riesgo. Pero nunca he encontrado un gran avance en la tecnología que claramente nos llama a hacer precisamente lo contrario”.

Además del llamado a los comentarios, una orden ejecutiva de enero del presidente Trump pidió que American AI estuviera “libre de sesgos ideológicos o agendas sociales diseñadas”.

Al mismo tiempo, los líderes tecnológicos como Sundar Pichai de Google y Sam Altman de Openai se han acercado a la nueva administración. Altman donó un millón de dólares de su propio dinero al Fondo de inauguración de Trump, y Google como compañía donó lo mismo. Altman y Pichai obtuvieron asientos de primera fila para la ceremonia de juramentación, junto con Mark Zuckerberg de Meta, Elon Musk de X y Jeff Bezos de Amazon. Es probable que los ejecutivos esperen que llegar al lado bueno de Trump los ayude a allanar el camino para el futuro de su empresa tecnológica, incluso si, en este caso, molestaría décadas de ley establecida de derechos de autor.

Muchos grupos de personas, no solo creadores, están preocupados de que el desarrollo y el uso no regulado de la IA puedan ser desastrosos.

¿Qué viene después para los derechos de autor y la IA?

Se espera que la Oficina de Derechos de Autor de los Estados Unidos publique un informe más sobre AI, específicamente sobre “implicaciones legales de capacitar a los modelos de IA en trabajos con derechos de autor, consideraciones de licencia y la asignación de cualquier posible responsabilidad”.

Mientras tanto, una serie de demandas activas podrían establecer precedentes importantes para la rama judicial. Thomson Reuters acaba de ganar su caso que dijo que una compañía de IA no tenía un caso de uso justo para usar su contenido para construir IA. La legislación como la Ley No Fakes también se está abriendo camino a través del Congreso, pero no está claro qué tipo de legislación futura de IA tendrá.

Para obtener más información, consulte cómo AI y Art Clash en SXSW y por qué la promesa anti-AI de una compañía resuena con los creadores.

Continue Reading

Noticias

Introducción a la API de SDK y respuestas de los agentes de Operai

Published

on

Como Openai introdujo lo que todos los demás llaman a los agentes SDK, admitió que usar las capacidades existentes de manera unida “puede ser un desafío, a menudo requerir una amplia iteración rápida y una lógica de orquestación personalizada sin suficiente visibilidad o soporte incorporado”. En resumen, el uso de agentes necesitaba bastante programación, y esa no es la historia que cualquier proveedor de IA quiere vender.

Para devolver la narración a la idea de que gastar dinero en IA eventualmente erradicará la necesidad de un costoso desarrollo de software humano, o de hecho humanos, Openai está implementando una estructura para permitir una orquestación simple.

Primero resumamos cuáles son los problemas. Las tareas de agente implican al menos dos procesos que funcionan individualmente, con una tarea que comienza otra y con los resultados que se informan a un proceso de informes finales al final, con suerte en momentos similares. Los “resultados” también deben estar en un formato conocido (por ejemplo, una oración, un archivo, una imagen, una base de datos), pero esto no es fácil de generalizar. Incluso el camino feliz es un buen equilibrio: lidiar y explicar errores es otro problema. Todos estos son problemas de orquestación familiares. Pero como industria, nadie cree que la orquestación es un problema “resuelto”. Heavy LLM Uso también agrega la necesidad de controlar el uso del token; Las fichas son el nuevo oro negro.

Para comenzar el viaje de orquestación, OpenAI ha agregado algunas API nuevas a su plataforma central. En particular, ha introducido un básico Respuestas API Eso limpia algunos de los supuestos hechos por los agentes de chat.

En el sentido más simple, esto puede capturar la salida:

Puede analizar imágenes en este nivel; y agregue una de las herramientas a continuación. Cuidado: es probable que los nuevos modelos dejen de admitir la API de finalización de chat existente: muchas características nuevas solo admiten la API de nuevas respuestas.

Veamos estas nuevas herramientas. Búsqueda web Permite que un agente rastree la web para tareas simples. El breve script de Python a continuación muestra cómo se le da a un modelo la opción de usar esta herramienta:

El reesponse También contendrá referencias a cualquier artículo citado. Estas consultas se pueden definir por tiempo o ubicación. También puede sopesar el costo, la calidad y la latencia.

Búsqueda de archivos es efectivamente una tienda vectorial alojada. Usted indica que la búsqueda de archivos es una herramienta disponible e identifica su tienda vectorial:

Si es necesario, un agente lo usará. La respuesta citará los documentos utilizados en la respuesta. Puede limitar las respuestas a controlar el uso y la latencia del token. Hay límites para el tamaño total del archivo, los archivos buscados y el tamaño de la tienda Vector. Los tipos de documentos que se pueden buscar (por tipo de archivo) parecen extensos.

El Uso de la computadora La herramienta es interesante:

“La herramienta de uso de la computadora funciona en un bucle continuo. Envía acciones de la computadora, como click(x,y) o type(text)que su código se ejecuta en un entorno de computadora o navegador y luego devuelve capturas de pantalla de los resultados al modelo “.

Parece que está fingiendo ser selenio, la herramienta que usamos para probar las interfaces web a través de scripts. Obviamente, esto reconoce que todavía no estamos en el AIS solo hablando con otro mundo de AIS todavía. Pero al menos es un guiño a la idea de que no todo es un sitio web.

Probar agentes

Usaré los ejemplos de Python (definitivamente es un producto de Python-First, pero los documentos también muestran el script equivalente de JavaScript). Hemos ejecutado Python varias veces en mis publicaciones, pero en mi nuevo MacBook, solo verificaré que tenga Python instalado:

El resultado fue que python@3.13 3.13.2 ya está instalado y actualizado.

Mi pip también está allí (como PIP3).

Así que ahora puedo instalar los paquetes Operai:

Ah, recuerdo esto. Necesitamos un virtual:

Luego activo el virtual:

Y estamos listos para proceder.

Ahora, por supuesto, deberá usar y establecer un OpenAI_API_KEY. Me creé una nueva clave en la página de mi cuenta y establecí el opanai_api_key (no te preocupes, es mucho más largo que esto):

Y tienes que asegurarte de tener un poco de oro negro, me refiero a las fichas. He presentado algunas de las formas de evitar pagar OpenAi usando modelos locales, pero para esta publicación asumiré que está pagando por los tokens.

Como es tradicional, comencemos con una verificación de que los conceptos básicos anteriores están en su lugar a través de una simple solicitud con lo siguiente Haiku.py:

Y obtenemos una buena respuesta:

(Un buen haiku tradicional debería mencionar las temporadas que pasan, pero no es por eso que estamos aquí). Por lo general, también verificaría mi equilibrio, pero no ha sido perturbado.

Nido de agentes

Como puede ver, ya hemos usado un agente. No es que interviniera de ninguna manera, pero llegaremos a eso.

OpenAI ha simplificado el proceso de orquestación con algunos términos simples. A manos libres es una introducción al mundo asincrónico, donde algo tiene que esperar algo más. Desglosemos su ejemplo, que ejecutaré como hola.py:

Esto muestra dos cosas básicas. En primer lugar, la configuración de roles para los agentes en inglés simple a los que estamos acostumbrados, pero también estableciendo la interacción entre los agentes. El agente de transferencia mantiene una lista de agentes disponibles para responder respuestas.

Ahora, esto implica que mi solicitud alemana no obtendrá la respuesta correcta. Entonces, si cambiamos la consulta dentro hola.py:

Y ejecutar nuestro nido de agentes:

Entonces, aunque OpenAi no tuvo problemas para traducir alemán, el agente de triaje no tenía un agente de idiomas relevante a la mano, por lo que hizo el trabajo y respondió en inglés. Es poco probable que nuestros clientes alemanes estén demasiado molestos, pero podemos mejorar.

Entonces, si finalmente agregamos el agente alemán y lo ponemos en la lista de transferencias a hola.py:

Podemos intentar esa solicitud alemana nuevamente:

Esta vez se llama al agente correcto y responde. Nuestros clientes alemanes ahora están más felices: ¡Ausgezeichnet! No olvides que mi terminal de urdimbre también te está dando los tiempos para estas respuestas.

Conclusión

Primero observamos el bucle de respuesta, que puede incluir más llamadas de herramientas. Si la respuesta tiene una transferencia, establecemos el agente en el nuevo agente y volvemos al inicio.

Hay opciones de registro debajo de esto, pero como de costumbre, OpenAI está dando una API de alto nivel en esta etapa, lo que debería fomentar la experimentación sin la necesidad de involucrarse demasiado con la orquestación.

Si bien he introducido agentes aquí, en publicaciones posteriores, veré más partes del SDK.

Vía Sahin Ahmed


Grupo Creado con boceto.

Continue Reading

Trending