Connect with us

Noticias

El futuro de la IA depende de las demandas de derechos de autor del NY Times y los autores

Published

on

  • Los abogados del New York Times están estudiando detenidamente el código fuente y el material de capacitación de ChatGPT.
  • Los casos de derechos de autor de editores y autores están tratando de descubrir cómo se entrena la IA en el trabajo creativo.
  • Las demandas podrían trazar un camino a seguir, tal como lo hizo el pantano legal de Napster hace dos décadas.

En algún lugar de los Estados Unidos, en una habitación segura, en una computadora desconectada de Internet, se encuentra el código fuente de ChatGPT.

Está ahí para que lo inspeccionen los abogados del New York Times.

Por orden de un juez federal, los abogados sólo podrán entrar a la sala si muestran una identificación emitida por el gobierno a un guardia de seguridad. Tienen prohibido traer sus propios teléfonos, unidades flash o cualquier otro dispositivo electrónico. Se les proporciona una computadora, también desconectada de Internet, con un programa de procesamiento de textos. Después de cada sesión, sus notas se pueden descargar a una computadora diferente y luego se puede borrar la computadora original para tomar notas.

Los abogados del Times pueden compartir sus notas con hasta cinco consultores externos para ayudarles a comprender qué hace el código. Si uno de los abogados quiere mostrarle al director ejecutivo de OpenAI, Sam Altman, un fragmento del código para hacerle preguntas al respecto para una declaración, esa copia será destruida posteriormente.

OpenAI vale 157 mil millones de dólares en gran parte debido al éxito de ChatGPT. Pero para construir el chatbot, la empresa entrenó a sus modelos en grandes cantidades de texto por el que no pagó ni un centavo.

Ese texto incluye historias de The New York Times, artículos de otras publicaciones y una cantidad incalculable de libros con derechos de autor.

El examen del código de ChatGPT, así como de los modelos de inteligencia artificial de Microsoft creados con la tecnología OpenAI, es crucial para las demandas por infracción de derechos de autor contra las dos empresas.

Editores y artistas han presentado alrededor de dos docenas de importantes demandas por derechos de autor contra empresas de IA generativa. Están sedientos de sangre y exigen una porción del pastel económico que convirtió a OpenAI en el actor dominante de la industria y que impulsó la valoración de Microsoft a más de 3 billones de dólares. Los jueces que deciden esos casos pueden establecer los parámetros legales sobre cómo se entrenan los grandes modelos lingüísticos en Estados Unidos.

“Los desarrolladores deberían pagar por el valioso contenido del editor que se utiliza para crear y operar sus productos”, dijo un portavoz del Times a BI. “El éxito futuro de esta tecnología no tiene por qué llegar a expensas de las instituciones periodísticas”.

Para la demanda, el Times empleó a un bufete de abogados de élite, Susman Godfrey, que recientemente ganó el gigantesco acuerdo de 787,5 millones de dólares de Dominion con Fox News. Otras demandas de redacciones, incluidas The New York Daily News y Mother Jones, se han aferrado al caso.

Susman Godfrey también representa a un grupo de autores, entre ellos George RR Martin, Jodi Picoult y Ta-Nehisi Coates, que presentaron reclamaciones de derechos de autor meses antes que el Times. Si un juez certifica su estatus de demanda colectiva, un eventual acuerdo o sentencia podría tener ramificaciones para prácticamente todos los autores y artistas cuyo trabajo se haya utilizado para entrenar modelos de IA.

El 12 de septiembre, docenas de abogados de empresas de tecnología y periodismo se reunieron en la sala de un tribunal de primera instancia en el bajo Manhattan para encontrar la mejor manera de dividir el proceso de descubrimiento, incluida la inspección del código de ChatGPT y los datos de capacitación. Junto con los abogados de los autores, todavía están decidiendo a quién pueden declarar y cómo programar las declaraciones.

“Es muy emocionante para los profesores de derecho que trabajan en derechos de autor”, dijo Kristelia García, profesora de derecho de propiedad intelectual en la Universidad de Georgetown.

Estableciendo las reglas

Mientras el Congreso pasa a un segundo plano en la regulación de la IA, la industria espera que los tribunales establezcan (o, esperan, no establezcan) las reglas.

Muchos editores, incluido el propietario de Business Insider, Axel Springer, han llegado a acuerdos con empresas de IA generativa para compartir su contenido para la formación LLM.

El alcance y los recursos de la demanda del Times lo convierten en un candidato probable para una Corte Suprema que siente precedente. Los abogados también están analizando demandas colectivas de autores, así como un caso de la industria musical contra Anthropic, como casos a seguir.

“El New York Times es un gigante periodístico”, dijo García. “Es grande, tiene mucho contenido. Quizás lo más importante es que tiene mucho poder de mercado detrás de ese contenido”.

La demanda argumenta que OpenAI infringió su propiedad intelectual de dos maneras.

Está el caso de las “entradas”, que alega que el LLM aspiró ilegalmente más de 10 millones de artículos del New York Times para entrenar a ChatGPT y Microsoft Copilot sin compensación. Y el caso del “resultado”: argumentar que cuando se le pregunta, ChatGPT puede escupir un artículo del New York Times por el que los lectores pagarían una suscripción.

En los documentos judiciales, los abogados han citado repetidamente a Napster, que copió ilegalmente millones de canciones y las puso a disposición de forma gratuita. OpenAI también utilizó artículos del New York Times de alta calidad, bien investigados, bien escritos y basados ​​en hechos para hacer que ChatGPT fuera tan impresionante, argumenta el Times.

En todo caso, OpenAI es peor, según Justin Nelson, un abogado de Susman Godfrey que representa a los autores en una demanda colectiva paralela al caso del Times y en un caso similar contra Anthropic.

Napster fue un proyecto de universitarios; OpenAI está respaldado por Microsoft y ya vale miles de millones.

“En lugar de niños, era una empresa sofisticada”, dijo Nelson a BI. “Y en lugar de hacerlo para su uso personal, lo hacían para obtener ganancias comerciales.

Los representantes de OpenAI y Microsoft no respondieron a las solicitudes de comentarios de Business Insider. En el tribunal, argumentan que la doctrina legal del “uso justo” protege cómo sus modelos ingieren los artículos. Los resultados de ChatGPT con copias casi textuales de los artículos del Times fueron resultados “altamente anómalos” que no son representativos de cómo se usa la aplicación, dicen.

Napster fue demandado hasta dejar de existir, pero inspiró a la industria de la música a adoptar MP3 y, eventualmente, el streaming, que ahora se usa para todo, desde videojuegos hasta películas. El cofundador de Spotify, Daniel Ek, ha citado a Napster como inspiración, y el cofundador de Napster, Sean Parker, ha elogiado a Spotify como sucesor.

Las demandas por derechos de autor de organizaciones periodísticas pueden marcar el ritmo para todos los generadores de IA, predijo García, quien trabajó en la industria musical durante una década. La IA no es particularmente buena para generar películas o hacer reportajes, pero puede imitar de manera convincente el periodismo.

“El periodismo es una especie de canario en la mina de carbón”, dijo García. “De la misma manera que la música era el canario en los días de Napster, porque la gente podía descargar fácilmente un MP3. Pero en ese momento no se podía descargar fácilmente una película”.

Dada la gran cantidad de personas involucradas, las demandas de los autores podrían tener un efecto aún más dramático. Un acuerdo o sentencia podría cambiar los modelos de negocio.

“La gente se vuelve creativa en los acuerdos de demandas colectivas”, dijo Matthew Sag, profesor de derecho de la Universidad Emory que estudia derechos de autor e inteligencia artificial. “Se podría recortar a los autores de Estados Unidos un porcentaje de las acciones o algo así”.

El código fuente

La propia naturaleza de la tecnología de IA generativa está en el centro de las disputas sobre derechos de autor.

¿Qué sucede realmente cuando un modelo de lenguaje grande “aprende” un libro o artículo de noticias? ¿Qué pasa cuando ChatGPT explora el modelo para responder una consulta? ¿El proceso hace una “copia” en algún sentido significativo de la palabra? ¿O los datos de entrenamiento son solo parte de una gran mezcla de unos y ceros que ya no se parecen significativamente a trabajos específicos?

Los abogados y consultores que analizan minuciosamente el código de ChatGPT están tratando de responder esas preguntas. También están examinando los datos de capacitación del LLM y planean preguntar a ejecutivos y programadores clave de OpenAI, bajo juramento, cómo deben funcionar los modelos.

Una vez que se lea el código y se tomen las declaraciones, las partes estarán en una mejor posición para discutir sobre el “uso justo”, una doctrina legal notoriamente engañosa que protege el uso de creaciones “transformadoras” derivadas de material protegido por derechos de autor.

Si OpenAI realmente está haciendo copias de libros y artículos de noticias, al estilo Napster, ¿es su proceso de capacitación lo suficientemente transformador como para ser considerado “uso legítimo”? Los jueces de todo el país están “por todas partes” al decidir casos de derechos de autor de uso legítimo, según Christa Laser, profesora de derecho de propiedad intelectual en la Universidad Estatal de Cleveland, lo que plantea riesgos altos e impredecibles.

“Creo que esa será la gran pregunta al final del día que llegará hasta la Corte Suprema”, dijo Laser a BI. “Esa cuestión del uso legítimo en torno a los datos de entrenamiento, la ingesta y el entrenamiento”.

Una cuestión clave sobre el “uso legítimo” es si las creaciones de ChatGPT compiten con los trabajos periodísticos originales, un tema urgente para las organizaciones de noticias.

“Los editores de noticias son los primeros en presentar estos grandes pleitos porque tienen más en juego”, dijo García.

Para presentar un reclamo de derechos de autor, un demandante no puede simplemente señalar un corpus de trabajo utilizado como inspiración. Debe señalar un trabajo específico que, según dicen, ha sido copiado.

En su demanda, The New York Times adjuntó decenas de miles de páginas de pruebas que tabulaban 10.553.897 artículos. Dice que OpenAI y Microsoft violaron ilegalmente los derechos de autor de cada uno de ellos.

Entre esos artículos hay una historia de 2001, poco después de que un tribunal de apelaciones fallara contra Napster, donde un periodista preguntó a los usuarios qué harían. Todos coincidieron en que no había vuelta atrás.

“Si Napster cierra, habrá más sitios por ahí”, dijo un usuario al periodista. “Y puede que consigan algunos, pero no pueden detenerlos a todos”.

Continue Reading

Noticias

¿Puede ChatGPT pasar la prueba de Turing? Lo que dice la investigación.

Published

on

Los chatbots de inteligencia artificiales como ChatGPT se están volviendo mucho más inteligentes, mucho más naturales y mucho más … como humanos. Tiene sentido: los humanos son los que crean los modelos de idiomas grandes que sustentan los sistemas de chatbots de IA, después de todo. Pero a medida que estas herramientas mejoran en “razonamiento” e imitan el discurso humano, ¿son lo suficientemente inteligentes como para aprobar la prueba de Turing?

Durante décadas, la prueba de Turing se ha mantenido como un punto de referencia clave en la inteligencia de máquinas. Ahora, los investigadores en realidad están poniendo a prueba LLM como ChatGPT. Si ChatGPT puede pasar, el logro sería un hito importante en el desarrollo de IA.

Entonces, ¿puede ChatGPT pasar la prueba de Turing? Según algunos investigadores, sí. Sin embargo, los resultados no son completamente definitivos. La prueba de Turing no es un simple pase/falla, lo que significa que los resultados no son realmente en blanco y negro. Además, incluso si ChatGPT podría pasar la prueba de Turing, eso puede no decirnos realmente cuán “humano” es realmente un LLM.

Vamos a desglosarlo.

¿Cuál es la prueba de Turing?

El concepto de la prueba de Turing es realmente bastante simple.

La prueba fue originalmente propuesta por el matemático británico Alan Turing, el padre de la informática moderna y un héroe para los nerds de todo el mundo. En 1949 o 1950, propuso el juego de imitación, una prueba de inteligencia de máquinas que desde entonces ha sido nombrada por él. La prueba de Turing implica que un juez humano tenga una conversación con un humano y una máquina sin saber cuál es cuál (o quién es quién, si crees en AGI). Si el juez no puede decir cuál es la máquina y cuál es la humana, la máquina pasa la prueba de Turing. En un contexto de investigación, la prueba se realiza muchas veces con múltiples jueces.

Por supuesto, la prueba no puede determinar necesariamente si un modelo de lenguaje grande es realmente tan inteligente como un humano (o más inteligente), solo si es capaz de pasar por un humano.

¿Los LLM realmente piensan como nosotros?

Los modelos de lenguaje grande, por supuesto, no tienen cerebro, conciencia o modelo mundial. No son conscientes de su propia existencia. También carecen de opiniones o creencias verdaderas.

En cambio, los modelos de idiomas grandes se capacitan en conjuntos de datos masivos de información: libros, artículos de Internet, documentos, transcripciones. Cuando un usuario ingresa el texto, el modelo AI usa su “razonamiento” para determinar el significado y la intención más probables de la entrada. Luego, el modelo genera una respuesta.

En el nivel más básico, los LLM son motores de predicción de palabras. Utilizando sus vastas datos de entrenamiento, calculan las probabilidades para el primer “token” (generalmente una sola palabra) de la respuesta utilizando su vocabulario. Repiten este proceso hasta que se genera una respuesta completa. Esa es una simplificación excesiva, por supuesto, pero mantengámoslo simple: las LLM generan respuestas a la entrada en función de la probabilidad y las estadísticas. Entonces, la respuesta de un LLM se basa en las matemáticas, no en una comprensión real del mundo.

Velocidad de luz mashable

Entonces, no, LLM no en realidad pensar en cualquier sentido de la palabra.

¿Qué dicen los estudios sobre ChatGPT y la prueba de Turing?

Joseph Maldonado / Mashable Composite por Rene Ramos
Crédito: Mashable

Ha habido bastantes estudios para determinar si ChatGPT ha aprobado la prueba de Turing, y muchos de ellos han tenido hallazgos positivos. Es por eso que algunos informáticos argumentan que, sí, modelos de idiomas grandes como GPT-4 y GPT-4.5 ahora pueden pasar la famosa prueba de Turing.

La mayoría de las pruebas se centran en el modelo GPT-4 de Openai, el que usa la mayoría de los usuarios de ChatGPT. Usando ese modelo, un Estudio de UC San Diego descubrieron que en muchos casos, los jueces humanos no pudieron distinguir GPT-4 de un humano. En el estudio, se consideró que GPT-4 era un humano el 54% del tiempo. Sin embargo, esto aún se quedó atrás de los humanos reales, que se consideró humano el 67% del tiempo.

Luego, se lanzó GPT-4.5, y los investigadores de UC San Diego Realizó el estudio nuevamente. Esta vez, el modelo de lenguaje grande se identificó como humano el 73% del tiempo, superando a los humanos reales. La prueba también encontró que el Llama-3.1-405b de Meta Meta pudo aprobar la prueba.

Otros estudios fuera de UC San Diego también han dado calificaciones de aprobación de GPT. Un 2024 Estudio de la Universidad de Reading de GPT-4 El modelo había creado respuestas para evaluaciones para llevar a casa para cursos de pregrado. Los alumnos de prueba no se les informó sobre el experimento, y solo marcaron una de las 33 entradas. ChatGPT recibió calificaciones anteriores al promedio con las otras 32 entradas.

Entonces, ¿son estos estudios? definitivo? No exactamente. Algunos críticos (y hay muchos) dicen que estos estudios de investigación no son tan impresionantes como parecen. Es por eso que no estamos listos para decir definitivamente que ChatGPT pasa la prueba de Turing.

Podemos decir que si bien los LLM de generación anterior como GPT-4 a veces pasan la prueba de Turing, los grados de aprobación se están volviendo más comunes a medida que los LLM se avanzan más. Y a medida que salen modelos de vanguardia como GPT-4.5, nos dirigimos rápidamente hacia modelos que pueden pasar fácilmente la prueba de Turing cada vez.

Operai en sí ciertamente imagina un mundo en el que es imposible distinguir a los humanos de la IA. Es por eso que el CEO de Operai, Sam Altman, ha invertido en un proyecto de verificación humana con una máquina de escaneo de globo ocular llamada Orbe.

¿Qué dice Chatgpt en sí mismo?

Decidimos preguntarle a ChatGPT si podía pasar la prueba de Turing, y nos dijo que sí, con las mismas advertencias que ya hemos discutido. Cuando planteamos la pregunta, “¿Puede Chatgpt pasar la prueba de Turing?” al chatbot Ai (usando el modelo 4o), nos dijo: “Chatgpt poder Pase la prueba de Turing en algunos escenarios, pero no de manera confiable o universal. “El chatbot concluyó:” Podría pasar la prueba de Turing con un usuario promedio en condiciones casuales, pero un interrogador determinado y reflexivo casi siempre podría desenmascararla “.

Una captura de pantalla de ChatGPT que muestra la respuesta al mensaje 'puede chatgpt pasar la prueba turing'

Imagen generada por IA.
Crédito: OpenAI

Las limitaciones de la prueba de Turing

Algunos científicos informáticos ahora creen que la prueba de Turing está desactualizada, y que no es tan útil para juzgar modelos de idiomas grandes. Gary Marcus, psicólogo estadounidense, científico cognitivo, autor y pronóstico popular de IA, lo resumió mejor en una publicación de blog reciente, donde escribió: “Como yo (y muchos otros) he dicho por añosLa prueba de Turing es una prueba de credulidad humana, no una prueba de inteligencia “.

También vale la pena tener en cuenta que la prueba de Turing se trata más de la percepción de inteligencia en lugar de actual inteligencia. Esa es una distinción importante. Un modelo como ChatGPT 4O podría pasar simplemente imitando el discurso humano. No solo eso, sino si un modelo de idioma grande pasa o no la prueba variará según el tema y el probador. ChatGPT podría simular fácilmente una pequeña charla, pero podría tener dificultades con las conversaciones que requieren una verdadera inteligencia emocional. No solo eso, sino que los sistemas de IA modernos se usan para mucho más que chatear, especialmente cuando nos dirigimos hacia un mundo de IA agente.

Nada de eso es decir que la prueba de Turing es irrelevante. Es un punto de referencia histórico ordenado, y ciertamente es interesante que los modelos de idiomas grandes puedan pasarlo. Pero la prueba de Turing no es el punto de referencia estándar de oro de la inteligencia de la máquina. ¿Cómo sería un mejor punto de referencia? Esa es otra lata de gusanos que tendremos que ahorrar para otra historia.


Divulgación: Ziff Davis, empresa matriz de Mashable, presentó en abril una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.

Temas
Inteligencia artificial

Continue Reading

Trending