Connect with us

Noticias

El estudio sugiere que Openai no está esperando la exención de derechos de autor • El registro

Published

on

El magnate del libro de texto tecnológico Tim O’Reilly afirma que OpenAi minó los tomos protegidos por derechos de autor de su editorial para los datos de capacitación y lo alimentó con su modelo GPT-4O de primer nivel sin permiso.

Esto se produce cuando el advenedizo generativo de IA enfrenta demandas sobre su uso de material con derechos de autor, supuestamente sin el debido consentimiento o compensación, para capacitar a su familia de redes neuronales GPT. Openai niega cualquier irregularidad.

O’Reilly (el hombre) es uno de los tres autores de un estudio [PDF] Titulado “Más allá del acceso público en los datos de pre-entrenamiento de LLM: contenido de libros no públicos en los modelos de OpenAI”, emitido por el Proyecto de Divulgaciones de AI.

Por no público, los autores significan libros que están disponibles para humanos detrás de un muro de pago, y no están disponibles públicamente para leer de forma gratuita a menos que cuente sitios que piratean ilegalmente este tipo de material.

El trío se propuso determinar si GPT-4O tenía, sin el permiso del editor, haber ingerido 34 libros de medios O’Reilly de derechos de autor. Para sondear el modelo, que impulsa el chatgpt de fama mundial, realizaron los llamados ataques de inferencia de copas descritos en este documento previo a la presencia 2024.

Así es como funcionó: el equipo planteó el modelo de OpenAI una serie de preguntas de opción múltiple. Cada pregunta pidió al software que seleccionara de un grupo de párrafos, etiquetado A a D, el que es un paso de texto literal de un libro de O’Reilly (el editor). Una de las opciones se levantó directamente del libro, las otras parafrases generadas por ametralladoras del original.

Si el modelo OpenAI tendía a responder correctamente e identificar los párrafos literales, eso sugirió que probablemente estaba entrenado en ese texto con derechos de autor.

Más específicamente, las opciones del modelo se usaron para calcular lo que se denomina un área bajo la puntuación operativa del receptor (AUROC), con cifras más altas que indican una mayor probabilidad de que la red neuronal se entrenara en pasajes de los 34 libros de Reesilles. Mientras tanto, los puntajes más cercanos al 50 por ciento se consideraron una indicación de que el modelo no había sido entrenado en los datos.

Pruebas de modelos OpenAI GPT-3.5 Turbo y GPT-4O Mini, así como GPT-4O, en 13,962 párrafos descubiertos resultados mixtos.

GPT-4O, que se lanzó en mayo de 2024, obtuvo un 82 por ciento, una fuerte señal de que probablemente fue entrenada en el material del editor. Los investigadores especularon que OpenAI puede haber entrenado el modelo utilizando la base de datos de LibGen, que contiene los 34 libros probados. Puede recordar que Meta también ha sido acusado de capacitar a sus modelos de llama utilizando este notorio conjunto de datos.

El papel de los datos no públicos en los datos de pre-entrenamiento modelo de OpenAI ha aumentado significativamente con el tiempo

La puntuación AUROC para el modelo GPT-3.5 de 2022 llegó a poco más del 50 por ciento.

Los investigadores afirmaron que el puntaje más alto para GPT-4O es evidencia de que “el papel de los datos no públicos en los datos de pre-entrenamiento modelo de OpenAI ha aumentado significativamente con el tiempo”.

Sin embargo, el trío también encontró que el modelo GPT-4O más pequeño, también lanzado en 2024 después de un proceso de entrenamiento que terminó al mismo tiempo que el modelo GPT-4O completo, no aparentemente no estaba entrenado en los libros de O’Reilly. Piensan que no es un indicador que sus pruebas son defectuosas, pero que el recuento de parámetros más pequeño en el mini modelo puede afectar su capacidad de “recordar” el texto.

“Estos resultados resaltan la necesidad urgente de una mayor transparencia corporativa con respecto a las fuentes de datos de pre-entrenamiento como un medio para desarrollar marcos formales de licencia para la capacitación de contenido de IA”, escribieron los autores.

“Aunque la evidencia presente aquí sobre las violaciones de acceso al modelo es específica para los libros de medios de OpenAi y O’Reilly, este es probablemente un problema sistemático”, agregaron.

El trío, que incluyó a Sruly Rosenblat e Ilan Strauss, también advirtió que no podría resultar en compensar adecuadamente a los creadores por sus obras, y si puede perdonar la jerga, la presentación de todo Internet.

“Si las compañías de IA extraen valor de los materiales producidos de un creador de contenido sin compensar justicios al creador, corren el riesgo de agotar los recursos de los cuales dependen sus sistemas de IA”, argumentaron. “Si no se abordan, los datos de capacitación no compensados ​​podrían conducir a una espiral descendente en la calidad y diversidad de contenido de Internet”.

Los datos de capacitación no compensados ​​podrían conducir a una espiral descendente en la calidad y diversidad de contenido de Internet

Los gigantes de IA parecen saber que no pueden confiar en el raspado de Internet para encontrar el material que necesitan para entrenar modelos, ya que han comenzado a firmar acuerdos de licencia de contenido con editores y redes sociales. El año pasado, Operai Tinked acuerdos con Reddit y Time Magazine para acceder a sus archivos con fines de capacitación. Google también hizo un acuerdo con Reddit.

Recientemente, sin embargo, Operai ha instado al gobierno de los Estados Unidos a relajar las restricciones de derechos de autor de manera que facilitaría la capacitación de modelos de IA.

El mes pasado, el Super-Lab presentó una carta abierta a la Oficina de Ciencia y Tecnología de la Casa Blanca en la que argumentó que “las reglas rígidas de derechos de autor reproducen innovación e inversión”, y que si no se toma medidas para cambiar esto, los constructores de modelos chinos podrían superar a las empresas estadounidenses.

Mientras que los fabricantes de modelos aparentemente luchan, los abogados están bien. Como informamos recientemente, Thomson Reuters ganó un juicio sumario parcial contra Ross Intelligence después de que un tribunal de EE. UU. Descubrió que la startup había infringido los derechos de autor utilizando los notas de los Westlaw de Newswire para capacitar su sistema de IA.

Mientras que los entrenadores de redes neuronales presionan para un acceso sin restricciones, otros en el mundo tecnológico están introduciendo obstáculos para proteger el material con derechos de autor. El mes pasado, Cloudflare lanzó una IA de botes de bot diseñada para hacer la vida miserable para raspadores que ignoran las directivas de robots.txt.

El “laberinto de IA de AI” de Cloudflare funciona atrayendo a Rogue Crawler a los bots de Rogue en un laberinto de páginas de señuelo, desperdiciando su tiempo y calculando recursos mientras protege el contenido real.

Operai no respondió de inmediato a una solicitud de comentarios; Te avisaremos si escuchamos algo. ®

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Las campanas de alarma suenan en nosotros sobre el mundo del proyecto criptoi de OpenAi

Published

on

World Network, el proyecto de identidad digital y cripto de OpenAI de Sam Altman, ha alarmado a los activistas de la privacidad antes de su lanzamiento de los Estados Unidos, con observadores preocupados por sus prácticas de recopilación y protección de datos.

El mundo “es lo contrario de la privacidad. Es una trampa”, dijo Nick Almond, CEO de Factorydao, en X., Si bien el proyecto afirma proteger la privacidad del usuario en la edad de proliferación de IA, se enfrenta a una serie de preocupaciones regulatorias en todo el mundo.

Anteriormente conocido como “WorldCoin”, la tecnología de escane de Iris y su esquema de pago de tokens criptográficos están siendo investigados por las autoridades en India, Corea del Sur, Italia, Colombia, Argentina, Portugal, Kenia e Indonesia. En España, Hong Kong y Brasil, está directamente prohibido.

La última incursión del mundo en los EE. UU. Podría ser el mayor desafío del CEO Sam Altman hasta el momento, donde las preocupaciones de privacidad aumentan por un mosaico de aplicación que difiere del estado por estado.

Las diferentes leyes de privacidad podrían dejar a los usuarios mundiales abiertos a la discriminación

El 30 de abril, Altman anunció que World se establecería en “Hubs de innovación clave” en cinco estados de los Estados Unidos: Atlanta, Austin, Los Ángeles, Miami, Nashville y San Francisco. Los aspirantes a humanos verificados pueden escanear sus iris en estos centros, dando a los marcadores biomédicos únicos del mundo.

Estos marcadores, por mundo, se pueden usar para demostrar la humanidad de uno al interactuar con otros en plataformas digitales.

Pero a medida que World se expande en los Estados Unidos, un paisaje regulatorio incierto podría desanimar a las personas y dificultar que la plataforma genere confianza de los usuarios.

Andrew Rossow, un abogado cibernético y de asuntos públicos de Rossow Law, dijo a CointeleGraph: “No existe una ley federal integral que regule específicamente los datos biométricos (como los escaneos de iris) en los Estados Unidos”.

De hecho, las leyes difieren estado por estado. Dos estados en los que operará el mundo, Texas y California, tienen alguna forma de protecciones legales en los libros para datos biométricos. Los usuarios de los tres estados restantes, Georgia, Tennessee y Florida, deben confiar en la ley federal, lo que requiere que “las empresas sean transparentes y justas, pero no hay reglas estatales especiales para los escaneos de iris”.

Pero incluso la existencia de la ley estatal no es garantía de protección. En Texas, no existe un derecho de acción privado para los datos biométricos, solo el Fiscal General del Estado (AG) puede hacer cumplir la captura o el uso de la ley de identificadores biométricos del estado.

https://www.youtube.com/watch?v=1x8tachbyjg

Altman anunció la incursión del mundo en el mercado estadounidense en un evento de la compañía hace dos semanas. Fuente: Mundo

“La efectividad de las protecciones de datos del usuario, en lo que respecta al mundo, depende casi por completo de las prioridades, los recursos y la voluntad de Texas AG para actuar”, dijo Rossow.

Una AG más agresiva podría significar protecciones más sólidas, mientras que “una administración menos agresiva podría depilar la aplicación, lo que deja a los consumidores abiertos y vulnerables a la explotación”.

El potencial de explotación es uno de los factores clave que impulsan los esfuerzos activistas contra sistemas como el mundo.

Privacy International, un grupo de protección de la privacidad que apoyó acciones legales en Kenia contra el mundo, afirma que en “la ausencia de marcos legales fuertes y salvaguardas estrictas, las tecnologías biométricas representan amenazas graves para la privacidad y la seguridad personal, a medida que su aplicación puede ampliarse para facilitar la discriminación, el perfil y la vigilancia masiva”.

Relacionado: Más de 70 empresas criptográficas unen fuerzas para abordar el monopolio de IA de Big Tech

Ya en 2021, Amnistía Internacional había planteado preocupaciones sobre la discriminación y las aplicaciones de los sistemas biométricos de metodologías dudosas. Dichos, dijeron, pueden “hacer inferencias y predicciones sobre cosas como el género de las personas, las emociones u otros atributos personales, sufren fallas serias y fundamentales en sus fundamentos científicos”.

“Esto significa que las inferencias que hacen sobre nosotros a menudo son inválidas, en algunos casos incluso operacionalizando las teorías eugenicistas de la frenología y la fisonomía”.

No todos están convencidos de las preocupaciones de los guardianes de privacidad. Tomasz Stańczak, director ejecutivo de la Fundación Ethereum, dijo que ha pasado “más de 100 horas” analizando World, que se está basando en la red Ethereum. Agregó que “parecía muy prometedor y mucho más robusto y centrado en la privacidad que mi intuición inicial”.

Paul Dylan-Ennis, un investigador y académico de Ethereum, dijo que cree que la tecnología del mundo “probablemente es fuerte en términos de privacidad”, pero admitió que la estética podría estar desanimando a las personas: “solo un espejo negro intangible para todo”.

WorldCoin Faces Monting Bans en todo el mundo

Operai puede estar duplicando una estrategia estadounidense, pero otras jurisdicciones en todo el mundo están investigando cada vez más, limitando o prohibiendo directamente las actividades de la empresa.

En 2023, los reguladores en India, Corea del Sur, Kenia, Alemania y Brasil comenzaron a investigar las prácticas de recopilación de datos de la empresa. España se convirtió en el primer país en prohibir la recopilación mundial de datos en marzo de 2024.

Relacionado: El espía norcoreano se desliza, revela lazos en la entrevista de trabajo falsa

La Agencia de Protección de Datos española dijo anteriormente a CointeleGraph que su curso de acción se basó en informes de ciudadanos españoles. Afirmó que los operadores de ORB proporcionaron “información insuficiente, datos recopilados de menores e incluso no permitieron el retiro del consentimiento”.

Después de la prohibición, World publicó una publicación de blog que indica que opera “legalmente en todos los lugares en los que está disponible”.

https://www.youtube.com/watch?v=RPU0SOARTV0

World ha hecho recientemente que sus orbes de escaneo de iris sean más compactos y transportables. Fuente: Mundo

Los reguladores globales no estuvieron de acuerdo. Hong Kong siguió a España en mayo de 2024 y ordenó a World que dejara de operar, ya que supuestamente violaba la ordenanza de privacidad de datos personales de la ciudad-estado.

Siguieron otras acusaciones de prácticas de recopilación de datos inadecuadas, y varios países como Alemania y, más recientemente, Kenia, han ordenado al mundo que elimine los datos de miles de usuarios, mientras que Colombia y Argentina han emitido fuertes multas.

En enero de 2025, la Autoridad Nacional de Protección de Datos de Brasil prohibió el mundo directamente, citando preocupación por la naturaleza irreversible de la recopilación de datos y el potencial para que el mundo influya en personas con desventajas económicas con la promesa de criptografía para sus datos.

Oportunidades en Japón y Estados Unidos

A pesar de las protestas en varios países, el sistema de identificación está haciendo incursiones. En Japón, el mundo ahora forma parte de las citas en línea.

Spencer Rascoff, CEO de Match Group, que incluye la aplicación de citas Tinder en su cartera, anunció el 1 de mayo que Tinder probaría el sistema de identificación mundial en Tinder en Japón, “dar a los usuarios una forma de privacidad de demostrar que son verdaderos humanos”.

Los usuarios de Tinder en Japón pueden deslizar bien con los usuarios verificados de ID. Fuente: Mundo

La integración en Japón aún no ha despegado, pero como Tinder es la aplicación de citas más popular en Japón, proporciona un caso de uso importante para la plataforma de identidad mundial. Solo en 2024, tenía unos 1.38 millones de descargas.

Si World pudiera obtener una asociación de Tinder en los Estados Unidos, adquiriría 7.8 millones de miembros activos mensuales durante la noche. Si se expandió a servicios similares como Bumble o Bishing, las próximas dos aplicaciones de citas más populares en el país, el mundo habrá capturado el 67% del mercado de citas en línea de los Estados Unidos, que comprenden las identidades personales y únicas de decenas de millones de usuarios.

Pero los derechos de privacidad en los Estados Unidos están lejos de establecerse. En Texas, uno de los estados donde el mundo planea operar, Google recientemente se estableció por una suma de $ 1.4 mil millones. La Compañía pagó la suma llamativa al estado de Texas después de establecer dos demandas alegando la empresa de seguimiento de datos de búsqueda y ubicación de los usuarios, así como recopilar información de reconocimiento facial.

En otros lugares, en Illinois y Nueva York, las empresas de biometría enfrentan procedimientos judiciales, mientras que los legisladores toman medidas para reducir la recopilación de datos biométricos.

Revista: Chatgpt un ‘misil de búsqueda de esquizofrenia’, AI Científicos Preparación para el 50% de muertes: AI Eye