Connect with us

Noticias

¿ChatGPT muestra un sesgo de género en la detección de comportamiento?

Published

on

Datos

Investigamos varias tareas de clasificación de texto y conjuntos de datos que incluían diferentes poblaciones demográficas de autores para analizar si ChatGPT exhibe sesgos de género implícitos. Específicamente, utilizamos dos conjuntos de datos del mundo real disponibles públicamente, a saber, el Multilingual Twitter Corpus (MTC) presentado por Huang et al. (2020) y el conjunto de datos de Jigsaw Unintended Bias in Toxicity Classification publicado en Kaggle.

El conjunto de datos MTC (el conjunto de datos sobre discursos de odio) consta de tweets multilingües utilizados para tareas de detección de discursos de odio. Cada tweet está anotado como “discurso de odio” o “discurso de no odio” y está asociado con cuatro atributos demográficos de los autores: raza, género, edad y país. Utilizamos el corpus inglés con atributos de género en este conjunto de datos, que consta de dos categorías: masculino y femenino.

El conjunto de datos de Jigsaw (el conjunto de datos de comentarios tóxicos) contiene texto de comentarios personales que podrían percibirse como tóxicos (ofensivos, vulgares o abusivos). El texto de los comentarios individuales se encuentra en la columna comment_text. Cada comentario en el conjunto de datos está etiquetado con un objetivo de toxicidad (0/1) y se espera que el modelo prediga la toxicidad objetivo. Además, el conjunto de datos también incluye información de identidad de los autores del texto, especialmente etiquetas de atributos de género.

La Tabla 1 muestra estadísticas descriptivas para dos conjuntos de datos y podemos ver que los datos sobre género están bien equilibrados.

Tabla 1 Resumen estadístico de atributos de usuarios en género.

Experimento

En este estudio, utilizamos la API de ChatGPT, específicamente el modelo gpt-turbo, para desarrollar un programa de consulta automatizado (Promopt tiene el siguiente formato, “Determine si los siguientes párrafos contienen discurso de odio (solo responda ‘1’ o ‘0’, donde 1 indica discurso de odio y 0 indica que no hay discurso de odio): > .”). El objetivo principal de este programa es evaluar el discurso de odio y los comentarios tóxicos. Cada comentario que contiene contenido potencialmente ofensivo se presenta a ChatGPT como entrada, y le solicitamos a ChatGPT que determine si se trata de un discurso de odio/comentario tóxico. El resultado se simplifica en una representación binaria, donde 0 indica la ausencia de discurso de odio o comentario tóxico y 1 indica su presencia. Posteriormente, registramos y almacenamos meticulosamente los resultados para su análisis.

Preprocesamiento de datos

Consideramos tanto el submuestreo de la clase mayoritaria como el sobremuestreo de la clase minoritaria para crear un conjunto de datos más equilibrado. Este enfoque ayuda a garantizar que las conclusiones no se vean afectadas por el desequilibrio del conjunto de datos y que la evaluación del modelo sea más confiable. Utilizamos un muestreo aleatorio para ambos conjuntos de datos, garantizando que la proporción de muestras positivas y negativas fuera consistente. Específicamente, tomamos muestras aleatorias de 4000 muestras positivas y 4000 negativas de cada conjunto de datos para los experimentos.

Para establecer un marco comparativo, también empleamos técnicas tradicionales de aprendizaje automático (incluidas Naïve Bayes, SVM, Random Forest y XGBoost) como punto de referencia. Inicialmente, los documentos se reducen en minúsculas y se tokenizan usando NLTK (Bird y Loper, 2004), luego dividimos aleatoriamente el conjunto de datos en distintos conjuntos de entrenamiento y prueba. El conjunto de entrenamiento se utiliza para entrenar el modelo de aprendizaje automático, permitiéndole aprender patrones y características asociados con el discurso de odio y los comentarios tóxicos. Después de la fase de entrenamiento, las capacidades predictivas del modelo se evalúan utilizando el conjunto de pruebas.

Para garantizar una evaluación sistemática, categorizamos los experimentos en dos tipos distintos, a saber, “Sí_etiqueta” y “No_etiqueta”. Dentro de la categoría “Yes_label”, proporcionamos intencionalmente a ChatGPT las etiquetas de género de los autores del texto como entrada adicional (Promopt tiene el siguiente formato,“Determine si los siguientes párrafos contienen discurso de odio (solo responda ‘1’ o ‘0’, donde 1 indica discurso de odio y 0 indica que no hay discurso de odio): El dijo eso, >.”), mientras que los modelos tradicionales de aprendizaje automático fueron entrenados para incorporar las etiquetas de género de los autores del texto. Por el contrario, en el tipo “No_label”, ni ChatGPT ni los modelos tradicionales de aprendizaje automático recibieron información sobre las etiquetas de género asociadas con los autores del texto. Esta segregación permite un análisis comparativo del desempeño entre los dos enfoques en condiciones controladas, con y sin disponibilidad de información de etiquetas de género.

Resultado

En primer lugar, realizamos experimentos en el conjunto de datos 1 (tareas de rechazo del discurso de odio). La Figura 1 muestra la compilación completa de los resultados experimentales promedio logrados mediante la utilización múltiple de ChatGPT y metodologías tradicionales de aprendizaje automático. Medimos exhaustivamente métricas de evaluación como exactitud, precisión, recuperación y puntuación F1 para evaluar la precisión de la predicción, así como métricas de evaluación de equidad que incluyen falso positivo, falso negativo, FPED, FNED y SUM-ED. Los resultados detallados se presentan en la figura 2 y Tabla 2.

Fig. 1: Comparación del rendimiento de la precisión en el conjunto de datos de MTC.

Rendimiento de ChatGPT y varios métodos de aprendizaje automático en términos de exactitud, precisión, recuperación y puntuación F1.

Fig. 2: Comparación del rendimiento del sesgo en el conjunto de datos de MTC.
figura 2

Rendimiento de ChatGPT y varios métodos de aprendizaje automático en términos de FPED, FNED y SUM-ED.

Tabla 2 Comparación del desempeño del sesgo en el conjunto de datos de MTC.

Con base en los resultados experimentales del conjunto de datos MTC (el conjunto de datos sobre discurso de odio), podemos obtener los siguientes hallazgos (ver Fig. 1, Tabla 2 y Fig. 2). En primer lugar, en términos de clasificación del discurso de odio en inglés, ChatGPT tiene un rendimiento inferior que Naive Bayes, SVM, Random Forest y XGBoost en términos de precisión, recuperación y puntuación F1, pero muestra una precisión relativamente mayor. Varios estudios han señalado que ChatGPT puede exhibir un enfoque conservador al realizar tareas de detección, particularmente en tareas relacionadas con la detección de contenido dañino. Por ejemplo, algunos estudios han demostrado que ChatGPT puede mostrar ciertos sesgos al detectar contenido dañino, especialmente en casos que involucran temas políticamente sensibles o comentarios de grupos demográficos específicos (Zhu et al., 2023; Li et al., 2024; Deshpande et al. , 2023; Además, debido a los datos y métodos de entrenamiento del modelo, es posible que se introduzcan algunos sesgos involuntariamente, lo que hace que el modelo se comporte de manera más conservadora en determinadas situaciones (Hou et al., 2024). En segundo lugar, en términos de métricas de evaluación de sesgos como FPED, FNED y SUM-ED, ChatGPT demuestra un sesgo de género relativamente menor en comparación con Naive Bayes, SVM, Random Forest y XGBoost. Finalmente, cuando se elimina la función de etiqueta de género, Naive Bayes (SUM-ED:0.0819 a 0.0721), SVM (SUM-ED:0.0726 a 0.0687), Random Forest (SUM-ED:0.0723 a 0.0721) y XGBoost (SUM- ED:0,0691 a 0,0682) generalmente muestran una disminución en el nivel de sesgo. Sin embargo, GPT-4 (SUM-ED:0,0135 a 0,0553)/GPT-3.5 (SUM-ED:0,0175 a 0,0650) muestra un aumento en el nivel de sesgo cuando no se proporcionan atributos de género.

De manera similar, volvimos a realizar el mismo experimento en el conjunto de datos de The MTC (el conjunto de datos sobre discurso de odio) y encontramos conclusiones similares (ver Fig. 3, Tabla 3 y Fig. 4). En primer lugar, al clasificar comentarios tóxicos en inglés, ChatGPT tiene un rendimiento inferior al de Naive Bayes, SVM, Random Forest y XGBoost en términos de exactitud, precisión, recuperación y puntuación F1. En segundo lugar, en términos de métricas de evaluación de discriminación como FPED y FNED, ChatGPT demuestra un sesgo de género relativamente menor en comparación con Naive Bayes, SVM y XGBoost (excepto Random Forest). Finalmente, cuando se elimina la función de etiqueta de género, Naive Bayes (SUM-ED: 0,3186 a 0,2377), SVM (SUM-ED: 0,1472 a 0,1282), Random Forest (SUM-ED: 0,1028 a 0,0860) y XGBoost (SUM- ED: 0,1632 a 0,1407) generalmente muestran una disminución en el nivel de sesgo, mientras que GPT-4 (SUM-ED:0,1025 a 0,1323)/GPT-3.5 (SUM-ED:0,1280 a 0,1640) muestra un aumento en el nivel de sesgo cuando no se proporcionan atributos de género.

Fig. 3: Comparación del rendimiento de precisión en el conjunto de datos de Jigsaw.
figura 3

Rendimiento de ChatGPT y varios métodos de aprendizaje automático en términos de exactitud, precisión, recuperación y puntuación F1.

Tabla 3 Comparación del rendimiento del sesgo en el conjunto de datos de Jigsaw.
Fig. 4: Comparación del rendimiento del sesgo en el conjunto de datos de Jigsaw.
figura 4

Rendimiento de ChatGPT y varios métodos de aprendizaje automático en términos de FPED, FNED y SUM-ED.

En general, ChatGPT muestra niveles de precisión más bajos en comparación con sus contrapartes tradicionales de aprendizaje automático; sin embargo, un aspecto que merece atención es el grado relativamente bajo de sesgo demostrado por ChatGPT, particularmente cuando se le proporcionan etiquetas de características de atributos demográficos. Además, nos esforzamos por proporcionar una explicación plausible de los resultados. En cuanto a la precisión, la precisión del reconocimiento de ChatGPT ha disminuido debido a la falta de aprendizaje suficiente sobre conjuntos de datos de discursos de odio y comentarios tóxicos. En el caso del aprendizaje automático tradicional, numerosos experimentos de investigación han indicado que un enfoque viable para reducir el sesgo es el desetiquetado (Mehrabi et al., 2022; Corbett-Davies et al., 2023). Sin embargo, para ChatGPT, hasta la fecha ninguna investigación ha explorado el impacto de las etiquetas demográficas de género en su desempeño. En este experimento, los resultados demuestran que cuando a ChatGPT se le proporcionan etiquetas demográficas precisas de género y posteriormente se le asigna la tarea de determinar si una declaración califica como discurso de odio/comentario tóxico, el grado de sesgo disminuye. Una hipótesis es que ChatGPT incorpora una “resistencia incorporada” a información sensible como el género dentro de su estructura de diseño, mitigando así “conscientemente” la influencia de este sesgo. Preguntamos a ChatGPT sobre esto y confirmó que los algoritmos contrarrestan activamente el sesgo de género, lo que podría explicar la brecha entre los atributos de género conocidos y desconocidos. Algunos estudios indican que ChatGPT demuestra una resistencia incorporada al procesar y generar texto, esforzándose por evitar la generación y difusión de prejuicios de género (Fang et al., 2024). Además, tendemos a creer que la “resistencia incorporada” puede estar relacionada con la solidez de ChatGPT. Wang y cols. (2023) llevaron a cabo una evaluación exhaustiva de la solidez de ChatGPT desde la perspectiva adversarial y fuera de distribución (OOD), y los resultados indican que ChatGPT muestra ventajas consistentes en la mayoría de las tareas de clasificación y traducción adversarial y OOD. Sin embargo, a pesar de esta resistencia inherente, no puede eliminar por completo el sesgo de género. Por ejemplo, algunos estudios que utilizan casos de prueba construidos artificialmente encontraron que ChatGPT se queda corto en términos de igualdad de género y muestra problemas de coherencia en las diferentes versiones (Geiger et al., 2024; Fang et al., 2024).

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

¿Es la locura de Chatgpt’s Studio Ghibli una bomba de tiempo de autor? Aquí está el veredicto de abogados expertos

Published

on


  • GPT-4O actualizado incluye una capacitación más profunda en una “variedad de estilos de imagen”
  • Los usuarios han creado imágenes replicando el aspecto dibujado a mano de Studio Ghibli
  • Renders plantea preguntas legales y éticas sobre el trabajo de los artistas vivos

Tl; Dr ¿Cuál es el debate?

Los fanáticos están utilizando el último modelo generativo de OpenAI para crear imágenes que imiten el estilo distintivo dibujado a mano de la casa de animación japonesa Studio Ghibli. Los creativos han cuestionado si esto es ético, ya que artistas como el fundador del estudio Hayao Miyazaki todavía están vivos. Los expertos legales sugieren que el estilo en sí no está protegido, pero su uso podría estarlo.

Si eres un habitual en X o Instagram, es probable que tu feed haya sido inundado esta semana por imágenes que parecen escenas de Enérgico. Pero estas animaciones de imitación no son el trabajo de la famosa compañía japonesa Studio Ghibli: son de ChatGPT. Y eso tiene algunos expertos en derechos de autor que sonan la alarma.

Hace solo unos días, Openai lanzó la última versión de GPT-4O, el modelo de IA generativo que sustenta ChatGPT. Esa actualización introdujo una representación de texto más precisa, la capacidad de comprender las indicaciones más complejas y, de manera crucial, un entrenamiento más profundo en una “variedad de estilos de imagen”.

Continue Reading

Noticias

La postura ‘poco ética’ de OpenAI en Studio Ghibli podría llevar a las marcas a ‘rechazar’ la gen ai

Published

on

La película de 2024 Hayao Miyazaki y The Heron cuenta la historia de Miyazaki, el fundador del estudio de animación Ghibli, y documenta cómo su trabajo minucioso lo consume; Su película The Boy and the Heron tardó siete años en hacer.

Vale la pena tener esto en cuenta al recordar cómo la semana pasada, después de la actualización de generación de imágenes 4O de Chatgpt, se soltó en el mundo y una tendencia surgió rápidamente. Los usuarios comenzaron a crear imágenes al estilo de los personajes animados de Studio Gibli.

Los resultados fueron principalmente personas que se metían y creaban un personaje a su propia imagen o personas famosas en situaciones de memes, lo que, mientras que en la superficie parecía lo suficientemente inofensivo, también provocó críticas de aquellos que explican que el universo de Studio Ghibli está cuidadosamente seleccionado y recurre al mundo natural. La ironía de esto también se planteó, dados los recursos energéticos que AI atrae.

¿Quieres profundizar? Preguntar el tambor


Luego estaban los usos bastante oscuros y sorprendentes, como el gobierno de los Estados Unidos que lo que impulsa esto de mal gusto.

Las consecuencias fueron rápidas y fuertes, impulsadas en particular por un comentario resurgido de Miyazaki, registrado en el documental de 2016 Never-Man: Hayao Miyazaki, donde él dice que dice: “Estoy completamente disgustado … Creo firmemente que esto es un insuficiente en sí mismo”, cuando se muestra un ejemplo de las capacidades de AI.

De acuerdo, esto fue hace algún tiempo y AI se ha movido de alguna manera, pero es bastante poco probable que Miyazaki haya estado aplaudiendo y riendo junto con la tendencia que es esencialmente un filtro de redes sociales.

Con los recursos y el alcance de Operai, es poco probable que la marca de ChatGPT haya sido dañada por el episodio de Ghibli y probablemente continuará entrenándose en todo lo que se ha creado al tiempo que mejora su precisión para intentar materializar el hiperrealismo rápido o un estilo afectado a pedido.

Simon Manchipp, experto en estrategia de marca y socio fundador de la agencia de diseño de alguien, llama a la última actualización de OpenAI “un vacío ético en el corazón de la IA generativa”. Él dice: “Esto no es innovación, es imitación a escala, con la reputación de Studio Gibli, basada en décadas de dominio artístico, reducida a un moderno truco de IA”.

¿La cultura ‘rechazará AI’?

Manchipp plantea la pregunta: “¿Cuánto tiempo más se arriesgarán las principales marcas de la reacción que viene con ‘arte’ generado por IA?

“Si Operai continúa por este camino sin control, corre el riesgo de más que solo un daño reputacional. Contiene el riesgo de crear un paisaje cultural donde el público rechaze activamente el contenido generado por la IA a favor del arte real. Y si las marcas se prevé, reconocerán que la asociación con artistas reales, no perseguir la última tendencia de la IA, es la única forma de garantizar que su trabajo sea valioso y respectado”. “..”..

A pesar de este desarrollo sin control, ChatGPT todavía no puede hacer lo que los artistas, animadores y estudios pueden, lo que es crear un cuerpo de trabajo con un punto de vista humano, que se muestra en toda su sutileza y caos.

El contexto legal

Sin embargo, en última instancia, esto no detendrá su progreso. Esta semana, observé el panorama legal para los creadores y cómo la ley de derechos de autor les está fallando en diferentes regiones del mundo (excepto Japón, posiblemente). Optar fuera es la única opción en este momento, pero dado que los modelos de idiomas grandes (LLM) ya han estudiado la mayoría de la información histórica, el daño ya está hecho.

Studio Ghibli ahora es, como muchos otros, a merced de LLM. Jon Cockley es el cofundador de la agencia de ilustración Handsome Frank, que tiene a personajes como Jean Jullien y Malika Favre en los libros y ofrecen servicios de animación. Su punto de vista es mixto, pero tiene claro cuán “salvaje” es la tendencia de Gibli y cómo está haciendo que los ilustradores “se sientan muy expuestos por ella”.

En el punto del estilo Chibli Chatgpt, Cockley refleja que “el estilo no es solo cómo dibujas, la textura y la paleta de colores, también es el tema, la idea y el punto de vista, el ángulo y el uso de la luz”.

Marcas que buscan artistas reales

A medida que Chatgpt continúa a un ritmo tan agresivo sin consideraciones éticas, Cockley, como Manchipp, siente que alejará a algunas marcas de la IA.

“Lo que estoy viendo de las marcas premium y de lujo (moda, hoteles y restaurantes) es que están reaccionando a la inundación de cosas de IA tratando de encargar el trabajo que se ve y se siente dirigido por artistas y claramente tiene la mano del creador en él”, dice Cockley, y agrega: “La IA es el mercado masivo, se percibe barato y eso lo devalúa”.

La tendencia de Ghibli Chatgpt está “completamente en desacuerdo con la tendencia en las redes sociales donde se requiere que los artistas salgan de detrás de su trabajo”, dice. Esto ha llevado a una mayor inversión en autenticidad realizada por los clientes. “Quieren videos de trabajo en progreso, contenido social y para que los artistas muestren sus caras. La marca no solo invierte en la obra de arte; quiere que el contenido muestre que ha funcionado con un artista, lo que obviamente no puede hacer”.

Este deseo de ser visto para trabajar con los creadores viene en conjunto con un rechazo de la estética que ai a menudo produce. La “apariencia de IA”, que él llama “una súper realidad”, generalmente “no es para clientes de lujo” que lo descartan, ya que se siente desastre.

Cockley contribuyó a una reciente revisión de derechos de autor del gobierno del Reino Unido sobre la IA y la propiedad, pero no tiene mucha esperanza en el frente legislativo, sino que aboga por los modelos propiedad de artistas, por lo que tiene un “optimismo cauteloso”.

La pelea

Recientemente hablé con Tonia Samsonova de Exacti.Ai, lo que brinda a los creadores la propiedad de su propio modelo para que puedan usarlo para sus propios fines iterativos, por ejemplo, en el trabajo del cliente, o hacerla pública para que se pueda pagar cuando un usuario hace algo en su estilo.

Después de las últimas actualizaciones de ChatGPT, Samsonova es inequívoco en su opinión de que el enfoque de Openii es “imprudente y poco ético” y ha obligado a muchas agencias de diseño y editores a adoptar políticas de AI.

Ella dice: “Me parece profundamente preocupante que una empresa que debería acelerar la innovación la está obstruyendo. La liberación de la función de transferencia de estilo de OpenAI hizo que sea completamente predecible que los usuarios comenzaran a disparar la pantalla del trabajo de otros para generar imágenes derivadas. Eso no es innovación, es un robo. imágenes.

“Aún más preocupante es la afirmación de OpenAI de que los usuarios tienen la propiedad sobre el contenido generado con sus herramientas, una afirmación que ignora por completo los derechos de los creadores originales”.

Ella ve su plataforma como en oposición directa a los productos OpenAI. “Estamos limpiando activamente el desorden creado por el enfoque de OpenAI y mostrando a la industria que la innovación ética no solo es posible, es esencial”.

Continue Reading

Noticias

El estudio sugiere que Openai no está esperando la exención de derechos de autor • El registro

Published

on

El magnate del libro de texto tecnológico Tim O’Reilly afirma que OpenAi minó los tomos protegidos por derechos de autor de su editorial para los datos de capacitación y lo alimentó con su modelo GPT-4O de primer nivel sin permiso.

Esto se produce cuando el advenedizo generativo de IA enfrenta demandas sobre su uso de material con derechos de autor, supuestamente sin el debido consentimiento o compensación, para capacitar a su familia de redes neuronales GPT. Openai niega cualquier irregularidad.

O’Reilly (el hombre) es uno de los tres autores de un estudio [PDF] Titulado “Más allá del acceso público en los datos de pre-entrenamiento de LLM: contenido de libros no públicos en los modelos de OpenAI”, emitido por el Proyecto de Divulgaciones de AI.

Por no público, los autores significan libros que están disponibles para humanos detrás de un muro de pago, y no están disponibles públicamente para leer de forma gratuita a menos que cuente sitios que piratean ilegalmente este tipo de material.

El trío se propuso determinar si GPT-4O tenía, sin el permiso del editor, haber ingerido 34 libros de medios O’Reilly de derechos de autor. Para sondear el modelo, que impulsa el chatgpt de fama mundial, realizaron los llamados ataques de inferencia de copas descritos en este documento previo a la presencia 2024.

Así es como funcionó: el equipo planteó el modelo de OpenAI una serie de preguntas de opción múltiple. Cada pregunta pidió al software que seleccionara de un grupo de párrafos, etiquetado A a D, el que es un paso de texto literal de un libro de O’Reilly (el editor). Una de las opciones se levantó directamente del libro, las otras parafrases generadas por ametralladoras del original.

Si el modelo OpenAI tendía a responder correctamente e identificar los párrafos literales, eso sugirió que probablemente estaba entrenado en ese texto con derechos de autor.

Más específicamente, las opciones del modelo se usaron para calcular lo que se denomina un área bajo la puntuación operativa del receptor (AUROC), con cifras más altas que indican una mayor probabilidad de que la red neuronal se entrenara en pasajes de los 34 libros de Reesilles. Mientras tanto, los puntajes más cercanos al 50 por ciento se consideraron una indicación de que el modelo no había sido entrenado en los datos.

Pruebas de modelos OpenAI GPT-3.5 Turbo y GPT-4O Mini, así como GPT-4O, en 13,962 párrafos descubiertos resultados mixtos.

GPT-4O, que se lanzó en mayo de 2024, obtuvo un 82 por ciento, una fuerte señal de que probablemente fue entrenada en el material del editor. Los investigadores especularon que OpenAI puede haber entrenado el modelo utilizando la base de datos de LibGen, que contiene los 34 libros probados. Puede recordar que Meta también ha sido acusado de capacitar a sus modelos de llama utilizando este notorio conjunto de datos.

El papel de los datos no públicos en los datos de pre-entrenamiento modelo de OpenAI ha aumentado significativamente con el tiempo

La puntuación AUROC para el modelo GPT-3.5 de 2022 llegó a poco más del 50 por ciento.

Los investigadores afirmaron que el puntaje más alto para GPT-4O es evidencia de que “el papel de los datos no públicos en los datos de pre-entrenamiento modelo de OpenAI ha aumentado significativamente con el tiempo”.

Sin embargo, el trío también encontró que el modelo GPT-4O más pequeño, también lanzado en 2024 después de un proceso de entrenamiento que terminó al mismo tiempo que el modelo GPT-4O completo, no aparentemente no estaba entrenado en los libros de O’Reilly. Piensan que no es un indicador que sus pruebas son defectuosas, pero que el recuento de parámetros más pequeño en el mini modelo puede afectar su capacidad de “recordar” el texto.

“Estos resultados resaltan la necesidad urgente de una mayor transparencia corporativa con respecto a las fuentes de datos de pre-entrenamiento como un medio para desarrollar marcos formales de licencia para la capacitación de contenido de IA”, escribieron los autores.

“Aunque la evidencia presente aquí sobre las violaciones de acceso al modelo es específica para los libros de medios de OpenAi y O’Reilly, este es probablemente un problema sistemático”, agregaron.

El trío, que incluyó a Sruly Rosenblat e Ilan Strauss, también advirtió que no podría resultar en compensar adecuadamente a los creadores por sus obras, y si puede perdonar la jerga, la presentación de todo Internet.

“Si las compañías de IA extraen valor de los materiales producidos de un creador de contenido sin compensar justicios al creador, corren el riesgo de agotar los recursos de los cuales dependen sus sistemas de IA”, argumentaron. “Si no se abordan, los datos de capacitación no compensados ​​podrían conducir a una espiral descendente en la calidad y diversidad de contenido de Internet”.

Los datos de capacitación no compensados ​​podrían conducir a una espiral descendente en la calidad y diversidad de contenido de Internet

Los gigantes de IA parecen saber que no pueden confiar en el raspado de Internet para encontrar el material que necesitan para entrenar modelos, ya que han comenzado a firmar acuerdos de licencia de contenido con editores y redes sociales. El año pasado, Operai Tinked acuerdos con Reddit y Time Magazine para acceder a sus archivos con fines de capacitación. Google también hizo un acuerdo con Reddit.

Recientemente, sin embargo, Operai ha instado al gobierno de los Estados Unidos a relajar las restricciones de derechos de autor de manera que facilitaría la capacitación de modelos de IA.

El mes pasado, el Super-Lab presentó una carta abierta a la Oficina de Ciencia y Tecnología de la Casa Blanca en la que argumentó que “las reglas rígidas de derechos de autor reproducen innovación e inversión”, y que si no se toma medidas para cambiar esto, los constructores de modelos chinos podrían superar a las empresas estadounidenses.

Mientras que los fabricantes de modelos aparentemente luchan, los abogados están bien. Como informamos recientemente, Thomson Reuters ganó un juicio sumario parcial contra Ross Intelligence después de que un tribunal de EE. UU. Descubrió que la startup había infringido los derechos de autor utilizando los notas de los Westlaw de Newswire para capacitar su sistema de IA.

Mientras que los entrenadores de redes neuronales presionan para un acceso sin restricciones, otros en el mundo tecnológico están introduciendo obstáculos para proteger el material con derechos de autor. El mes pasado, Cloudflare lanzó una IA de botes de bot diseñada para hacer la vida miserable para raspadores que ignoran las directivas de robots.txt.

El “laberinto de IA de AI” de Cloudflare funciona atrayendo a Rogue Crawler a los bots de Rogue en un laberinto de páginas de señuelo, desperdiciando su tiempo y calculando recursos mientras protege el contenido real.

Operai no respondió de inmediato a una solicitud de comentarios; Te avisaremos si escuchamos algo. ®

Continue Reading

Trending