Noticias

La mayoría de los sistemas de IA supuestamente “abiertos” están en realidad cerrados, y eso es un problema

Published

on

Los modelos de IA “abiertos” tienen mucho que ofrecer. La práctica de compartir el código fuente con el público estimula la innovación y democratiza la IA como herramienta.

O eso dice la historia. Un nuevo análisis en Naturaleza le da un giro a la narrativa: la mayoría de los modelos de IA supuestamente “abiertos”, como Meta’s Llama 3, no son eso.

En lugar de alentar o beneficiar a las pequeñas empresas emergentes, la “retórica de la apertura con frecuencia se esgrime de maneras que… exacerban la concentración de poder” en las grandes empresas tecnológicas, escribieron David Widder de la Universidad de Cornell, Meredith Whittaker de la Signal Foundation y Sarah West de AI Now. Instituto.

¿Por qué preocuparse? Debatir sobre la apertura de la IA parece puramente académico. Pero con el creciente uso de ChatGPT y otros grandes modelos de lenguaje, los responsables políticos están luchando por ponerse al día. ¿Se pueden permitir modelos en escuelas o empresas? ¿Qué guías deberían existir para proteger contra el mal uso?

Y quizás lo más importante es que la mayoría de los modelos de IA están controlados por Google, Meta y otros gigantes tecnológicos, que tienen la infraestructura y los medios financieros para desarrollar o licenciar la tecnología y, a su vez, guiar la evolución de la IA para cumplir con sus incentivos financieros.

Los legisladores de todo el mundo han tomado nota. Este año, la Unión Europea adoptó la Ley de IA, la primera legislación integral del mundo para garantizar que los sistemas de IA utilizados sean “seguros, transparentes, no discriminatorios y respetuosos con el medio ambiente”. En septiembre, había más de 120 proyectos de ley sobre IA en el Congreso, que velaban por la privacidad, la rendición de cuentas y la transparencia.

En teoría, los modelos abiertos de IA pueden satisfacer esas necesidades. Pero “cuando se están dando forma a las políticas, las definiciones importan”, escribió el equipo.

En el nuevo análisis, desglosaron el concepto de “apertura” en los modelos de IA a lo largo de todo el ciclo de desarrollo y señalaron cómo se puede utilizar mal el término.

¿Qué es la ‘apertura’?

El término “código abierto” es casi tan antiguo como el propio software.

A principios de siglo, pequeños grupos de rebeldes informáticos publicaron códigos de software gratuito que cualquiera podía descargar y utilizar desafiando el control corporativo. Tenían una visión: el software de código abierto, como los procesadores de texto disponibles gratuitamente similares a los de Microsoft, podrían nivelar el campo de juego para los pequeños y permitir el acceso a personas que no podían permitirse la tecnología. El código también se convirtió en un campo de juego, donde los entusiastas ingenieros de software juguetearon con el código para descubrir fallas que necesitaban solución, lo que resultó en un software más utilizable y seguro.

Con la IA, la historia es diferente. Los grandes modelos de lenguaje se construyen con numerosas capas de “neuronas” artificiales interconectadas. Al igual que sus contrapartes biológicas, la estructura de esas conexiones influye en gran medida en el desempeño de un modelo en una tarea específica.

Los modelos se entrenan buscando en Internet textos, imágenes y, cada vez más, vídeos. A medida que estos datos de entrenamiento fluyen a través de sus redes neuronales, ajustan las fortalezas de las conexiones de sus neuronas artificiales (llamadas “pesos”) para que generen los resultados deseados. Luego, la mayoría de los sistemas son evaluados por personas para juzgar la precisión y la calidad de los resultados.

¿El problema? Comprender los procesos internos de estos sistemas no es sencillo. A diferencia del software tradicional, compartir solo los pesos y el código de un modelo de IA, sin los datos de entrenamiento subyacentes, dificulta que otras personas detecten posibles errores o amenazas a la seguridad.

Esto significa que conceptos previos del software de código abierto se están aplicando de “formas que no se adaptan a los sistemas de IA”, escribió el equipo, lo que genera confusión sobre el término.

lavado a cielo abierto

Los modelos de IA “abiertos” actuales abarcan un rango de apertura, pero en general tienen tres características principales.

Uno es la transparencia, o cuántos detalles sobre la configuración de un modelo de IA publica su creador. La serie Pythia de Eleuther AI, por ejemplo, permite a cualquiera descargar el código fuente, los datos de entrenamiento subyacentes y la documentación completa. También otorgan licencias del modelo de IA para una amplia reutilización, cumpliendo con la definición de “código abierto” de la Open Source Initiative, una organización sin fines de lucro que ha definido el término a medida que ha evolucionado durante casi tres décadas. En contraste, Llama 3 de Meta, aunque se describe como abierto, solo permite a las personas desarrollar su IA a través de una API (una especie de interfaz que permite que diferentes software se comuniquen, sin compartir el código subyacente) o descargar solo los pesos del modelo para jugar, pero con restricciones a su uso.

“Se trata de sistemas de ‘lavado abierto’ que se entienden mejor como cerrados”, escribieron los autores.

Una segunda característica es la reutilización, en el sentido de que otras personas pueden utilizar datos y detalles de un modelo de IA con licencia abierta (aunque a menudo solo a través de un servicio en la nube; hablaremos de esto más adelante). modelos para sus necesidades específicas.

“[This] “Es una característica clave defendida particularmente por los actores corporativos que invierten en la IA abierta”, escribió el equipo. Hay una razón: entrenar modelos de IA requiere una enorme potencia informática y recursos, que a menudo sólo están disponibles para las grandes empresas de tecnología. Llama 3, por ejemplo, fue entrenada con 15 billones de tokens, una unidad para procesar datos, como palabras o caracteres. Estos puntos críticos dificultan que las nuevas empresas creen sistemas de inteligencia artificial desde cero. En cambio, a menudo reentrenan sistemas “abiertos” para adaptarlos a una nueva tarea o ejecutarlos de manera más eficiente. El modelo AI Alpaca de Stanford, basado en Llama, por ejemplo, ganó interés por el hecho de que podía ejecutarse en una computadora portátil.

No hay duda de que muchas personas y empresas se han beneficiado de los modelos abiertos de IA. Pero para los autores, también pueden ser una barrera para la democratización de la IA.

El lado oscuro

Muchos sistemas abiertos de IA a gran escala hoy en día se entrenan en servidores en la nube, señalan los autores. El Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos desarrolló Falcon 40B y lo entrenó en los servidores AWS de Amazon. La IA de MosaicML está “vinculada a Azure de Microsoft”. Incluso OpenAI se ha asociado con Microsoft para ofrecer sus nuevos modelos de IA a un precio.

Si bien la computación en la nube es extremadamente útil, limita quién puede realmente ejecutar modelos de IA en un puñado de grandes empresas y sus servidores. Alpaca de Stanford finalmente cerró parcialmente debido a la falta de recursos financieros.

El secreto en torno a los datos de entrenamiento es otra preocupación. “Muchos modelos de IA a gran escala se describen como negligencia abierta a la hora de proporcionar incluso información básica sobre los datos subyacentes utilizados para entrenar el sistema”, escribieron los autores.

Los grandes modelos de lenguaje procesan enormes cantidades de datos extraídos de Internet, algunos de los cuales tienen derechos de autor, lo que da lugar a una serie de demandas en curso. Cuando los conjuntos de datos no están disponibles fácilmente, o cuando son increíblemente grandes, es difícil verificar el rendimiento informado del modelo, o si los conjuntos de datos “blanquean la propiedad intelectual de otros”, según los autores.

El problema empeora cuando se construyen frameworks, a menudo desarrollados por grandes empresas tecnológicas, para minimizar el tiempo”[reinventing] la rueda”. Estos fragmentos de código, flujos de trabajo y herramientas de evaluación preescritos ayudan a los desarrolladores a desarrollar rápidamente un sistema de inteligencia artificial. Sin embargo, la mayoría de los ajustes no cambian el modelo en sí. En otras palabras, cualquier problema o sesgo potencial que exista dentro de los modelos también podría propagarse a las aplicaciones posteriores.

Un ecosistema de IA

Para los autores, desarrollar una IA que sea más abierta no se trata de evaluar un modelo a la vez. Más bien, se trata de tener en cuenta todo el ecosistema.

La mayoría de los debates sobre la apertura de la IA pasan por alto el panorama general. A medida que la IA avance, “es poco probable que la búsqueda de la apertura por sí sola produzca muchos beneficios”, escribió el equipo. En cambio, al elaborar políticas abiertas de IA se debe considerar todo el ciclo de desarrollo de la IA, desde la creación, la capacitación y el funcionamiento de sistemas de IA hasta sus usos prácticos y sus incentivos financieros.

“Fijar nuestras esperanzas en una IA ‘abierta’ de forma aislada no nos llevará a ese mundo”, escribió el equipo.

Crédito de la imagen: x / x

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version