Las redes sociales se han inundado recientemente con imágenes que parecían pertenecer a una película de Studio Ghibli. Los selfies, las fotos familiares e incluso los memes han sido reimaginados con la paleta suave y pastel característica de la compañía de animación japonesa fundada por Hayao Miyazaki.
Esto siguió a la última actualización de Openai a ChatGPT. La actualización mejoró significativamente las capacidades de generación de imágenes de CHATGPT, lo que permite a los usuarios crear imágenes convincentes de estilo ghibli en solo segundos. Ha sido enormemente popular, tanto así, de hecho, que el sistema se bloqueó debido a la demanda del usuario.
Los sistemas generativos de inteligencia artificial (IA) como ChatGPT se entienden mejor como “motores de estilo”. Y lo que estamos viendo ahora es que estos sistemas ofrecen a los usuarios más precisión y control que nunca.
Pero esto también está planteando preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.
Cómo el nuevo chatgpt hace imágenes
Los programas generativos de IA funcionan produciendo salidas en respuesta a las indicaciones del usuario, incluidas las indicaciones para crear una imagen.
Generaciones anteriores de generadores de imágenes AI utilizaron modelos de difusión. Estos modelos refinan gradualmente datos aleatorios y ruidosos en una imagen coherente. Pero la última actualización de ChatGPT utiliza lo que se conoce como un “algoritmo autorregresivo”.
Este algoritmo trata las imágenes más como el lenguaje, descomponiéndolas en “tokens”. Así como ChatGPT predice las palabras más probables en una oración, ahora puede predecir diferentes elementos visuales en una imagen por separado.
Esta tokenización permite que el algoritmo separe mejor ciertas características de una imagen, y su relación con las palabras en un aviso. Como resultado, ChatGPT puede crear imágenes con mayor precisión a partir de indicaciones precisas del usuario que las generaciones anteriores de generadores de imágenes. Puede reemplazar o cambiar las características específicas al tiempo que preserva el resto de la imagen, y mejora el tema de larga data de generar texto correcto en las imágenes.
Una ventaja particularmente poderosa de generar imágenes dentro de un modelo de lenguaje grande es la capacidad de recurrir a todo el conocimiento ya codificado en el sistema. Esto significa que los usuarios no necesitan describir todos los aspectos de una imagen con detalles minuciosos. Simplemente pueden referirse a conceptos como Studio Ghibli y la IA entiende la referencia.
La reciente tendencia de Studio Ghibli comenzó con OpenAi en sí, antes de difundirse entre los ingenieros de software de Silcon Valley y luego incluso gobiernos y políticos, incluidos usos aparentemente improbables, como la Casa Blanca, que crea una imagen giblificada de una mujer que llora siendo deportada y el gobierno indio que promueve la narrativa del primer ministro Narendra Modi de una “nueva India”.
Comprender la IA como ‘motores de estilo’
Los sistemas generativos de IA no almacenan información en ningún sentido tradicional. En cambio, codifican texto, hechos o fragmentos de imagen como patrones, o “estilos”, dentro de sus redes neuronales.
Entrenados en grandes cantidades de datos, los modelos de IA aprenden a reconocer patrones en múltiples niveles. Las capas de red inferiores pueden capturar características básicas como relaciones de palabras o texturas visuales. Las capas más altas codifican conceptos o elementos visuales más complejos.
Esto significa que todo (objetos, propiedades, géneros de escritura, voces profesionales) se transforma en estilos. Cuando AI se entera del trabajo de Miyazaki, no almacena marcos reales de Studio Gibli (aunque los generadores de imágenes a veces pueden producir imitaciones cercanas de imágenes de entrada). En cambio, está codificando la “ghibli-ness” como un patrón matemático, un estilo que se puede aplicar a nuevas imágenes.
Lo mismo sucede con los plátanos, los gatos o los correos electrónicos corporativos. La IA aprende “plátano”, “gato” o “correo electrónico corporativo”, patrones que definen lo que hace que algo sea reconocible un plátano, un gato o una comunicación profesional.
La codificación y transferencia de estilos ha sido durante mucho tiempo un objetivo expreso en la IA visual. Ahora tenemos un generador de imágenes que logra esto con una escala y control sin precedentes.
Este enfoque desbloquea posibilidades creativas notables tanto en texto como en imágenes. Si todo es un estilo, entonces estos estilos se pueden combinar y transferir libremente. Es por eso que nos referimos a estos sistemas como “motores de estilo”. Intente crear un sillón al estilo de un gato o en estilo
La controversia de los derechos de autor: cuando los estilos se convierten en identidad
Si bien la capacidad de trabajar con estilos es lo que hace que la IA generativa sea tan poderosa, también está en el corazón de la creciente controversia. Para muchos artistas, hay algo profundamente inquietante en ver sus enfoques artísticos distintivos reducidos a solo otro “estilo” que cualquiera puede aplicar con un mensaje de texto simple.
Hayao Miyazaki no ha comentado públicamente sobre la tendencia reciente de las personas que usan ChatGPT para generar imágenes en su estilo de animación de fama mundial. Pero él ha sido crítico con la IA anteriormente.
Todo esto también plantea preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.
Tradicionalmente, la ley de derechos de autor no protege los estilos, solo expresiones específicas. No puedes derechos de autor de un género musical como “SKA” o un movimiento de arte como “Impresionismo”.
Esta limitación existe por una buena razón. Si alguien pudiera monopolizar un estilo completo, sofocaría la expresión creativa para todos los demás.
Pero hay una diferencia entre los estilos generales y los muy distintivos que se vuelven casi sinónimos de la identidad de alguien. Cuando una IA puede generar trabajo “al estilo de Greg Rutkowski”, un artista polaco cuyo nombre se usó en más de 93,000 indicaciones en la difusión estable del generador de imágenes de IA: potencialmente amenaza tanto su sustento como su legado artístico.
Algunos creadores ya han tomado acciones legales.
En un caso presentado a fines de 2022, tres artistas formaron una clase para demandar a múltiples compañías de IA, argumentando que sus generadores de imágenes estaban capacitados en sus trabajos originales sin permiso, y ahora permiten a los usuarios generar trabajos derivados que imitan sus estilos distintivos.
A medida que la tecnología evoluciona más rápido que la ley, el trabajo está en marcha en una nueva legislación para tratar de equilibrar la innovación tecnológica con la protección de las identidades creativas de los artistas.
Cualquiera sea el resultado, estos debates resaltan la naturaleza transformadora de los motores de estilo AI, y la necesidad de considerar tanto su potencial creativo sin explotar como su protección más matizada de estilos artísticos distintivos.