Los modelos tradicionales solo pueden procesar un solo tipo de datos, como texto, imágenes o datos tabulares. La multimodalidad es un concepto de tendencia en la comunidad de investigación de IA, que se refiere a la capacidad de un modelo para aprender de múltiples tipos de datos simultáneamente. Esta nueva tecnología (no es realmente nueva, pero mejoró significativamente en los últimos meses) tiene numerosas aplicaciones potenciales que transformarán la experiencia del usuario de muchos productos.
Un buen ejemplo sería la nueva forma en que los motores de búsqueda funcionarán en el futuro, donde los usuarios pueden ingresar consultas utilizando una combinación de modalidades, como texto, imágenes, audio, etc. Otro ejemplo podría ser mejorar los sistemas de atención al cliente con AI para la voz. e entradas de texto. En el comercio electrónico, están mejorando el descubrimiento de productos al permitir a los usuarios buscar usando imágenes y texto. Usaremos este último como nuestro estudio de caso en este artículo.
Los laboratorios de investigación de IA Frontier están enviando varios modelos que admiten múltiples modalidades cada mes. Clip y Dall-E por OpenAI y Blip-2 por Salesforce Combine Image and Text. ImageBind por meta expandió el concepto de modalidad múltiple a seis modalidades (texto, audio, profundidad, térmica, imagen y unidades de medición inerciales).
En este artículo, exploraremos Blip-2 explicando su arquitectura, la forma en que funciona su función de pérdida y su proceso de capacitación. También presentamos un caso de uso práctico que combina Blip-2 y Gemini para crear un agente de búsqueda de moda multimodal que pueda ayudar a los clientes a encontrar el mejor atuendo basado en texto o mensajes de texto e indicaciones de imagen.
Figura 1: Agente de búsqueda multimodal (imagen del autor con Gemini)
Como siempre, el código está disponible en nuestro GitHub.
Blip-2: un modelo multimodal
Blip-2 (pre-entrenamiento de imagen de lenguaje de arranque) [1] es un modelo de lenguaje de visión diseñado para resolver tareas como la respuesta de las preguntas visuales o el razonamiento multimodal basado en entradas de ambas modalidades: imagen y texto. Como veremos a continuación, este modelo se desarrolló para abordar dos desafíos principales en el dominio del idioma de la visión:
Reducir el costo computacional Utilizando codificadores visuales pre-entrenados congelados y LLM, reduciendo drásticamente los recursos de capacitación necesarios en comparación con una capacitación conjunta de redes de visión e idiomas.
Mejora de la alineación del idioma visual Al introducir Q-former. Q-Former acerca los incrustaciones visuales y textuales, lo que lleva a un mejor rendimiento de la tarea de razonamiento y la capacidad de realizar una recuperación multimodal.
Arquitectura
La arquitectura de Blip-2 sigue un diseño modular que integra tres módulos:
VisualCodificador es un modelo visual congelado, como VIT, que extrae incrustaciones visuales de las imágenes de entrada (que luego se usan en tareas aguas abajo).
Consulta Transformador (Q-Former) es la clave de esta arquitectura. Consiste en un transformador ligero entrenable que actúa como una capa intermedia entre los modelos visuales y de lenguaje. Es responsable de generar consultas contextualizadas a partir de los incrustaciones visuales para que el modelo de lenguaje pueda procesarlos de manera efectiva.
LLM es un LLM pre-capacitado congelado que procesa incrustaciones visuales refinadas para generar descripciones o respuestas textuales.
Figura 2: Arquitectura Blip-2 (Imagen del autor)
Funciones de pérdida
Blip-2 tiene tres funciones de pérdida para entrenar el Q-formador módulo:
Pérdida de texto de texto [2] Haga cumplir la alineación entre los incrustaciones visuales y de texto maximizando la similitud de las representaciones emparejadas de texto de imagen mientras se separa pares diferentes.
Pérdida de coincidencia de texto de imagen [3] es una pérdida de clasificación binaria que tiene como objetivo hacer que el modelo aprenda alineaciones de grano fino predecir si una descripción de texto coincide con la imagen (positivo, es decir, objetivo = 1) o no (negativo, es decir, objetivo = 0).
Pérdida de generación de texto con conexión a imagen [4] es una pérdida de entropía cruzada utilizada en LLM para predecir la probabilidad del siguiente token en la secuencia. La arquitectura Q-former no permite interacciones entre los incrustaciones de la imagen y los tokens de texto; Por lo tanto, el texto debe generarse basándose únicamente en la información visual, lo que obliga al modelo a extraer características visuales relevantes.
Para ambosPérdida de contraste de texto mago y Pérdida de coincidencia de texto de imagenlos autores utilizaron un muestreo negativo en lotes, lo que significa que si tenemos un tamaño por lotes de 512, cada par de texto de imagen tiene una muestra positiva y 511 muestras negativas. Este enfoque aumenta la eficiencia ya que las muestras negativas se toman del lote, y no hay necesidad de buscar todo el conjunto de datos. También proporciona un conjunto más diverso de comparaciones, lo que lleva a una mejor estimación de gradiente y una convergencia más rápida.
Figura 3: Pérdidas de capacitación explicadas (Imagen del autor)
Proceso de capacitación
El entrenamiento de Blip-2 consta de dos etapas:
Etapa 1-Bootstrapping Representación visual en idioma:
El modelo recibe imágenes como entrada que se convierten en una incrustación utilizando el codificador visual congelado.
Junto con estas imágenes, el modelo recibe sus descripciones de texto, que también se convierten en incrustaciones.
El Q-former está entrenado usando pérdida de texto de textoasegurando que las integridades visuales se alineen estrechamente con sus incrustaciones textuales correspondientes y se aleje más de las descripciones de texto que no coinciden. Al mismo tiempo, el Pérdida de coincidencia de texto de imagen Ayuda al modelo a desarrollar representaciones de grano fino aprendiendo a clasificar si un texto determinado describe correctamente la imagen o no.
Figura 4: Proceso de capacitación en la etapa 1 (Imagen del autor)
Etapa 2-Bootstrapping Vision-to Language Generation:
El modelo de lenguaje previamente capacitado está integrado en la arquitectura para generar texto basado en las representaciones previamente aprendidas.
El enfoque cambia de la alineación a la generación de texto mediante el uso de la pérdida de generación de texto con conexión a imagen que mejora las capacidades del modelo de razonamiento y generación de texto.
Figura 5: Proceso de capacitación de la etapa 2 (imagen del autor)
Creación de un agente de búsqueda de moda multimodal usando Blip-2 y Gemini
En esta sección, aprovecharemos las capacidades multimodales de Blip-2 para construir un agente de búsqueda de asistente de moda que pueda recibir texto de entrada y/o imágenes y recomendaciones de devolver. Para las capacidades de conversación del agente, utilizaremos Gemini 1.5 Pro alojado en Vertex AI, y para la interfaz, construiremos una aplicación de transmisión.
El conjunto de datos de moda utilizado en este caso de uso tiene licencia bajo la licencia MIT y se puede acceder a través del siguiente enlace: conjunto de datos de imágenes de productos de moda. Consiste en más de 44k imágenes de productos de moda.
El primer paso para hacer esto posible es configurar un Vector DB. Esto permite al agente realizar una búsqueda vectorizada basada en los incrustaciones de la imagen de los elementos disponibles en la tienda y los incrustaciones de texto o imagen de la entrada. Utilizamos Docker y Docker-Compose para ayudarnos a establecer el medio ambiente:
Compuesto de acopolador con Postgres (la base de datos) y la extensión PGVector que permite la búsqueda vectorizada.
Una vez que el Vector DB está configurado (Docker -Compose Up -D), es hora de crear los agentes y herramientas para realizar una búsqueda multimodal. Construimos dos agentes para resolver este caso de uso: uno para comprender lo que el usuario solicita y otro para proporcionar la recomendación:
El clasificador es responsable de recibir el mensaje de entrada del cliente y extraer qué categoría de ropa está buscando, por ejemplo, camisetas, pantalones, zapatos, camisetas o camisas. También devolverá la cantidad de artículos que el cliente desea para que podamos recuperar el número exacto del Vector DB.
from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_google_vertexai import ChatVertexAI
from pydantic import BaseModel, Field
class ClassifierOutput(BaseModel):
"""
Data structure for the model's output.
"""
category: list = Field(
description="A list of clothes category to search for ('t-shirt', 'pants', 'shoes', 'jersey', 'shirt')."
)
number_of_items: int = Field(description="The number of items we should retrieve.")
class Classifier:
"""
Classifier class for classification of input text.
"""
def __init__(self, model: ChatVertexAI) -> None:
"""
Initialize the Chain class by creating the chain.
Args:
model (ChatVertexAI): The LLM model.
"""
super().__init__()
parser = PydanticOutputParser(pydantic_object=ClassifierOutput)
text_prompt = """
You are a fashion assistant expert on understanding what a customer needs and on extracting the category or categories of clothes a customer wants from the given text.
Text:
text
Instructions:
1. Read carefully the text.
2. Extract the category or categories of clothes the customer is looking for, it can be:
- t-shirt if the custimer is looking for a t-shirt.
- pants if the customer is looking for pants.
- jacket if the customer is looking for a jacket.
- shoes if the customer is looking for shoes.
- jersey if the customer is looking for a jersey.
- shirt if the customer is looking for a shirt.
3. If the customer is looking for multiple items of the same category, return the number of items we should retrieve. If not specfied but the user asked for more than 1, return 2.
4. If the customer is looking for multiple category, the number of items should be 1.
5. Return a valid JSON with the categories found, the key must be 'category' and the value must be a list with the categories found and 'number_of_items' with the number of items we should retrieve.
Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below.
format_instructions
Answer:
"""
prompt = PromptTemplate.from_template(
text_prompt, partial_variables="format_instructions": parser.get_format_instructions()
)
self.chain = prompt | model | parser
def classify(self, text: str) -> ClassifierOutput:
"""
Get the category from the model based on the text context.
Args:
text (str): user message.
Returns:
ClassifierOutput: The model's answer.
"""
try:
return self.chain.invoke("text": text)
except Exception as e:
raise RuntimeError(f"Error invoking the chain: e")
El asistente es responsable de responder con una recomendación personalizada recuperada del Vector DB. En este caso, también estamos aprovechando las capacidades multimodales de Gemini para analizar las imágenes recuperadas y producir una mejor respuesta.
from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_google_vertexai import ChatVertexAI
from pydantic import BaseModel, Field
class AssistantOutput(BaseModel):
"""
Data structure for the model's output.
"""
answer: str = Field(description="A string with the fashion advice for the customer.")
class Assistant:
"""
Assitant class for providing fashion advice.
"""
def __init__(self, model: ChatVertexAI) -> None:
"""
Initialize the Chain class by creating the chain.
Args:
model (ChatVertexAI): The LLM model.
"""
super().__init__()
parser = PydanticOutputParser(pydantic_object=AssistantOutput)
text_prompt = """
You work for a fashion store and you are a fashion assistant expert on understanding what a customer needs.
Based on the items that are available in the store and the customer message below, provide a fashion advice for the customer.
Number of items: number_of_items
Images of items:
items
Customer message:
customer_message
Instructions:
1. Check carefully the images provided.
2. Read carefully the customer needs.
3. Provide a fashion advice for the customer based on the items and customer message.
4. Return a valid JSON with the advice, the key must be 'answer' and the value must be a string with your advice.
Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below.
format_instructions
Answer:
"""
prompt = PromptTemplate.from_template(
text_prompt, partial_variables="format_instructions": parser.get_format_instructions()
)
self.chain = prompt | model | parser
def get_advice(self, text: str, items: list, number_of_items: int) -> AssistantOutput:
"""
Get advice from the model based on the text and items context.
Args:
text (str): user message.
items (list): items found for the customer.
number_of_items (int): number of items to be retrieved.
Returns:
AssistantOutput: The model's answer.
"""
try:
return self.chain.invoke("customer_message": text, "items": items, "number_of_items": number_of_items)
except Exception as e:
raise RuntimeError(f"Error invoking the chain: e")
En términos de herramientas, definimos uno basado en Blip-2. Consiste en una función que recibe un texto o imagen como entrada y devuelve incrustaciones normalizadas. Dependiendo de la entrada, los incrustaciones se producen utilizando el modelo de incrustación de texto o el modelo de incrustación de imagen de Blip-2.
from typing import Optional
import numpy as np
import torch
import torch.nn.functional as F
from PIL import Image
from PIL.JpegImagePlugin import JpegImageFile
from transformers import AutoProcessor, Blip2TextModelWithProjection, Blip2VisionModelWithProjection
PROCESSOR = AutoProcessor.from_pretrained("Salesforce/blip2-itm-vit-g")
TEXT_MODEL = Blip2TextModelWithProjection.from_pretrained("Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32).to(
"cpu"
)
IMAGE_MODEL = Blip2VisionModelWithProjection.from_pretrained(
"Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32
).to("cpu")
def generate_embeddings(text: Optional[str] = None, image: Optional[JpegImageFile] = None) -> np.ndarray:
"""
Generate embeddings from text or image using the Blip2 model.
Args:
text (Optional[str]): customer input text
image (Optional[Image]): customer input image
Returns:
np.ndarray: embedding vector
"""
if text:
inputs = PROCESSOR(text=text, return_tensors="pt").to("cpu")
outputs = TEXT_MODEL(**inputs)
embedding = F.normalize(outputs.text_embeds, p=2, dim=1)[:, 0, :].detach().numpy().flatten()
else:
inputs = PROCESSOR(images=image, return_tensors="pt").to("cpu", torch.float16)
outputs = IMAGE_MODEL(**inputs)
embedding = F.normalize(outputs.image_embeds, p=2, dim=1).mean(dim=1).detach().numpy().flatten()
return embedding
Tenga en cuenta que creamos la conexión a PGVector con un modelo de incrustación diferente porque es obligatorio, aunque no se utilizará ya que almacenaremos los incrustaciones producidos por Blip-2 directamente.
En el ciclo a continuación, iteramos sobre todas las categorías de ropa, cargamos las imágenes y creamos y agreguamos las incrustaciones que se almacenarán en el Vector DB en una lista. Además, almacenamos la ruta a la imagen como texto para que podamos representarla en nuestra aplicación de transmisión. Finalmente, almacenamos la categoría para filtrar los resultados en función de la categoría predicha por el agente del clasificador.
import glob
import os
from dotenv import load_dotenv
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain_postgres.vectorstores import PGVector
from PIL import Image
from blip2 import generate_embeddings
load_dotenv("env/connection.env")
CONNECTION_STRING = PGVector.connection_string_from_db_params(
driver=os.getenv("DRIVER"),
host=os.getenv("HOST"),
port=os.getenv("PORT"),
database=os.getenv("DATABASE"),
user=os.getenv("USERNAME"),
password=os.getenv("PASSWORD"),
)
vector_db = PGVector(
embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"), # does not matter for our use case
collection_name="fashion",
connection=CONNECTION_STRING,
use_jsonb=True,
)
if __name__ == "__main__":
# generate image embeddings
# save path to image in text
# save category in metadata
texts = []
embeddings = []
metadatas = []
for category in glob.glob("images/*"):
cat = category.split("/")[-1]
for img in glob.glob(f"category/*"):
texts.append(img)
embeddings.append(generate_embeddings(image=Image.open(img)).tolist())
metadatas.append("category": cat)
vector_db.add_embeddings(texts, embeddings, metadatas)
Ahora podemos construir nuestra aplicación aerodinámica para chatear con nuestro asistente y pedir recomendaciones. El chat comienza con el agente preguntando cómo puede ayudar y proporcionar un cuadro para que el cliente escriba un mensaje y/o cargue un archivo.
Una vez que el cliente responde, el flujo de trabajo es el siguiente:
El agente del clasificador identifica qué categorías de ropa está buscando el cliente y cuántas unidades desean.
Si el cliente carga un archivo, este archivo se convertirá en una incrustación, y buscaremos elementos similares en el Vector DB, condicionado por la categoría de ropa que el cliente desea y la cantidad de unidades.
Los elementos recuperados y el mensaje de entrada del cliente se envían al agente asistente para producir el mensaje de recomendación que se transforma junto con las imágenes recuperadas.
Si el cliente no cargó un archivo, el proceso es el mismo, pero en lugar de generar insertos de imagen para la recuperación, creamos incrustaciones de texto.
import os
import streamlit as st
from dotenv import load_dotenv
from langchain_google_vertexai import ChatVertexAI
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain_postgres.vectorstores import PGVector
from PIL import Image
import utils
from assistant import Assistant
from blip2 import generate_embeddings
from classifier import Classifier
load_dotenv("env/connection.env")
load_dotenv("env/llm.env")
CONNECTION_STRING = PGVector.connection_string_from_db_params(
driver=os.getenv("DRIVER"),
host=os.getenv("HOST"),
port=os.getenv("PORT"),
database=os.getenv("DATABASE"),
user=os.getenv("USERNAME"),
password=os.getenv("PASSWORD"),
)
vector_db = PGVector(
embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"), # does not matter for our use case
collection_name="fashion",
connection=CONNECTION_STRING,
use_jsonb=True,
)
model = ChatVertexAI(model_name=os.getenv("MODEL_NAME"), project=os.getenv("PROJECT_ID"), temperarture=0.0)
classifier = Classifier(model)
assistant = Assistant(model)
st.title("Welcome to ZAAI's Fashion Assistant")
user_input = st.text_input("Hi, I'm ZAAI's Fashion Assistant. How can I help you today?")
uploaded_file = st.file_uploader("Upload an image", type=["jpg", "jpeg", "png"])
if st.button("Submit"):
# understand what the user is asking for
classification = classifier.classify(user_input)
if uploaded_file:
image = Image.open(uploaded_file)
image.save("input_image.jpg")
embedding = generate_embeddings(image=image)
else:
# create text embeddings in case the user does not upload an image
embedding = generate_embeddings(text=user_input)
# create a list of items to be retrieved and the path
retrieved_items = []
retrieved_items_path = []
for item in classification.category:
clothes = vector_db.similarity_search_by_vector(
embedding, k=classification.number_of_items, filter="category": "$in": [item]
)
for clothe in clothes:
retrieved_items.append("bytesBase64Encoded": utils.encode_image_to_base64(clothe.page_content))
retrieved_items_path.append(clothe.page_content)
# get assistant's recommendation
assistant_output = assistant.get_advice(user_input, retrieved_items, len(retrieved_items))
st.write(assistant_output.answer)
cols = st.columns(len(retrieved_items)+1)
for col, retrieved_item in zip(cols, ["input_image.jpg"]+retrieved_items_path):
col.image(retrieved_item)
user_input = st.text_input("")
else:
st.warning("Please provide text.")
Ambos ejemplos se pueden ver a continuación:
La Figura 6 muestra un ejemplo en el que el cliente cargó una imagen de una camiseta roja y le pidió al agente que completara el atuendo.
Figura 6: Ejemplo de entrada e entrada de imagen (imagen por autor)
La Figura 7 muestra un ejemplo más directo en el que el cliente le pidió al agente que les mostrara camisetas negras.
Figura 7: Ejemplo de entrada de texto (imagen por autor)
Conclusión
La IA multimodal ya no es solo un tema de investigación. Se está utilizando en la industria para remodelar la forma en que los clientes interactúan con los catálogos de la empresa. En este artículo, exploramos cómo se pueden combinar modelos multimodales como Blip-2 y Gemini para abordar los problemas del mundo real y proporcionar una experiencia más personalizada a los clientes de una manera escalable.
Exploramos la arquitectura de Blip-2 en profundidad, demostrando cómo une la brecha entre las modalidades de texto y imagen. Para extender sus capacidades, desarrollamos un sistema de agentes, cada uno especializado en diferentes tareas. Este sistema integra un LLM (Gemini) y una base de datos vectorial, lo que permite la recuperación del catálogo de productos utilizando incrustaciones de texto e imágenes. También aprovechamos el razonamiento multimodal de Géminis para mejorar las respuestas del agente de ventas para ser más humanos.
Con herramientas como Blip-2, Gemini y PG Vector, el futuro de la búsqueda y recuperación multimodal ya está sucediendo, y los motores de búsqueda del futuro se verán muy diferentes de los que usamos hoy.
Acerca de mí
Empresario en serie y líder en el espacio de IA. Desarrollo productos de IA para empresas e invierto en nuevas empresas centradas en la IA.
Fundador @ Zaai | LinkedIn | X/Twitter
Referencias
[1] Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi. 2023. BLIP-2: Bootstrapping Language-Image Training con codificadores de imágenes congeladas y modelos de idiomas grandes. ARXIV: 2301.12597
[3] Junnan Li, Rampasaath R. Selvaraju, Akhilesh Deepak Gotmare, Shafiq Joty, Caiming Xiong, Steven Hoi. 2021. Alinee antes del fusible: el aprendizaje de la representación del lenguaje y la visión con la destilación de impulso. ARXIV: 2107.07651
[4] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon. 2019. Modelo de lenguaje unificado Precrendimiento para la comprensión del lenguaje natural y la generación. ARXIV: 1905.03197
Internet se ha inundado con imágenes de estilo Ghibli en la última semana. Hayao Miyazaki, reconocido por sus obras animadas como “Spirited Away”, “The Boy and the Heron”, “The Wind Rises”, y otros, ha estado adaptando las fotos personales de todos en su estilo distintivo.
La tendencia de crear imágenes de arte de Ghibli no solo se limita a la diversión, sino que se puede utilizar de muchas maneras creativas para crear proyectos e imágenes de referencia. Solo necesita dar un mensaje de IA adecuado para que la IA haga la imagen de arte de Ghibli según la imagen deseada.
¿Qué es el arte de Ghibli?
Este movimiento artístico destaca los componentes visuales únicos que han contribuido a la aclamación global de las películas de Studio Gibli: cualidades de ensueño que fusionan la fantasía con la realidad, los antecedentes de acuarela, la iluminación suave y las características naturales exageradas. Estas transformaciones nostálgicas ahora son comunes en los sitios de redes sociales, ya que los individuos pretenden ser personajes en los reinos mágicos de Miyazaki reinventándose a sí mismas, sus mascotas y sus alrededores.
¿Cómo crear arte de estilo Gibli Studio usando Google Gemini?
Paso 1: Visite la plataforma Visite gemini.google.com o descargue la aplicación Google Gemini en iOS o Android. Inicie sesión usando su cuenta de Google.
Paso 2: Sube una foto Busque la opción de carga (generalmente un clip o icono de la cámara) en el costado del cuadro de texto y elija una foto de alta calidad desde su escritorio o móvil. Las imágenes claras de personas, mascotas o paisajes funcionan mejor para obtener resultados detallados.
Paso 3: Ingrese un mensaje creativo En el cuadro de texto, escriba un mensaje creativo como: “Convierta esta foto en una escena del bosque encantada con linternas y criaturas mágicas por todas partes”.
Paso 4: Describa una nueva escena (opcional) Si desea crear una imagen desde cero, proporcione una descripción de la escena junto con su mensaje. Por ejemplo: “Cree una pintura al estilo de Studio Gibli de un acogedor café del pueblo en una noche lluviosa, con cálidas luces brillantes”.
Paso 5: Envíe el aviso de AI Envíe su aviso, y Gemini 2.5 Pro creará la imagen según su descripción rápida. Si no está satisfecho y desea más cambios, modifique el mensaje con instrucciones como “Agregue más filtración de luz solar a través de los árboles” o “Haga el agua más clara” Luego regenere la imagen.
Paso 6: Guarde su obra de arte Una vez que esté satisfecho con el resultado, haga clic con el botón derecho en un escritorio (o prensa a largo plazo) para guardar su obra maestra de imágenes de estilo Gibli.
Lea también: ¿Quién es Nidhi Tewari? Secretario Privado PM Modi recién nombrado PM Modi; Verifique el salario, los roles y las responsabilidades
Ghibli Image AI indica para estudiantes escolares y universitarios
Escena escolar mágica -“Un aula acogedora en una escuela de estilo Gibli, con escritorios de madera, libros flotantes y cálida luz del sol a través de las ventanas. Los estudiantes están dibujando criaturas mágicas en sus cuadernos de bocetos”.
Aventura después de la escuela – “Un grupo de jóvenes estudiantes que montan bicicletas a través de un paisaje pintoresco, sus bolsas escolares rebotan mientras persiguen luciérnagas al anochecer, en un estilo de arte de ensueño de Ghibli”.
Parque infantil de fantasía -“Un patio de juegos de estilo Ghibli donde los columpios flotan en el aire, el portaobjetos se convierte en una cascada y los niños juegan con criaturas amigables y esponjosas”.
Ghibli Café en el campus -“Un acogedor café universitario de estilo Ghibli donde los estudiantes toman té, estudian y hablan suavemente, rodeado de plantas cubiertas de maleza, luces de hadas y libros encantados”.
Secretos del dormitorio de medianoche – “Un dormitorio de ensueño que brilla bajo la luz de la luna, lleno de artículos mágicos como una tetera levitante, pinturas de noche estrellada y un gato que duerme sobre almohadas flotantes”.
Inspiración de clase de arte de Ghibli -“Una clase de arte en una universidad inspirada en Ghibli, donde los estudiantes pintan en un estudio iluminado por el sol con pinceles encantados que dan vida a sus dibujos”.
Ghibli Image AI indica para profesionales de trabajo
1. Retiro de oficina acogedor
“Un espacio de trabajo al estilo de Ghibli con escritorios de madera, lámparas suaves y brillantes y grandes ventanas con vistas a un jardín de otoño soñador. Los papeles flotan en el aire a medida que pasa una cálida brisa”.
2. Configuración mágica de trabajo desde casa
“Una oficina en casa tranquila llena de libros flotantes, tazas de café humeantes y un gato acurrucado en una computadora portátil hechizada. El escritorio está rodeado de plantas encantadas y luces de hadas centelleantes”.
3. Sesión de lluvia de ideas al estilo Ghibli
“Un equipo creativo en una sala de reuniones caprichosa, donde las ideas toman forma como orbes brillantes sobre la mesa. La pizarra tiene bocetos que cobran vida, y las tazas de café se vuelven a llenar”.
4. Espacio de trabajo conjunto encantado
“Una oficina compartida con decoración inspirada en la naturaleza, iluminación dorada suave y pequeñas criaturas de bosques que ofrecen notas a profesionales ocupados que trabajan en sus computadoras portátiles”.
5. El café de ensueño
“Un encantador café de la oficina de estilo ghibli donde los profesionales toman café, ideas de lluvia de ideas y disfrutan del aroma de pasteles frescos. El café está lleno de cálida luz solar y libros que convierten las páginas por su cuenta”.
Cómo un buen indicador de IA para las imágenes de estilo Ghibli puede ayudar a los estudiantes en sus proyectos
Un aviso de IA bien elaborado puede marcar una gran diferencia en la creación de impresionantes imágenes de estilo Gibli. Para los estudiantes y los asistentes a la universidad, estas imágenes se pueden usar de múltiples formas creativas para proyectos, presentaciones y narración de cuentos. Aquí está como:
1. Mejora de proyectos de arte y diseño
Estudiantes estudiando arte, animación o diseño gráfico puede generar obras de arte de estilo Ghibli para sus tareas.
Las imágenes generadas por IA pueden ser utilizado como referencias Para pinturas digitales o dibujadas a mano.
Ayuda a explorar diferentes paletas de colores, efectos de iluminación y diseños de personajes.
2. Hacer que las presentaciones escolares y universitarias sean más atractivas
En lugar de diapositivas simples, los estudiantes pueden usar Imágenes inspiradas en Ghibli para hacer historia, literatura o proyectos creativos Más atractivo visualmente.
Un telón de fondo de Ghibli de ensueño puede dar vida a los elementos de narración de cuentoshaciendo que las presentaciones sean más inmersivas.
3. Escritura creativa y narración de cuentos
Las imágenes de Ghibli generadas por AI pueden ayudar a los estudiantes a visualizar sus historias en literatura o proyectos de escritura de guiones.
Una sola imagen de IA puede Inspire una historia, poema o novela de fantasía completa.
Permite que los estudiantes Experimentar con la construcción del mundo y desarrollar narraciones únicas.
4. Inspiración de diseño arquitectónico e interior
Los estudiantes de arquitectura o diseño de interiores pueden usar indicaciones de AI al estilo Gibli para Visualizar espacios acogedores e inspirados en la naturaleza.
Ayuda en la planificación diseños ecológicos con elementos como linternas flotantes, hiedra cubierta o interiores de madera encantada.
5. Estudios de animación y cine
Los estudiantes que aprenden animación pueden estudiar Cómo AI interpreta la iluminación, el color y la composición en un estilo de Ghibli.
Se puede usar para Escenas de lluvia de ideas para cortometrajes animados o desarrollo de arte conceptual.
Consejo para una mejor imagen de Ghibli ai
“Transforme esta foto en el anime al estilo de Studio Gibli con colores pastel suaves, fondos soñadores y detalles caprichosos. Agregue un lago sereno que refleje los tonos dorados del crepúsculo, las luciérnagas brillando en el aire y una suave brisa que se mueve a través de la hierba alta”.
PD Para las mejores obras de arte de estilo GHibli generadas por AI, asegúrese de que su imagen tenga temas claros y un desorden mínimo. La IA funciona mejor con imágenes bien iluminadas y paletas de colores suaves. Agregar elementos como “Twilight Glow”, “Los pétalos de cerezo flotando en el viento” o “linternas místicas que brillan suavemente” mejoran la estética de Ghibli de ensueño.
La tarjeta de crédito de Géminis probablemente atraerá a la criptomoneda curiosa que desee una forma conveniente de explorar la nueva (ish) frontera financiera de monedas de memes y riqueza digital.
Esta tarjeta de tarifa no anual le permite obtener recompensas de tarjetas de crédito en forma de más de 50 criptomonedas diferentes. Debido a que el valor de cualquier criptomoneda depende de las condiciones del mercado, esto significa que sus recompensas experimentarán la misma volatilidad: si ese pensamiento le da una pausa, entonces debe considerar una tarjeta que gana recompensas más tradicionales.
CNBC Select desglosa la tarjeta de crédito Gemini para ver si tiene sentido como la próxima adición a su billetera.
Destacar
Esta tarjeta gana recompensas en forma de bitcoin, éter o más de 50 opciones de criptomonedas.
Obtenga $ 200 en Crypto Rewards
El Gemini Credit Card® puede ayudar a los entusiastas de las criptomonedas a obtener recompensas de tarjetas de crédito a través de varias categorías útiles de gastos diarios.
Muchas transacciones tendrán recompensas depositadas instantáneamente en su cuenta de Géminis.
Gane recompensas en más de 50 tipos diferentes de criptomonedas disponibles en Gemini
Sin tarifa anual
No hay tarifas de transacción extranjera
Vender o convertir sus recompensas ganadas puede incurrir en tarifas
El 4% de regreso en gas y carga de EV se limita cada mes
Nota editorial: Las opiniones, análisis, revisiones o recomendaciones expresadas en este artículo son las del personal editorial seleccionado solo, y no han sido revisados, aprobados o respaldados por un tercero.
El estilo de arte de Studio Ghibli es famoso por su animación dibujada a mano, colores suaves y entornos mágicos. Cuenta con personajes expresivos, paisajes impresionantes y una mezcla de fantasía y naturaleza.
¡GPT-4O obtuvo otra actualización en chatgpt!
¿Qué es diferente?
– Mejor al seguir instrucciones detalladas, especialmente las indicaciones que contienen múltiples solicitudes – Capacidad mejorada para abordar problemas técnicos y de codificación complejos – Intuición mejorada y creatividad – Menos emojis
Las secuencias voladoras, las criaturas antropomórficas y la atención al detalle lo hacen único. Este estilo trae calidez y emoción a cada cuadro, lo que hace que las películas de Gibli visualmente impresionantes y profundamente inmersivas.
Si desea crear imágenes de estilo ghibli utilizando AI, hay varias herramientas y sitios web gratuitos disponibles además de ChatGPT y Grok.
¿Qué hace que el estilo de arte de Studio Ghibli sea único?
El estilo artístico de Studio Ghibli es único debido a su meticulosa atención al detalle, la profundidad emocional y la combinación de realismo con fantasía. Varios elementos distintivos contribuyen a esta singularidad:
#1. Realismo inmersivo
Studio Ghibli combina fantasía y realismo, creando mundos que se sienten mágicos pero creíbles. Hayao Miyazaki enfatiza que incluso los mundos ficticios deben tener un sentido de realismo, lo que hace sentir a los espectadores como si estos escenarios fantásticos podrían existir. Por ejemplo, la casa de baños en Spirited Away es fantástica pero lo suficientemente detallada como para parecer real.
#2. Reverencia por la naturaleza
La naturaleza juega un papel central en las películas de Ghibli, representadas con exuberantes paisajes y detalles intrincados que resaltan la conexión de la humanidad con el medio ambiente. Películas como mi vecina Totoro y Princess Mononoke muestran esta reverencia, equilibrando la belleza y los temas ecológicos.
#3. Simplicidad en el diseño
Los personajes de Ghibli están diseñados con simplicidad y claridad, evitando la sobrecomunicación. Las características faciales son limpias y ordenadas, con ojos expresivos pero discretos, narices y bocas. Este enfoque hace que los personajes sean identificables y atemporales. La ropa y los accesorios son igualmente simples pero decididos, lo que refleja la personalidad o la narrativa del personaje sin ornamentación excesiva.
#4. Animación dibujada a mano
El estudio prioriza las técnicas de animación tradicionales sobre los métodos digitales, prestando una estética orgánica a sus películas. Este estilo dibujado a mano mejora la calidez y la intimidad de cada cuadro.
#5. Narración emocional a través de imágenes
Ghibli sobresale en la transmisión de la emoción a través de detalles sutiles como expresiones faciales, lenguaje corporal y paletas de colores. Los momentos silenciosos en las películas a menudo son poderosos debido al énfasis en la narración visual en lugar del diálogo.
#6. Fondos como herramientas narrativas
Los fondos en las películas de Studio Ghibli son más que meras configuraciones; Reflejan el tono y los temas de la historia. A menudo presentan elementos simbólicos que agregan profundidad a la narrativa mientras mantienen un equilibrio armonioso con los personajes.
#7. Uso del color
El color es esencial para la narración de historias en películas de Ghibli. Las paletas vibrantes mejoran el estado de ánimo y la atmósfera, mientras que los tonos apagados transmiten introspección o tristeza. Los colores de la ropa terrosa complementan la estética naturalista de sus mundos.
#8. Fusión cultural
El estilo artístico de Ghibli combina elementos culturales japoneses con influencias de la antigua animación europea, creando una estética única que atrae a nivel mundial.
Las mejores herramientas de inteligencia artificial gratuita para generar imágenes al estilo de Gibli
Para crear imágenes de estilo ghibli sin usar chatgpt o grok, considere las siguientes herramientas y sitios web gratuitos de IA:
#1. Grok:
Generar gratis #Ghibli Imágenes de anime usando herramientas de IA, ¡absolutamente gratis!
Las mejores herramientas de IA gratuitas para el arte de estilo Gibli Studio: . 1. Grok AI: esta herramienta crea arte de anime soñador y pintado a mano que se ve directamente de una película de Ghibli. Perfecto para carretes estéticos, fondos de pantalla y … pic.twitter.com/afv5zgpotw
Grok es una plataforma gratuita que permite a los usuarios transformar sus fotos en retratos al estilo Studio Gibli. Al cargar una imagen e ingresar un mensaje como “convertir esta imagen en estilo Gibli”, la herramienta genera una versión estilizada que se puede guardar o compartir a través de un enlace.
Para crear imágenes de estilo ghibli usando Grok, siga estos pasos:
Acceder a Grok: Abra el sitio web o aplicación de Grok.
Seleccione el modelo Grok 3: Asegúrese de que Grok 3 se seleccione como modelo activo.
Sube tu imagen: Haga clic en el icono de PaperClip en la esquina inferior izquierda para cargar la foto deseada.
Ingrese un mensaje: Escriba una solicitud como “Transforme esta imagen en una ilustración de estilo Gibli Studio”.
Generar la imagen: Grok procesará su solicitud y proporcionará la imagen estilizada.
Si el resultado no es satisfactorio, puede refinar la imagen utilizando las herramientas de edición de Grok.
#2. Fotor:
Fotor es una plataforma gratuita que permite a los usuarios transformar sus imágenes en obras de arte al estilo Studio Gibli. Ofrece múltiples opciones de estilo, como “estilo Ghibli”, “Ghibli Style 1″ y Ghibli Style 2. ”
Para usar Fotor, simplemente cargue la imagen que desea convertir, seleccione su estilo deseado y la herramienta generará la imagen inspirada en GHIBLI para que lo descargue y disfrute.
Además de la conversión de imágenes, Fotor proporciona características como edición de fotos con AI, lo que permite a los usuarios mejorar aún más sus creaciones de estilo Ghibli. La interfaz fácil de usar de la plataforma la hace accesible tanto para principiantes como para los profesionales que buscan explorar el arte inspirado en el anime.
#3. Getimg.ai:
GetImg.ai es una herramienta de IA versátil que admite la generación de imágenes de estilo Studio Ghibli de forma gratuita. Ofrece características de texto a imagen y imagen a imagen, lo que permite a los usuarios describir escenas o cargar imágenes para la transformación en obras de arte inspiradas en GHIBLI.
La plataforma permite a los usuarios crear paisajes soñadores, personajes caprichosos y paletas de colores suaves que recuerden a las películas de Miyazaki.
#4. Insmind:
INSMind se especializa en transformar fotos en obras de arte al estilo Studio Ghibli a través de su filtro AI gratuito. Se destaca para capturar la esencia de la estética caprichosa y soñadora de Ghibli, produciendo imágenes con colores vibrantes e iluminación suave.
Los usuarios pueden cargar fácilmente sus imágenes y aplicar los filtros para crear retratos o escenas inspiradas en el anime que se parecen mucho al estilo icónico de las películas de Ghibli.
#5. Cara abrazada:
Hugging Face recibe al modelo Studio Gibli, desarrollado por Ishallriseagain, que se adapta a la generación de obras de arte en el estilo icónico de Studio Ghibli Animations.
El modelo utiliza indicaciones especializadas como “Studio_Ghibli_anime_style” para replicar los elementos estéticos de las películas de Ghibli, incluidos diseños extravagantes y paletas de colores pastel.
Accesible de forma gratuita en abrazar la cara, este modelo apoya proyectos creativos y obras de arte personal al tiempo que enfatiza el uso ético al desalentar la creación de NFT. Su facilidad de implementación permite a los artistas y desarrolladores experimentar con la generación de imágenes de estilo Ghibli sin esfuerzo.
#6. Intermediario
MidJourney es un poderoso generador de imágenes AI conocido por su capacidad para replicar estilos artísticos complejos, incluida la estética caprichosa de Studio Ghibli.
Los usuarios pueden crear imágenes inspiradas en GHIBLI ingresando indicaciones detalladas que describen personajes, configuraciones y estados de ánimo.
MidJourney ofrece 25 generaciones de imágenes gratuitas, lo que permite a los usuarios experimentar sin costo. Accesible a través de su plataforma web o discordia, proporciona herramientas para refinar creaciones con opciones como niveles de estilización y relaciones de aspecto.
Mediante el uso de indicaciones como “retrato de estilo Studio Ghibli” o “bosque caprichoso en estilo Gibli”, los usuarios pueden lograr resultados de alta calidad.
#7. Dall · E 3
Dall · E 3, desarrollado por OpenAI, admite la generación de imágenes de estilo Ghibli a través de sus capacidades avanzadas de texto a imagen.
Si bien está disponible principalmente para los usuarios de ChatGPT más, a veces se ofrece acceso gratuito durante pruebas limitadas o a través de plataformas específicas.
Los usuarios pueden ingresar descripciones detalladas como “una aldea serena en el estilo de Studio Ghibli” para generar obras de arte que reflejen el encanto característico de Miyazaki. Dall · E 3 sobresale en la producción de detalles intrincados y composiciones vibrantes que se alinean con la estética de Ghibli.
#8. Leonardo.ai
Leonardo.ai es una plataforma versátil que permite a los usuarios generar imágenes de estilo Gibli de forma gratuita con sus herramientas de texto a imagen e imagen a imagen.
Al aprovechar los modelos AI avanzados, replica las texturas suaves, las atmósferas de ensueño y los colores vibrantes característicos de las películas de Studio Gibli. Los usuarios pueden cargar fotos o artesanías como “Forestal místico en estilo Gibli” para producir resultados impresionantes.
Leonardo.ai también ofrece opciones de personalización, como intensidad de estilo y ajustes de composición, lo que permite un control preciso sobre la salida final. Su accesibilidad de nivel libre lo convierte en una opción popular entre los fanáticos del arte inspirado en el anime.
#9. Pista ML
Runway ML proporciona herramientas para crear imágenes de estilo Studio Ghibli utilizando sus modelos de generación de imágenes con IA. Admite transformaciones de texto a imagen y video a imagen, lo que lo hace ideal para proyectos dinámicos inspirados en las obras de Miyazaki.
Los usuarios pueden ingresar indicaciones como “un prado mágico en el estilo Gibli” o cargar imágenes existentes para mejorar. Si bien algunas características pueden requerir pago, Runway ML ofrece créditos gratuitos para que los principiantes exploren sus capacidades.
#10. Difusión estable
La difusión estable es un modelo de IA de código abierto que admite la creación gratuita de imágenes al estilo Studio Ghibli a través de herramientas y plataformas desarrolladas por la comunidad.
Los usuarios pueden ajustar el modelo o usar versiones previamente capacitadas para generar arte con indicaciones como “aldea caprichosa en el estilo de Studio Ghibli”. Su flexibilidad permite una amplia personalización, desde paletas de colores hasta la composición de la escena, asegurando la alineación con la estética de Ghibli.
Cómo crear arte inspirado en Ghibli usando AI: 10 indicaciones para generar imágenes de estilo ghibli en chatgpt
Han pasado 24 horas desde que Operai sacudió inesperadamente el mundo de la imagen de IA con una generación de imágenes 4O.
Estos son los 14 ejemplos más alucinantes hasta ahora (100% generados por IA):
Aquí hay una guía sobre cómo crear arte inspirado en Gibli usando AI, centrándose en ChatGPT, junto con 10 indicaciones para generar imágenes de estilo Ghibli:
Creación de imágenes de estilo Gibli con chatgpt
Access ChatGPT: Visite el sitio web o aplicación de ChatGPT.
Sube tu imagen: Haga clic en el “+” Iniciar sesión para cargar una foto que desee transformar.
Elabore su aviso: Use indicaciones específicas para guiar a la IA en la creación de una imagen de estilo Gibli.
Generar la imagen: Envíe su aviso y espere a que se procese la imagen.
10 indicaciones para imágenes de estilo Gibli
“Transforme esta foto en el estilo de animación de Studio Ghibli con colores vibrantes, iluminación suave y la sensación caprichosa característica de las películas de Miyazaki”.
“Muéstrame en Studio Ghibli Style”.
“¿Puedes fibrar mi foto?”
“¿Cómo me vería como personaje de Ghibli?”
“Transforme las fotos en los personajes inspirados en Studio Ghibli, con un enfoque en los detalles y la fantasía”.
“¿Cómo ghibli dibujaría mis características?”
“Convierta esta foto en el arte estilo Studio Ghibli con colores vibrantes, paisajes de ensueño y ese encanto de miyazaki”.
“Haga esta imagen de estilo Ghibli con colores pastel y una atmósfera mágica”.
“Transforme esta foto en una ilustración animada dibujada a mano. Aplique técnicas de acuarela, líneas orgánicas suaves y una paleta de colores cálidos”.
“Cree una escena inspirada en Ghibli con colinas onduladas, nubes esponjosas y un bosque caprichoso”.
Estas indicaciones ayudan a guiar a la IA para capturar la esencia del estilo único de Studio Ghibli, que incluye colores vibrantes, detalles caprichosos y una atmósfera mágica.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.