Noticias

Agentes de motor de búsqueda multimodal alimentados por Blip-2 y Gemini

Published

1 mes ago

20 febrero, 2025

Sergio Villanueva

Esta publicación fue coautora de Rafael Groedes.

Introducción

Los modelos tradicionales solo pueden procesar un solo tipo de datos, como texto, imágenes o datos tabulares. La multimodalidad es un concepto de tendencia en la comunidad de investigación de IA, que se refiere a la capacidad de un modelo para aprender de múltiples tipos de datos simultáneamente. Esta nueva tecnología (no es realmente nueva, pero mejoró significativamente en los últimos meses) tiene numerosas aplicaciones potenciales que transformarán la experiencia del usuario de muchos productos.

Un buen ejemplo sería la nueva forma en que los motores de búsqueda funcionarán en el futuro, donde los usuarios pueden ingresar consultas utilizando una combinación de modalidades, como texto, imágenes, audio, etc. Otro ejemplo podría ser mejorar los sistemas de atención al cliente con AI para la voz. e entradas de texto. En el comercio electrónico, están mejorando el descubrimiento de productos al permitir a los usuarios buscar usando imágenes y texto. Usaremos este último como nuestro estudio de caso en este artículo.

Los laboratorios de investigación de IA Frontier están enviando varios modelos que admiten múltiples modalidades cada mes. Clip y Dall-E por OpenAI y Blip-2 por Salesforce Combine Image and Text. ImageBind por meta expandió el concepto de modalidad múltiple a seis modalidades (texto, audio, profundidad, térmica, imagen y unidades de medición inerciales).

En este artículo, exploraremos Blip-2 explicando su arquitectura, la forma en que funciona su función de pérdida y su proceso de capacitación. También presentamos un caso de uso práctico que combina Blip-2 y Gemini para crear un agente de búsqueda de moda multimodal que pueda ayudar a los clientes a encontrar el mejor atuendo basado en texto o mensajes de texto e indicaciones de imagen.

Figura 1: Agente de búsqueda multimodal (imagen del autor con Gemini)

Como siempre, el código está disponible en nuestro GitHub.

Blip-2: un modelo multimodal

Blip-2 (pre-entrenamiento de imagen de lenguaje de arranque) [1] es un modelo de lenguaje de visión diseñado para resolver tareas como la respuesta de las preguntas visuales o el razonamiento multimodal basado en entradas de ambas modalidades: imagen y texto. Como veremos a continuación, este modelo se desarrolló para abordar dos desafíos principales en el dominio del idioma de la visión:

Reducir el costo computacional Utilizando codificadores visuales pre-entrenados congelados y LLM, reduciendo drásticamente los recursos de capacitación necesarios en comparación con una capacitación conjunta de redes de visión e idiomas.
Mejora de la alineación del idioma visual Al introducir Q-former. Q-Former acerca los incrustaciones visuales y textuales, lo que lleva a un mejor rendimiento de la tarea de razonamiento y la capacidad de realizar una recuperación multimodal.

Arquitectura

La arquitectura de Blip-2 sigue un diseño modular que integra tres módulos:

Visual Codificador es un modelo visual congelado, como VIT, que extrae incrustaciones visuales de las imágenes de entrada (que luego se usan en tareas aguas abajo).
Consulta Transformador (Q-Former) es la clave de esta arquitectura. Consiste en un transformador ligero entrenable que actúa como una capa intermedia entre los modelos visuales y de lenguaje. Es responsable de generar consultas contextualizadas a partir de los incrustaciones visuales para que el modelo de lenguaje pueda procesarlos de manera efectiva.
LLM es un LLM pre-capacitado congelado que procesa incrustaciones visuales refinadas para generar descripciones o respuestas textuales.

Figura 2: Arquitectura Blip-2 (Imagen del autor)

Funciones de pérdida

Blip-2 tiene tres funciones de pérdida para entrenar el Q-formador módulo:

Pérdida de texto de texto [2] Haga cumplir la alineación entre los incrustaciones visuales y de texto maximizando la similitud de las representaciones emparejadas de texto de imagen mientras se separa pares diferentes.
Pérdida de coincidencia de texto de imagen [3] es una pérdida de clasificación binaria que tiene como objetivo hacer que el modelo aprenda alineaciones de grano fino predecir si una descripción de texto coincide con la imagen (positivo, es decir, objetivo = 1) o no (negativo, es decir, objetivo = 0).
Pérdida de generación de texto con conexión a imagen [4] es una pérdida de entropía cruzada utilizada en LLM para predecir la probabilidad del siguiente token en la secuencia. La arquitectura Q-former no permite interacciones entre los incrustaciones de la imagen y los tokens de texto; Por lo tanto, el texto debe generarse basándose únicamente en la información visual, lo que obliga al modelo a extraer características visuales relevantes.

Para ambosPérdida de contraste de texto mago y Pérdida de coincidencia de texto de imagenlos autores utilizaron un muestreo negativo en lotes, lo que significa que si tenemos un tamaño por lotes de 512, cada par de texto de imagen tiene una muestra positiva y 511 muestras negativas. Este enfoque aumenta la eficiencia ya que las muestras negativas se toman del lote, y no hay necesidad de buscar todo el conjunto de datos. También proporciona un conjunto más diverso de comparaciones, lo que lleva a una mejor estimación de gradiente y una convergencia más rápida.

Figura 3: Pérdidas de capacitación explicadas (Imagen del autor)

Proceso de capacitación

El entrenamiento de Blip-2 consta de dos etapas:

Etapa 1-Bootstrapping Representación visual en idioma:

El modelo recibe imágenes como entrada que se convierten en una incrustación utilizando el codificador visual congelado.
Junto con estas imágenes, el modelo recibe sus descripciones de texto, que también se convierten en incrustaciones.
El Q-former está entrenado usando pérdida de texto de textoasegurando que las integridades visuales se alineen estrechamente con sus incrustaciones textuales correspondientes y se aleje más de las descripciones de texto que no coinciden. Al mismo tiempo, el Pérdida de coincidencia de texto de imagen Ayuda al modelo a desarrollar representaciones de grano fino aprendiendo a clasificar si un texto determinado describe correctamente la imagen o no.

Figura 4: Proceso de capacitación en la etapa 1 (Imagen del autor)

Etapa 2-Bootstrapping Vision-to Language Generation:

El modelo de lenguaje previamente capacitado está integrado en la arquitectura para generar texto basado en las representaciones previamente aprendidas.
El enfoque cambia de la alineación a la generación de texto mediante el uso de la pérdida de generación de texto con conexión a imagen que mejora las capacidades del modelo de razonamiento y generación de texto.

Figura 5: Proceso de capacitación de la etapa 2 (imagen del autor)

Creación de un agente de búsqueda de moda multimodal usando Blip-2 y Gemini

En esta sección, aprovecharemos las capacidades multimodales de Blip-2 para construir un agente de búsqueda de asistente de moda que pueda recibir texto de entrada y/o imágenes y recomendaciones de devolver. Para las capacidades de conversación del agente, utilizaremos Gemini 1.5 Pro alojado en Vertex AI, y para la interfaz, construiremos una aplicación de transmisión.

El conjunto de datos de moda utilizado en este caso de uso tiene licencia bajo la licencia MIT y se puede acceder a través del siguiente enlace: conjunto de datos de imágenes de productos de moda. Consiste en más de 44k imágenes de productos de moda.

El primer paso para hacer esto posible es configurar un Vector DB. Esto permite al agente realizar una búsqueda vectorizada basada en los incrustaciones de la imagen de los elementos disponibles en la tienda y los incrustaciones de texto o imagen de la entrada. Utilizamos Docker y Docker-Compose para ayudarnos a establecer el medio ambiente:

Compuesto de acopolador con Postgres (la base de datos) y la extensión PGVector que permite la búsqueda vectorizada.

services:
  postgres:
    container_name: container-pg
    image: ankane/pgvector
    hostname: localhost
    ports:
      - "5432:5432"
    env_file:
      - ./env/postgres.env
    volumes:
      - postgres-data:/var/lib/postgresql/data
    restart: unless-stopped

  pgadmin:
    container_name: container-pgadmin
    image: dpage/pgadmin4
    depends_on:
      - postgres
    ports:
      - "5050:80"
    env_file:
      - ./env/pgadmin.env
    restart: unless-stopped

volumes:
  postgres-data:

Archivo env enviado con las variables para iniciar sesión en la base de datos.

POSTGRES_DB=postgres
POSTGRES_USER=admin
POSTGRES_PASSWORD=root

Archivo env envado con las variables para iniciar sesión en la interfaz de usuario para consultar manual la base de datos (opcional).

[email protected] 
PGADMIN_DEFAULT_PASSWORD=root

Archivo ENV de conexión con todos los componentes para usar para conectarse a PGVector usando Langchain.

DRIVER=psycopg
HOST=localhost
PORT=5432
DATABASE=postgres
USERNAME=admin
PASSWORD=root

Una vez que el Vector DB está configurado (Docker -Compose Up -D), es hora de crear los agentes y herramientas para realizar una búsqueda multimodal. Construimos dos agentes para resolver este caso de uso: uno para comprender lo que el usuario solicita y otro para proporcionar la recomendación:

El clasificador es responsable de recibir el mensaje de entrada del cliente y extraer qué categoría de ropa está buscando, por ejemplo, camisetas, pantalones, zapatos, camisetas o camisas. También devolverá la cantidad de artículos que el cliente desea para que podamos recuperar el número exacto del Vector DB.

from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_google_vertexai import ChatVertexAI
from pydantic import BaseModel, Field

class ClassifierOutput(BaseModel):
    """
    Data structure for the model's output.
    """

    category: list = Field(
        description="A list of clothes category to search for ('t-shirt', 'pants', 'shoes', 'jersey', 'shirt')."
    )
    number_of_items: int = Field(description="The number of items we should retrieve.")

class Classifier:
    """
    Classifier class for classification of input text.
    """

    def __init__(self, model: ChatVertexAI) -> None:
        """
        Initialize the Chain class by creating the chain.
        Args:
            model (ChatVertexAI): The LLM model.
        """
        super().__init__()

        parser = PydanticOutputParser(pydantic_object=ClassifierOutput)

        text_prompt = """
        You are a fashion assistant expert on understanding what a customer needs and on extracting the category or categories of clothes a customer wants from the given text.
        Text:
        text

        Instructions:
        1. Read carefully the text.
        2. Extract the category or categories of clothes the customer is looking for, it can be:
            - t-shirt if the custimer is looking for a t-shirt.
            - pants if the customer is looking for pants.
            - jacket if the customer is looking for a jacket.
            - shoes if the customer is looking for shoes.
            - jersey if the customer is looking for a jersey.
            - shirt if the customer is looking for a shirt.
        3. If the customer is looking for multiple items of the same category, return the number of items we should retrieve. If not specfied but the user asked for more than 1, return 2.
        4. If the customer is looking for multiple category, the number of items should be 1.
        5. Return a valid JSON with the categories found, the key must be 'category' and the value must be a list with the categories found and 'number_of_items' with the number of items we should retrieve.

        Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below.
        format_instructions

        Answer:
        """

        prompt = PromptTemplate.from_template(
            text_prompt, partial_variables="format_instructions": parser.get_format_instructions()
        )
        self.chain = prompt | model | parser

    def classify(self, text: str) -> ClassifierOutput:
        """
        Get the category from the model based on the text context.
        Args:
            text (str): user message.
        Returns:
            ClassifierOutput: The model's answer.
        """
        try:
            return self.chain.invoke("text": text)
        except Exception as e:
            raise RuntimeError(f"Error invoking the chain: e")

El asistente es responsable de responder con una recomendación personalizada recuperada del Vector DB. En este caso, también estamos aprovechando las capacidades multimodales de Gemini para analizar las imágenes recuperadas y producir una mejor respuesta.

from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_google_vertexai import ChatVertexAI
from pydantic import BaseModel, Field

class AssistantOutput(BaseModel):
    """
    Data structure for the model's output.
    """

    answer: str = Field(description="A string with the fashion advice for the customer.")

class Assistant:
    """
    Assitant class for providing fashion advice.
    """

    def __init__(self, model: ChatVertexAI) -> None:
        """
        Initialize the Chain class by creating the chain.
        Args:
            model (ChatVertexAI): The LLM model.
        """
        super().__init__()

        parser = PydanticOutputParser(pydantic_object=AssistantOutput)

        text_prompt = """
        You work for a fashion store and you are a fashion assistant expert on understanding what a customer needs.
        Based on the items that are available in the store and the customer message below, provide a fashion advice for the customer.
        Number of items: number_of_items
        
        Images of items:
        items

        Customer message:
        customer_message

        Instructions:
        1. Check carefully the images provided.
        2. Read carefully the customer needs.
        3. Provide a fashion advice for the customer based on the items and customer message.
        4. Return a valid JSON with the advice, the key must be 'answer' and the value must be a string with your advice.

        Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below.
        format_instructions

        Answer:
        """

        prompt = PromptTemplate.from_template(
            text_prompt, partial_variables="format_instructions": parser.get_format_instructions()
        )
        self.chain = prompt | model | parser

    def get_advice(self, text: str, items: list, number_of_items: int) -> AssistantOutput:
        """
        Get advice from the model based on the text and items context.
        Args:
            text (str): user message.
            items (list): items found for the customer.
            number_of_items (int): number of items to be retrieved.
        Returns:
            AssistantOutput: The model's answer.
        """
        try:
            return self.chain.invoke("customer_message": text, "items": items, "number_of_items": number_of_items)
        except Exception as e:
            raise RuntimeError(f"Error invoking the chain: e")

En términos de herramientas, definimos uno basado en Blip-2. Consiste en una función que recibe un texto o imagen como entrada y devuelve incrustaciones normalizadas. Dependiendo de la entrada, los incrustaciones se producen utilizando el modelo de incrustación de texto o el modelo de incrustación de imagen de Blip-2.

from typing import Optional

import numpy as np
import torch
import torch.nn.functional as F
from PIL import Image
from PIL.JpegImagePlugin import JpegImageFile
from transformers import AutoProcessor, Blip2TextModelWithProjection, Blip2VisionModelWithProjection

PROCESSOR = AutoProcessor.from_pretrained("Salesforce/blip2-itm-vit-g")
TEXT_MODEL = Blip2TextModelWithProjection.from_pretrained("Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32).to(
    "cpu"
)
IMAGE_MODEL = Blip2VisionModelWithProjection.from_pretrained(
    "Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32
).to("cpu")

def generate_embeddings(text: Optional[str] = None, image: Optional[JpegImageFile] = None) -> np.ndarray:
    """
    Generate embeddings from text or image using the Blip2 model.
    Args:
        text (Optional[str]): customer input text
        image (Optional[Image]): customer input image
    Returns:
        np.ndarray: embedding vector
    """
    if text:
        inputs = PROCESSOR(text=text, return_tensors="pt").to("cpu")
        outputs = TEXT_MODEL(**inputs)
        embedding = F.normalize(outputs.text_embeds, p=2, dim=1)[:, 0, :].detach().numpy().flatten()
    else:
        inputs = PROCESSOR(images=image, return_tensors="pt").to("cpu", torch.float16)
        outputs = IMAGE_MODEL(**inputs)
        embedding = F.normalize(outputs.image_embeds, p=2, dim=1).mean(dim=1).detach().numpy().flatten()

    return embedding

Tenga en cuenta que creamos la conexión a PGVector con un modelo de incrustación diferente porque es obligatorio, aunque no se utilizará ya que almacenaremos los incrustaciones producidos por Blip-2 directamente.

En el ciclo a continuación, iteramos sobre todas las categorías de ropa, cargamos las imágenes y creamos y agreguamos las incrustaciones que se almacenarán en el Vector DB en una lista. Además, almacenamos la ruta a la imagen como texto para que podamos representarla en nuestra aplicación de transmisión. Finalmente, almacenamos la categoría para filtrar los resultados en función de la categoría predicha por el agente del clasificador.

import glob
import os

from dotenv import load_dotenv
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain_postgres.vectorstores import PGVector
from PIL import Image

from blip2 import generate_embeddings

load_dotenv("env/connection.env")

CONNECTION_STRING = PGVector.connection_string_from_db_params(
    driver=os.getenv("DRIVER"),
    host=os.getenv("HOST"),
    port=os.getenv("PORT"),
    database=os.getenv("DATABASE"),
    user=os.getenv("USERNAME"),
    password=os.getenv("PASSWORD"),
)

vector_db = PGVector(
    embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"),  # does not matter for our use case
    collection_name="fashion",
    connection=CONNECTION_STRING,
    use_jsonb=True,
)

if __name__ == "__main__":

    # generate image embeddings
    # save path to image in text
    # save category in metadata
    texts = []
    embeddings = []
    metadatas = []

    for category in glob.glob("images/*"):
        cat = category.split("/")[-1]
        for img in glob.glob(f"category/*"):
            texts.append(img)
            embeddings.append(generate_embeddings(image=Image.open(img)).tolist())
            metadatas.append("category": cat)

    vector_db.add_embeddings(texts, embeddings, metadatas)

Ahora podemos construir nuestra aplicación aerodinámica para chatear con nuestro asistente y pedir recomendaciones. El chat comienza con el agente preguntando cómo puede ayudar y proporcionar un cuadro para que el cliente escriba un mensaje y/o cargue un archivo.

Una vez que el cliente responde, el flujo de trabajo es el siguiente:

El agente del clasificador identifica qué categorías de ropa está buscando el cliente y cuántas unidades desean.
Si el cliente carga un archivo, este archivo se convertirá en una incrustación, y buscaremos elementos similares en el Vector DB, condicionado por la categoría de ropa que el cliente desea y la cantidad de unidades.
Los elementos recuperados y el mensaje de entrada del cliente se envían al agente asistente para producir el mensaje de recomendación que se transforma junto con las imágenes recuperadas.
Si el cliente no cargó un archivo, el proceso es el mismo, pero en lugar de generar insertos de imagen para la recuperación, creamos incrustaciones de texto.

import os

import streamlit as st
from dotenv import load_dotenv
from langchain_google_vertexai import ChatVertexAI
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain_postgres.vectorstores import PGVector
from PIL import Image

import utils
from assistant import Assistant
from blip2 import generate_embeddings
from classifier import Classifier

load_dotenv("env/connection.env")
load_dotenv("env/llm.env")

CONNECTION_STRING = PGVector.connection_string_from_db_params(
    driver=os.getenv("DRIVER"),
    host=os.getenv("HOST"),
    port=os.getenv("PORT"),
    database=os.getenv("DATABASE"),
    user=os.getenv("USERNAME"),
    password=os.getenv("PASSWORD"),
)

vector_db = PGVector(
    embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"),  # does not matter for our use case
    collection_name="fashion",
    connection=CONNECTION_STRING,
    use_jsonb=True,
)

model = ChatVertexAI(model_name=os.getenv("MODEL_NAME"), project=os.getenv("PROJECT_ID"), temperarture=0.0)
classifier = Classifier(model)
assistant = Assistant(model)

st.title("Welcome to ZAAI's Fashion Assistant")

user_input = st.text_input("Hi, I'm ZAAI's Fashion Assistant. How can I help you today?")

uploaded_file = st.file_uploader("Upload an image", type=["jpg", "jpeg", "png"])

if st.button("Submit"):

    # understand what the user is asking for
    classification = classifier.classify(user_input)

    if uploaded_file:

        image = Image.open(uploaded_file)
        image.save("input_image.jpg")
        embedding = generate_embeddings(image=image)

    else:

        # create text embeddings in case the user does not upload an image
        embedding = generate_embeddings(text=user_input)

    # create a list of items to be retrieved and the path
    retrieved_items = []
    retrieved_items_path = []
    for item in classification.category:
        clothes = vector_db.similarity_search_by_vector(
            embedding, k=classification.number_of_items, filter="category": "$in": [item]
        )
        for clothe in clothes:
            retrieved_items.append("bytesBase64Encoded": utils.encode_image_to_base64(clothe.page_content))
            retrieved_items_path.append(clothe.page_content)

    # get assistant's recommendation
    assistant_output = assistant.get_advice(user_input, retrieved_items, len(retrieved_items))
    st.write(assistant_output.answer)

    cols = st.columns(len(retrieved_items)+1)
    for col, retrieved_item in zip(cols, ["input_image.jpg"]+retrieved_items_path):
        col.image(retrieved_item)

    user_input = st.text_input("")

else:
    st.warning("Please provide text.")

Ambos ejemplos se pueden ver a continuación:

La Figura 6 muestra un ejemplo en el que el cliente cargó una imagen de una camiseta roja y le pidió al agente que completara el atuendo.

Figura 6: Ejemplo de entrada e entrada de imagen (imagen por autor)

La Figura 7 muestra un ejemplo más directo en el que el cliente le pidió al agente que les mostrara camisetas negras.

Figura 7: Ejemplo de entrada de texto (imagen por autor)

Conclusión

La IA multimodal ya no es solo un tema de investigación. Se está utilizando en la industria para remodelar la forma en que los clientes interactúan con los catálogos de la empresa. En este artículo, exploramos cómo se pueden combinar modelos multimodales como Blip-2 y Gemini para abordar los problemas del mundo real y proporcionar una experiencia más personalizada a los clientes de una manera escalable.

Exploramos la arquitectura de Blip-2 en profundidad, demostrando cómo une la brecha entre las modalidades de texto y imagen. Para extender sus capacidades, desarrollamos un sistema de agentes, cada uno especializado en diferentes tareas. Este sistema integra un LLM (Gemini) y una base de datos vectorial, lo que permite la recuperación del catálogo de productos utilizando incrustaciones de texto e imágenes. También aprovechamos el razonamiento multimodal de Géminis para mejorar las respuestas del agente de ventas para ser más humanos.

Con herramientas como Blip-2, Gemini y PG Vector, el futuro de la búsqueda y recuperación multimodal ya está sucediendo, y los motores de búsqueda del futuro se verán muy diferentes de los que usamos hoy.

Acerca de mí

Empresario en serie y líder en el espacio de IA. Desarrollo productos de IA para empresas e invierto en nuevas empresas centradas en la IA.

Fundador @ Zaai | LinkedIn | X/Twitter

Referencias

[1] Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi. 2023. BLIP-2: Bootstrapping Language-Image Training con codificadores de imágenes congeladas y modelos de idiomas grandes. ARXIV: 2301.12597

[2] Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, CE Liu, Dilip Krishnan. 2020. Aprendizaje contrastante supervisado. ARXIV: 2004.11362

[3] Junnan Li, Rampasaath R. Selvaraju, Akhilesh Deepak Gotmare, Shafiq Joty, Caiming Xiong, Steven Hoi. 2021. Alinee antes del fusible: el aprendizaje de la representación del lenguaje y la visión con la destilación de impulso. ARXIV: 2107.07651

[4] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon. 2019. Modelo de lenguaje unificado Precrendimiento para la comprensión del lenguaje natural y la generación. ARXIV: 1905.03197

Noticias

Lista de indicaciones de imagen de estilo Ghibli fácil y única para ChatGpt, Grok, Gemini y otras herramientas de IA

Published

2 minutos ago

31 marzo, 2025

Sergio Villanueva

Internet se ha inundado con imágenes de estilo Ghibli en la última semana. Hayao Miyazaki, reconocido por sus obras animadas como “Spirited Away”, “The Boy and the Heron”, “The Wind Rises”, y otros, ha estado adaptando las fotos personales de todos en su estilo distintivo.

La tendencia de crear imágenes de arte de Ghibli no solo se limita a la diversión, sino que se puede utilizar de muchas maneras creativas para crear proyectos e imágenes de referencia. Solo necesita dar un mensaje de IA adecuado para que la IA haga la imagen de arte de Ghibli según la imagen deseada.

¿Qué es el arte de Ghibli?

Este movimiento artístico destaca los componentes visuales únicos que han contribuido a la aclamación global de las películas de Studio Gibli: cualidades de ensueño que fusionan la fantasía con la realidad, los antecedentes de acuarela, la iluminación suave y las características naturales exageradas. Estas transformaciones nostálgicas ahora son comunes en los sitios de redes sociales, ya que los individuos pretenden ser personajes en los reinos mágicos de Miyazaki reinventándose a sí mismas, sus mascotas y sus alrededores.

¿Cómo crear arte de estilo Gibli Studio usando Google Gemini?

Paso 1: Visite la plataforma
Visite gemini.google.com o descargue la aplicación Google Gemini en iOS o Android. Inicie sesión usando su cuenta de Google.

Paso 2: Sube una foto
Busque la opción de carga (generalmente un clip o icono de la cámara) en el costado del cuadro de texto y elija una foto de alta calidad desde su escritorio o móvil. Las imágenes claras de personas, mascotas o paisajes funcionan mejor para obtener resultados detallados.

Paso 3: Ingrese un mensaje creativo
En el cuadro de texto, escriba un mensaje creativo como:
“Convierta esta foto en una escena del bosque encantada con linternas y criaturas mágicas por todas partes”.

Paso 4: Describa una nueva escena (opcional)
Si desea crear una imagen desde cero, proporcione una descripción de la escena junto con su mensaje. Por ejemplo:
“Cree una pintura al estilo de Studio Gibli de un acogedor café del pueblo en una noche lluviosa, con cálidas luces brillantes”.

Paso 5: Envíe el aviso de AI
Envíe su aviso, y Gemini 2.5 Pro creará la imagen según su descripción rápida. Si no está satisfecho y desea más cambios, modifique el mensaje con instrucciones como “Agregue más filtración de luz solar a través de los árboles” o “Haga el agua más clara” Luego regenere la imagen.

Paso 6: Guarde su obra de arte
Una vez que esté satisfecho con el resultado, haga clic con el botón derecho en un escritorio (o prensa a largo plazo) para guardar su obra maestra de imágenes de estilo Gibli.

Lea también: ¿Quién es Nidhi Tewari? Secretario Privado PM Modi recién nombrado PM Modi; Verifique el salario, los roles y las responsabilidades

Ghibli Image AI indica para estudiantes escolares y universitarios

Escena escolar mágica -“Un aula acogedora en una escuela de estilo Gibli, con escritorios de madera, libros flotantes y cálida luz del sol a través de las ventanas. Los estudiantes están dibujando criaturas mágicas en sus cuadernos de bocetos”.

Aventura después de la escuela – “Un grupo de jóvenes estudiantes que montan bicicletas a través de un paisaje pintoresco, sus bolsas escolares rebotan mientras persiguen luciérnagas al anochecer, en un estilo de arte de ensueño de Ghibli”.

Parque infantil de fantasía -“Un patio de juegos de estilo Ghibli donde los columpios flotan en el aire, el portaobjetos se convierte en una cascada y los niños juegan con criaturas amigables y esponjosas”.

Ghibli Café en el campus -“Un acogedor café universitario de estilo Ghibli donde los estudiantes toman té, estudian y hablan suavemente, rodeado de plantas cubiertas de maleza, luces de hadas y libros encantados”.

Secretos del dormitorio de medianoche – “Un dormitorio de ensueño que brilla bajo la luz de la luna, lleno de artículos mágicos como una tetera levitante, pinturas de noche estrellada y un gato que duerme sobre almohadas flotantes”.

Inspiración de clase de arte de Ghibli -“Una clase de arte en una universidad inspirada en Ghibli, donde los estudiantes pintan en un estudio iluminado por el sol con pinceles encantados que dan vida a sus dibujos”.

Ghibli Image AI indica para profesionales de trabajo

1. Retiro de oficina acogedor

“Un espacio de trabajo al estilo de Ghibli con escritorios de madera, lámparas suaves y brillantes y grandes ventanas con vistas a un jardín de otoño soñador. Los papeles flotan en el aire a medida que pasa una cálida brisa”.

2. Configuración mágica de trabajo desde casa

“Una oficina en casa tranquila llena de libros flotantes, tazas de café humeantes y un gato acurrucado en una computadora portátil hechizada. El escritorio está rodeado de plantas encantadas y luces de hadas centelleantes”.

3. Sesión de lluvia de ideas al estilo Ghibli

“Un equipo creativo en una sala de reuniones caprichosa, donde las ideas toman forma como orbes brillantes sobre la mesa. La pizarra tiene bocetos que cobran vida, y las tazas de café se vuelven a llenar”.

4. Espacio de trabajo conjunto encantado

“Una oficina compartida con decoración inspirada en la naturaleza, iluminación dorada suave y pequeñas criaturas de bosques que ofrecen notas a profesionales ocupados que trabajan en sus computadoras portátiles”.

5. El café de ensueño

“Un encantador café de la oficina de estilo ghibli donde los profesionales toman café, ideas de lluvia de ideas y disfrutan del aroma de pasteles frescos. El café está lleno de cálida luz solar y libros que convierten las páginas por su cuenta”.

Cómo un buen indicador de IA para las imágenes de estilo Ghibli puede ayudar a los estudiantes en sus proyectos

Un aviso de IA bien elaborado puede marcar una gran diferencia en la creación de impresionantes imágenes de estilo Gibli. Para los estudiantes y los asistentes a la universidad, estas imágenes se pueden usar de múltiples formas creativas para proyectos, presentaciones y narración de cuentos. Aquí está como:

1. Mejora de proyectos de arte y diseño

Estudiantes estudiando arte, animación o diseño gráfico puede generar obras de arte de estilo Ghibli para sus tareas.
Las imágenes generadas por IA pueden ser utilizado como referencias Para pinturas digitales o dibujadas a mano.
Ayuda a explorar diferentes paletas de colores, efectos de iluminación y diseños de personajes.

2. Hacer que las presentaciones escolares y universitarias sean más atractivas

En lugar de diapositivas simples, los estudiantes pueden usar Imágenes inspiradas en Ghibli para hacer historia, literatura o proyectos creativos Más atractivo visualmente.
Un telón de fondo de Ghibli de ensueño puede dar vida a los elementos de narración de cuentoshaciendo que las presentaciones sean más inmersivas.

3. Escritura creativa y narración de cuentos

Las imágenes de Ghibli generadas por AI pueden ayudar a los estudiantes a visualizar sus historias en literatura o proyectos de escritura de guiones.
Una sola imagen de IA puede Inspire una historia, poema o novela de fantasía completa.
Permite que los estudiantes Experimentar con la construcción del mundo y desarrollar narraciones únicas.

4. Inspiración de diseño arquitectónico e interior

Los estudiantes de arquitectura o diseño de interiores pueden usar indicaciones de AI al estilo Gibli para Visualizar espacios acogedores e inspirados en la naturaleza.
Ayuda en la planificación diseños ecológicos con elementos como linternas flotantes, hiedra cubierta o interiores de madera encantada.

5. Estudios de animación y cine

Los estudiantes que aprenden animación pueden estudiar Cómo AI interpreta la iluminación, el color y la composición en un estilo de Ghibli.
Se puede usar para Escenas de lluvia de ideas para cortometrajes animados o desarrollo de arte conceptual.

Consejo para una mejor imagen de Ghibli ai

“Transforme esta foto en el anime al estilo de Studio Gibli con colores pastel suaves, fondos soñadores y detalles caprichosos. Agregue un lago sereno que refleje los tonos dorados del crepúsculo, las luciérnagas brillando en el aire y una suave brisa que se mueve a través de la hierba alta”.

PD Para las mejores obras de arte de estilo GHibli generadas por AI, asegúrese de que su imagen tenga temas claros y un desorden mínimo. La IA funciona mejor con imágenes bien iluminadas y paletas de colores suaves. Agregar elementos como “Twilight Glow”, “Los pétalos de cerezo flotando en el viento” o “linternas místicas que brillan suavemente” mejoran la estética de Ghibli de ensueño.

Noticias

Revisión de tarjeta de crédito Gemini 2025

Published

1 hora ago

31 marzo, 2025

Sergio Villanueva

La tarjeta de crédito de Géminis probablemente atraerá a la criptomoneda curiosa que desee una forma conveniente de explorar la nueva (ish) frontera financiera de monedas de memes y riqueza digital.

Esta tarjeta de tarifa no anual le permite obtener recompensas de tarjetas de crédito en forma de más de 50 criptomonedas diferentes. Debido a que el valor de cualquier criptomoneda depende de las condiciones del mercado, esto significa que sus recompensas experimentarán la misma volatilidad: si ese pensamiento le da una pausa, entonces debe considerar una tarjeta que gana recompensas más tradicionales.

CNBC Select desglosa la tarjeta de crédito Gemini para ver si tiene sentido como la próxima adición a su billetera.

Destacar

Esta tarjeta gana recompensas en forma de bitcoin, éter o más de 50 opciones de criptomonedas.

Obtenga $ 200 en Crypto Rewards

Revisión de la tarjeta de crédito Gemini

Bono de bienvenida

Puede ganar un bono de recompensas de Crypto de $ 200 cuando se aprueba para la tarjeta antes del 30/06/2025 y gastar $ 3,000 durante los primeros 90 días después de la apertura de la cuenta.

Beneficios y ventajas

El La tarjeta de crédito Gemini no ofrece muchos beneficios únicos para la tarjeta: su sorteo principal es las recompensas de criptomonedas que puede ganar. Como MasterCard mundial, viene con un puñado de ventajas a través de la red, incluidos créditos para Instacart y Peacock Premium. Algunas otras ventajas notables incluyen:

Healthlock para MasterCard: La membresía de Monitor de Locklock de cortesía que ayuda a revisar sus reclamos médicos.
Protección de robo de identificación de MasterCard: Este servicio proporciona detección y protección contra el robo de identidad, incluida la monitorización, las alertas y la resolución de expertos.
Protección de precios: Para las compras realizadas con la tarjeta cubierta, si ve el mismo producto a través de un anuncio de Internet impreso o no subastado a un precio más bajo dentro de los 120 días posteriores a la compra, MasterCard le reembolsará la diferencia, hasta $ 250 por reclamo, cuatro veces al año.

Obtiene atención al cliente en vivo 24/7 y la capacidad de agregar hasta cinco usuarios autorizados sin cargo adicional. Para un aumento de la seguridad, la sola tarjeta presenta el nombre del titular de la tarjeta y no el número de tarjeta. Y si parece importante, esta tarjeta de crédito de metal está disponible en tres colores diferentes: negro, plata y oro rosa.

Cómo ganar y redimir las recompensas de la tarjeta Géminis

Con el Tarjeta de crédito Gemini, puede obtener recompensas con compras en una variedad de categorías de gastos convenientes, lo que hace que sea razonablemente fácil aprovechar al máximo la tarjeta.

Ganador

Los titulares de tarjetas de crédito de Gemini no ganan reembolso, puntos o millas tradicionales, sino que reciben recompensas en forma de una de sus criptomonedas disponibles. Gemini ofrece recompensas en las siguientes transacciones:

4% de regreso en gas y EV cobrando hasta $ 200 en gastos al mes, luego el 1%
3% de vuelta en la comida
2% de regreso en comestibles
1% de vuelta en todas las demás compras calificadas

Gemini admite más de 50 tipos de criptomonedas disponibles, incluidas las populares como Bitcoin y Ethereum, y puede cambiar qué criptomoneda se ganan sus gastos en cualquier momento. Al registrarse en la tarjeta, configura una cuenta de Gemini Exchange, que contiene la criptomoneda que gana. Gemini paga recompensas a su cuenta tan pronto como realiza una compra.

Redentor

Una vez que gane recompensas a través de su tarjeta de crédito Gemini, se los mantendrán en su cuenta de Gemini Exchange. Para canjear sus recompensas, puede vender la criptografía en su cuenta de intercambio de Gemini y transferir los fondos a una cuenta bancaria verificada. A diferencia de las recompensas obtenidas con muchas otras tarjetas, las recompensas de la tarjeta Gemini no se pueden usar para pagar directamente el saldo de la tarjeta.

Tarifas y tarifas

El La tarjeta de crédito Gemini no cobra una tarifa anual, una tarifa de divisas o cualquier tarifa de cambio de las recompensas de criptomonedas que obtiene a través del gasto. Sin embargo, tendrá que pagar cualquier tarifa asociada con la venta o la conversión de sus recompensas criptográficas. La tarjeta Gemini tiene un APR de 17.24% –29.24% y cobra una tarifa de pago atrasado de hasta $ 8 y una tarifa de pago devuelta de hasta $ 35.

Encuentre la mejor tarjeta de crédito para usted revisando ofertas en nuestro mercado de tarjetas de crédito o obtener ofertas personalizadas a través de Cardmatch ™.

Comparación de tarjetas

Tarjeta de crédito de Gemini vs. Venmo Cedina de crédito

Tarjeta de crédito de Venmo

La información sobre la tarjeta de crédito Venmo ha sido recopilada de forma independiente por selección y no ha sido proporcionada por el emisor de la tarjeta antes de la publicación.

Recompensas

3% de reembolso en efectivo en la categoría elegible en la que más gasta, el 2% de regreso en la segunda categoría elegible más alta y el 1% en todas las demás compras
Bono de bienvenida
Tarifa anual
Introducción APR
APR regular

19.99%, 28.99%, 31.99%variable al 1 de octubre de 2024
Tarifa de transferencia de saldo
Tarifa de transacción extranjera
Crédito necesario

Pros

Sin tarifa anual
Programa de recompensas que se adapta a sus hábitos de gasto
No hay tarifas de transacción extranjera cuando viaja fuera de los Estados Unidos

Contras

Actualmente está disponible para un porcentaje aleatorio de clientes de Venmo que han tenido una cuenta de Venmo durante al menos 30 días y que han estado activos en los últimos 12 meses
Sin bonificación de bienvenida
No hay oferta introductoria APR

La tarjeta de crédito de Venmo es otra tarjeta de crédito sin altura anual que puede ayudarlo a convertir sus recompensas en criptomonedas, pero no tiene ninguna categoría de gasto fijo para obtener recompensas. En su lugar, obtendrá un 3% de reembolso en efectivo en su categoría de gasto superior para el ciclo de facturación, 2% en su próxima categoría superior y el 1% en todas las demás compras elegibles. Venmo ofrece las siguientes categorías de gastos:

Transporte
Viajar
Comestibles
Entretenimiento
Cena y vida nocturna
Facturas y servicios públicos
Salud y belleza
Gas
Otro

Venmo puede agregar el reembolso en efectivo que ganó a su saldo de Venmo, pero si desea obtener sus recompensas en criptomonedas, puede alternar una configuración dentro de la aplicación Venmo. Al final de su próximo ciclo de recompensa, las recompensas en efectivo se transferirán a su cuenta de Venmo y se utilizarán automáticamente para comprar la criptomoneda de su elección. Venmo admite Bitcoin, Ethereum, Litecoin y Bitcoin Cash. La tarjeta Gemini ofrece una selección mucho más amplia de monedas.

Si desea una tarjeta que pueda ganar recompensas y recompensas en retroceso en criptomonedas, la tarjeta Venmo tiene una ventaja sobre el Géminis, que bloquea todas sus recompensas en cripto. Sin embargo, las ofertas de divisas limitadas de la tarjeta Venmo lo hacen menos ideal para alguien que quiere una experiencia criptográfica más robusta.

Tarjeta de crédito Gemini vs. Citi Double Cash

Destacar

Reciba una introducción de 0% APR durante 18 meses en transferencias de equilibrio.

Si ha decidido que la naturaleza volátil de la criptomoneda no es para usted, y desea una tarjeta que gane recompensas directas, entonces considere el Tarjeta Citi Double Cash®.

Esta tarjeta ha construido una reputación como una de las mejores tarjetas de retroceso y por una buena razón: ofrece un 2% de reembolso en efectivo en todas las compras, 1% cuando compra y 1% cuando paga su tarjeta, más un elevado 5% de reembolso total en efectivo en el hotel, alquiler de automóviles y atracciones reservadas a través del sitio de viajes CITI hasta el 12/31/2025. No hay restricciones de límite o categoría en las recompensas que obtienes, que vienen en forma de puntos Citi Thankyou®. Estos puntos altamente flexibles se pueden canjear de varias maneras diferentes, incluso con los socios de transferencia de hotel y aerolíneas de Citi si se combinan con una tarjeta de tarifas anual, como la tarjeta Citi Strata Premier (ver tarifas y tarifas).

¿Es la tarjeta de crédito Gemini adecuada para usted?

El La tarjeta de crédito Gemini podría ser una buena opción para aquellos interesados en explorar la criptomonedas, ya que ofrece tarifas competitivas de retroceso utilizado para comprar más de 50 tipos diferentes de criptomonedas sin tarifas de intercambio. Debe hacer las paces con el hecho de que sus recompensas podrían perder valor basado en los caprichos del mercado, pero esos son las estacas de la mesa para cualquier tipo de inversión, cripto o de otro tipo.

¡Suscríbase al boletín CNBC Select!

El dinero importa, así que aproveche al máximo. Obtenga consejos de expertos, estrategias, noticias y todo lo que necesite para maximizar su dinero, directamente a su bandeja de entrada. Regístrese aquí.

¿Por qué confiar en CNBC Select?

En CNBC Select, nuestra misión es proporcionar a nuestros lectores periodismo de servicios de alta calidad y asesoramiento integral al consumidor para que puedan tomar decisiones informadas con su dinero. Cada tarjeta de crédito La revisión se basa en informes rigurosos de nuestro equipo de escritores y editores expertos con un amplio conocimiento de la tarjeta de crédito productos. Si bien CNBC Select gana una comisión de los socios afiliados en muchas ofertas y enlaces, creamos todo nuestro contenido sin aportes de nuestro equipo comercial o cualquier tercero externo, y nos enorgullecemos de nuestros estándares y ética periodística. Ver Nuestra metodología para obtener más información sobre cómo elegimos las mejores tarjetas de crédito.

Ponerse al día con la cobertura detallada de CNBC Select de tarjetas de crédito, bancario y dineroy seguirnos en Tiktok, Facebook, Instagram y Gorjeo para mantenerse al día.

Nota editorial: Las opiniones, análisis, revisiones o recomendaciones expresadas en este artículo son las del personal editorial seleccionado solo, y no han sido revisados, aprobados o respaldados por un tercero.

Noticias

Lista de aplicaciones y sitios web de alternativas gratuitas que no sean Chatgpt y Grok

Published

2 horas ago

31 marzo, 2025

Sergio Villanueva

El estilo de arte de Studio Ghibli es famoso por su animación dibujada a mano, colores suaves y entornos mágicos. Cuenta con personajes expresivos, paisajes impresionantes y una mezcla de fantasía y naturaleza.

¡GPT-4O obtuvo otra actualización en chatgpt!

¿Qué es diferente?

– Mejor al seguir instrucciones detalladas, especialmente las indicaciones que contienen múltiples solicitudes
– Capacidad mejorada para abordar problemas técnicos y de codificación complejos
– Intuición mejorada y creatividad
– Menos emojis

– OpenAi (@openai) 27 de marzo de 2025

Las secuencias voladoras, las criaturas antropomórficas y la atención al detalle lo hacen único. Este estilo trae calidez y emoción a cada cuadro, lo que hace que las películas de Gibli visualmente impresionantes y profundamente inmersivas.

Si desea crear imágenes de estilo ghibli utilizando AI, hay varias herramientas y sitios web gratuitos disponibles además de ChatGPT y Grok.

¿Qué hace que el estilo de arte de Studio Ghibli sea único?

El estilo artístico de Studio Ghibli es único debido a su meticulosa atención al detalle, la profundidad emocional y la combinación de realismo con fantasía. Varios elementos distintivos contribuyen a esta singularidad:

#1. Realismo inmersivo

Studio Ghibli combina fantasía y realismo, creando mundos que se sienten mágicos pero creíbles. Hayao Miyazaki enfatiza que incluso los mundos ficticios deben tener un sentido de realismo, lo que hace sentir a los espectadores como si estos escenarios fantásticos podrían existir. Por ejemplo, la casa de baños en Spirited Away es fantástica pero lo suficientemente detallada como para parecer real.

#2. Reverencia por la naturaleza

La naturaleza juega un papel central en las películas de Ghibli, representadas con exuberantes paisajes y detalles intrincados que resaltan la conexión de la humanidad con el medio ambiente. Películas como mi vecina Totoro y Princess Mononoke muestran esta reverencia, equilibrando la belleza y los temas ecológicos.

#3. Simplicidad en el diseño

Los personajes de Ghibli están diseñados con simplicidad y claridad, evitando la sobrecomunicación. Las características faciales son limpias y ordenadas, con ojos expresivos pero discretos, narices y bocas. Este enfoque hace que los personajes sean identificables y atemporales. La ropa y los accesorios son igualmente simples pero decididos, lo que refleja la personalidad o la narrativa del personaje sin ornamentación excesiva.

#4. Animación dibujada a mano

El estudio prioriza las técnicas de animación tradicionales sobre los métodos digitales, prestando una estética orgánica a sus películas. Este estilo dibujado a mano mejora la calidez y la intimidad de cada cuadro.

#5. Narración emocional a través de imágenes

Ghibli sobresale en la transmisión de la emoción a través de detalles sutiles como expresiones faciales, lenguaje corporal y paletas de colores. Los momentos silenciosos en las películas a menudo son poderosos debido al énfasis en la narración visual en lugar del diálogo.

#6. Fondos como herramientas narrativas

Los fondos en las películas de Studio Ghibli son más que meras configuraciones; Reflejan el tono y los temas de la historia. A menudo presentan elementos simbólicos que agregan profundidad a la narrativa mientras mantienen un equilibrio armonioso con los personajes.

#7. Uso del color

El color es esencial para la narración de historias en películas de Ghibli. Las paletas vibrantes mejoran el estado de ánimo y la atmósfera, mientras que los tonos apagados transmiten introspección o tristeza. Los colores de la ropa terrosa complementan la estética naturalista de sus mundos.

#8. Fusión cultural

El estilo artístico de Ghibli combina elementos culturales japoneses con influencias de la antigua animación europea, creando una estética única que atrae a nivel mundial.

Las mejores herramientas de inteligencia artificial gratuita para generar imágenes al estilo de Gibli

Para crear imágenes de estilo ghibli sin usar chatgpt o grok, considere las siguientes herramientas y sitios web gratuitos de IA:

#1. Grok:

Generar gratis #Ghibli Imágenes de anime usando herramientas de IA, ¡absolutamente gratis!

Las mejores herramientas de IA gratuitas para el arte de estilo Gibli Studio:
.
1. Grok AI: esta herramienta crea arte de anime soñador y pintado a mano que se ve directamente de una película de Ghibli. Perfecto para carretes estéticos, fondos de pantalla y … pic.twitter.com/afv5zgpotw

– irfa ن (@RealRanairfan) 29 de marzo de 2025

Grok es una plataforma gratuita que permite a los usuarios transformar sus fotos en retratos al estilo Studio Gibli. Al cargar una imagen e ingresar un mensaje como “convertir esta imagen en estilo Gibli”, la herramienta genera una versión estilizada que se puede guardar o compartir a través de un enlace.

Para crear imágenes de estilo ghibli usando Grok, siga estos pasos:

Acceder a Grok: Abra el sitio web o aplicación de Grok.
Seleccione el modelo Grok 3: Asegúrese de que Grok 3 se seleccione como modelo activo.
Sube tu imagen: Haga clic en el icono de PaperClip en la esquina inferior izquierda para cargar la foto deseada.
Ingrese un mensaje: Escriba una solicitud como “Transforme esta imagen en una ilustración de estilo Gibli Studio”.
Generar la imagen: Grok procesará su solicitud y proporcionará la imagen estilizada.

Si el resultado no es satisfactorio, puede refinar la imagen utilizando las herramientas de edición de Grok.

#2. Fotor:

Fotor es una plataforma gratuita que permite a los usuarios transformar sus imágenes en obras de arte al estilo Studio Gibli. Ofrece múltiples opciones de estilo, como “estilo Ghibli”, “Ghibli Style 1″ y Ghibli Style 2. ”

Para usar Fotor, simplemente cargue la imagen que desea convertir, seleccione su estilo deseado y la herramienta generará la imagen inspirada en GHIBLI para que lo descargue y disfrute.

Además de la conversión de imágenes, Fotor proporciona características como edición de fotos con AI, lo que permite a los usuarios mejorar aún más sus creaciones de estilo Ghibli. La interfaz fácil de usar de la plataforma la hace accesible tanto para principiantes como para los profesionales que buscan explorar el arte inspirado en el anime.

#3. Getimg.ai:

GetImg.ai es una herramienta de IA versátil que admite la generación de imágenes de estilo Studio Ghibli de forma gratuita. Ofrece características de texto a imagen y imagen a imagen, lo que permite a los usuarios describir escenas o cargar imágenes para la transformación en obras de arte inspiradas en GHIBLI.

La plataforma permite a los usuarios crear paisajes soñadores, personajes caprichosos y paletas de colores suaves que recuerden a las películas de Miyazaki.

#4. Insmind:

INSMind se especializa en transformar fotos en obras de arte al estilo Studio Ghibli a través de su filtro AI gratuito. Se destaca para capturar la esencia de la estética caprichosa y soñadora de Ghibli, produciendo imágenes con colores vibrantes e iluminación suave.

Los usuarios pueden cargar fácilmente sus imágenes y aplicar los filtros para crear retratos o escenas inspiradas en el anime que se parecen mucho al estilo icónico de las películas de Ghibli.

#5. Cara abrazada:

Hugging Face recibe al modelo Studio Gibli, desarrollado por Ishallriseagain, que se adapta a la generación de obras de arte en el estilo icónico de Studio Ghibli Animations.

El modelo utiliza indicaciones especializadas como “Studio_Ghibli_anime_style” para replicar los elementos estéticos de las películas de Ghibli, incluidos diseños extravagantes y paletas de colores pastel.

Accesible de forma gratuita en abrazar la cara, este modelo apoya proyectos creativos y obras de arte personal al tiempo que enfatiza el uso ético al desalentar la creación de NFT. Su facilidad de implementación permite a los artistas y desarrolladores experimentar con la generación de imágenes de estilo Ghibli sin esfuerzo.

#6. Intermediario

MidJourney es un poderoso generador de imágenes AI conocido por su capacidad para replicar estilos artísticos complejos, incluida la estética caprichosa de Studio Ghibli.

Los usuarios pueden crear imágenes inspiradas en GHIBLI ingresando indicaciones detalladas que describen personajes, configuraciones y estados de ánimo.

MidJourney ofrece 25 generaciones de imágenes gratuitas, lo que permite a los usuarios experimentar sin costo. Accesible a través de su plataforma web o discordia, proporciona herramientas para refinar creaciones con opciones como niveles de estilización y relaciones de aspecto.

Mediante el uso de indicaciones como “retrato de estilo Studio Ghibli” o “bosque caprichoso en estilo Gibli”, los usuarios pueden lograr resultados de alta calidad.

#7. Dall · E 3

Dall · E 3, desarrollado por OpenAI, admite la generación de imágenes de estilo Ghibli a través de sus capacidades avanzadas de texto a imagen.

Si bien está disponible principalmente para los usuarios de ChatGPT más, a veces se ofrece acceso gratuito durante pruebas limitadas o a través de plataformas específicas.

Los usuarios pueden ingresar descripciones detalladas como “una aldea serena en el estilo de Studio Ghibli” para generar obras de arte que reflejen el encanto característico de Miyazaki. Dall · E 3 sobresale en la producción de detalles intrincados y composiciones vibrantes que se alinean con la estética de Ghibli.

#8. Leonardo.ai

Leonardo.ai es una plataforma versátil que permite a los usuarios generar imágenes de estilo Gibli de forma gratuita con sus herramientas de texto a imagen e imagen a imagen.

Al aprovechar los modelos AI avanzados, replica las texturas suaves, las atmósferas de ensueño y los colores vibrantes característicos de las películas de Studio Gibli. Los usuarios pueden cargar fotos o artesanías como “Forestal místico en estilo Gibli” para producir resultados impresionantes.

Leonardo.ai también ofrece opciones de personalización, como intensidad de estilo y ajustes de composición, lo que permite un control preciso sobre la salida final. Su accesibilidad de nivel libre lo convierte en una opción popular entre los fanáticos del arte inspirado en el anime.

#9. Pista ML

Runway ML proporciona herramientas para crear imágenes de estilo Studio Ghibli utilizando sus modelos de generación de imágenes con IA. Admite transformaciones de texto a imagen y video a imagen, lo que lo hace ideal para proyectos dinámicos inspirados en las obras de Miyazaki.

Los usuarios pueden ingresar indicaciones como “un prado mágico en el estilo Gibli” o cargar imágenes existentes para mejorar. Si bien algunas características pueden requerir pago, Runway ML ofrece créditos gratuitos para que los principiantes exploren sus capacidades.

#10. Difusión estable

La difusión estable es un modelo de IA de código abierto que admite la creación gratuita de imágenes al estilo Studio Ghibli a través de herramientas y plataformas desarrolladas por la comunidad.

Los usuarios pueden ajustar el modelo o usar versiones previamente capacitadas para generar arte con indicaciones como “aldea caprichosa en el estilo de Studio Ghibli”. Su flexibilidad permite una amplia personalización, desde paletas de colores hasta la composición de la escena, asegurando la alineación con la estética de Ghibli.

Cómo crear arte inspirado en Ghibli usando AI: 10 indicaciones para generar imágenes de estilo ghibli en chatgpt

Han pasado 24 horas desde que Operai sacudió inesperadamente el mundo de la imagen de IA con una generación de imágenes 4O.

Estos son los 14 ejemplos más alucinantes hasta ahora (100% generados por IA):

1. Memes de estilo Ghibli Studiopic.twitter.com/e38mbnpnqh

– Barsee (@heybarsee) 26 de marzo de 2025

Aquí hay una guía sobre cómo crear arte inspirado en Gibli usando AI, centrándose en ChatGPT, junto con 10 indicaciones para generar imágenes de estilo Ghibli:

Creación de imágenes de estilo Gibli con chatgpt

Access ChatGPT: Visite el sitio web o aplicación de ChatGPT.
Sube tu imagen: Haga clic en el “+” Iniciar sesión para cargar una foto que desee transformar.
Elabore su aviso: Use indicaciones específicas para guiar a la IA en la creación de una imagen de estilo Gibli.
Generar la imagen: Envíe su aviso y espere a que se procese la imagen.

10 indicaciones para imágenes de estilo Gibli

“Transforme esta foto en el estilo de animación de Studio Ghibli con colores vibrantes, iluminación suave y la sensación caprichosa característica de las películas de Miyazaki”.
“Muéstrame en Studio Ghibli Style”.
“¿Puedes fibrar mi foto?”
“¿Cómo me vería como personaje de Ghibli?”
“Transforme las fotos en los personajes inspirados en Studio Ghibli, con un enfoque en los detalles y la fantasía”.
“¿Cómo ghibli dibujaría mis características?”
“Convierta esta foto en el arte estilo Studio Ghibli con colores vibrantes, paisajes de ensueño y ese encanto de miyazaki”.
“Haga esta imagen de estilo Ghibli con colores pastel y una atmósfera mágica”.
“Transforme esta foto en una ilustración animada dibujada a mano. Aplique técnicas de acuarela, líneas orgánicas suaves y una paleta de colores cálidos”.
“Cree una escena inspirada en Ghibli con colinas onduladas, nubes esponjosas y un bosque caprichoso”.

Estas indicaciones ayudan a guiar a la IA para capturar la esencia del estilo único de Studio Ghibli, que incluye colores vibrantes, detalles caprichosos y una atmósfera mágica.