Noticias
Agentes de motor de búsqueda multimodal alimentados por Blip-2 y Gemini

Esta publicación fue coautora de Rafael Groedes.
Introducción
Los modelos tradicionales solo pueden procesar un solo tipo de datos, como texto, imágenes o datos tabulares. La multimodalidad es un concepto de tendencia en la comunidad de investigación de IA, que se refiere a la capacidad de un modelo para aprender de múltiples tipos de datos simultáneamente. Esta nueva tecnología (no es realmente nueva, pero mejoró significativamente en los últimos meses) tiene numerosas aplicaciones potenciales que transformarán la experiencia del usuario de muchos productos.
Un buen ejemplo sería la nueva forma en que los motores de búsqueda funcionarán en el futuro, donde los usuarios pueden ingresar consultas utilizando una combinación de modalidades, como texto, imágenes, audio, etc. Otro ejemplo podría ser mejorar los sistemas de atención al cliente con AI para la voz. e entradas de texto. En el comercio electrónico, están mejorando el descubrimiento de productos al permitir a los usuarios buscar usando imágenes y texto. Usaremos este último como nuestro estudio de caso en este artículo.
Los laboratorios de investigación de IA Frontier están enviando varios modelos que admiten múltiples modalidades cada mes. Clip y Dall-E por OpenAI y Blip-2 por Salesforce Combine Image and Text. ImageBind por meta expandió el concepto de modalidad múltiple a seis modalidades (texto, audio, profundidad, térmica, imagen y unidades de medición inerciales).
En este artículo, exploraremos Blip-2 explicando su arquitectura, la forma en que funciona su función de pérdida y su proceso de capacitación. También presentamos un caso de uso práctico que combina Blip-2 y Gemini para crear un agente de búsqueda de moda multimodal que pueda ayudar a los clientes a encontrar el mejor atuendo basado en texto o mensajes de texto e indicaciones de imagen.
Como siempre, el código está disponible en nuestro GitHub.
Blip-2: un modelo multimodal
Blip-2 (pre-entrenamiento de imagen de lenguaje de arranque) [1] es un modelo de lenguaje de visión diseñado para resolver tareas como la respuesta de las preguntas visuales o el razonamiento multimodal basado en entradas de ambas modalidades: imagen y texto. Como veremos a continuación, este modelo se desarrolló para abordar dos desafíos principales en el dominio del idioma de la visión:
- Reducir el costo computacional Utilizando codificadores visuales pre-entrenados congelados y LLM, reduciendo drásticamente los recursos de capacitación necesarios en comparación con una capacitación conjunta de redes de visión e idiomas.
- Mejora de la alineación del idioma visual Al introducir Q-former. Q-Former acerca los incrustaciones visuales y textuales, lo que lleva a un mejor rendimiento de la tarea de razonamiento y la capacidad de realizar una recuperación multimodal.
Arquitectura
La arquitectura de Blip-2 sigue un diseño modular que integra tres módulos:
- Visual Codificador es un modelo visual congelado, como VIT, que extrae incrustaciones visuales de las imágenes de entrada (que luego se usan en tareas aguas abajo).
- Consulta Transformador (Q-Former) es la clave de esta arquitectura. Consiste en un transformador ligero entrenable que actúa como una capa intermedia entre los modelos visuales y de lenguaje. Es responsable de generar consultas contextualizadas a partir de los incrustaciones visuales para que el modelo de lenguaje pueda procesarlos de manera efectiva.
- LLM es un LLM pre-capacitado congelado que procesa incrustaciones visuales refinadas para generar descripciones o respuestas textuales.

Funciones de pérdida
Blip-2 tiene tres funciones de pérdida para entrenar el Q-formador módulo:
- Pérdida de texto de texto [2] Haga cumplir la alineación entre los incrustaciones visuales y de texto maximizando la similitud de las representaciones emparejadas de texto de imagen mientras se separa pares diferentes.
- Pérdida de coincidencia de texto de imagen [3] es una pérdida de clasificación binaria que tiene como objetivo hacer que el modelo aprenda alineaciones de grano fino predecir si una descripción de texto coincide con la imagen (positivo, es decir, objetivo = 1) o no (negativo, es decir, objetivo = 0).
- Pérdida de generación de texto con conexión a imagen [4] es una pérdida de entropía cruzada utilizada en LLM para predecir la probabilidad del siguiente token en la secuencia. La arquitectura Q-former no permite interacciones entre los incrustaciones de la imagen y los tokens de texto; Por lo tanto, el texto debe generarse basándose únicamente en la información visual, lo que obliga al modelo a extraer características visuales relevantes.
Para ambosPérdida de contraste de texto mago y Pérdida de coincidencia de texto de imagenlos autores utilizaron un muestreo negativo en lotes, lo que significa que si tenemos un tamaño por lotes de 512, cada par de texto de imagen tiene una muestra positiva y 511 muestras negativas. Este enfoque aumenta la eficiencia ya que las muestras negativas se toman del lote, y no hay necesidad de buscar todo el conjunto de datos. También proporciona un conjunto más diverso de comparaciones, lo que lleva a una mejor estimación de gradiente y una convergencia más rápida.

Proceso de capacitación
El entrenamiento de Blip-2 consta de dos etapas:
Etapa 1-Bootstrapping Representación visual en idioma:
- El modelo recibe imágenes como entrada que se convierten en una incrustación utilizando el codificador visual congelado.
- Junto con estas imágenes, el modelo recibe sus descripciones de texto, que también se convierten en incrustaciones.
- El Q-former está entrenado usando pérdida de texto de textoasegurando que las integridades visuales se alineen estrechamente con sus incrustaciones textuales correspondientes y se aleje más de las descripciones de texto que no coinciden. Al mismo tiempo, el Pérdida de coincidencia de texto de imagen Ayuda al modelo a desarrollar representaciones de grano fino aprendiendo a clasificar si un texto determinado describe correctamente la imagen o no.

Etapa 2-Bootstrapping Vision-to Language Generation:
- El modelo de lenguaje previamente capacitado está integrado en la arquitectura para generar texto basado en las representaciones previamente aprendidas.
- El enfoque cambia de la alineación a la generación de texto mediante el uso de la pérdida de generación de texto con conexión a imagen que mejora las capacidades del modelo de razonamiento y generación de texto.

Creación de un agente de búsqueda de moda multimodal usando Blip-2 y Gemini
En esta sección, aprovecharemos las capacidades multimodales de Blip-2 para construir un agente de búsqueda de asistente de moda que pueda recibir texto de entrada y/o imágenes y recomendaciones de devolver. Para las capacidades de conversación del agente, utilizaremos Gemini 1.5 Pro alojado en Vertex AI, y para la interfaz, construiremos una aplicación de transmisión.
El conjunto de datos de moda utilizado en este caso de uso tiene licencia bajo la licencia MIT y se puede acceder a través del siguiente enlace: conjunto de datos de imágenes de productos de moda. Consiste en más de 44k imágenes de productos de moda.
El primer paso para hacer esto posible es configurar un Vector DB. Esto permite al agente realizar una búsqueda vectorizada basada en los incrustaciones de la imagen de los elementos disponibles en la tienda y los incrustaciones de texto o imagen de la entrada. Utilizamos Docker y Docker-Compose para ayudarnos a establecer el medio ambiente:
- Compuesto de acopolador con Postgres (la base de datos) y la extensión PGVector que permite la búsqueda vectorizada.
services:
postgres:
container_name: container-pg
image: ankane/pgvector
hostname: localhost
ports:
- "5432:5432"
env_file:
- ./env/postgres.env
volumes:
- postgres-data:/var/lib/postgresql/data
restart: unless-stopped
pgadmin:
container_name: container-pgadmin
image: dpage/pgadmin4
depends_on:
- postgres
ports:
- "5050:80"
env_file:
- ./env/pgadmin.env
restart: unless-stopped
volumes:
postgres-data:
- Archivo env enviado con las variables para iniciar sesión en la base de datos.
POSTGRES_DB=postgres
POSTGRES_USER=admin
POSTGRES_PASSWORD=root
- Archivo env envado con las variables para iniciar sesión en la interfaz de usuario para consultar manual la base de datos (opcional).
[email protected]
PGADMIN_DEFAULT_PASSWORD=root
- Archivo ENV de conexión con todos los componentes para usar para conectarse a PGVector usando Langchain.
DRIVER=psycopg
HOST=localhost
PORT=5432
DATABASE=postgres
USERNAME=admin
PASSWORD=root
Una vez que el Vector DB está configurado (Docker -Compose Up -D), es hora de crear los agentes y herramientas para realizar una búsqueda multimodal. Construimos dos agentes para resolver este caso de uso: uno para comprender lo que el usuario solicita y otro para proporcionar la recomendación:
- El clasificador es responsable de recibir el mensaje de entrada del cliente y extraer qué categoría de ropa está buscando, por ejemplo, camisetas, pantalones, zapatos, camisetas o camisas. También devolverá la cantidad de artículos que el cliente desea para que podamos recuperar el número exacto del Vector DB.
from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_google_vertexai import ChatVertexAI
from pydantic import BaseModel, Field
class ClassifierOutput(BaseModel):
"""
Data structure for the model's output.
"""
category: list = Field(
description="A list of clothes category to search for ('t-shirt', 'pants', 'shoes', 'jersey', 'shirt')."
)
number_of_items: int = Field(description="The number of items we should retrieve.")
class Classifier:
"""
Classifier class for classification of input text.
"""
def __init__(self, model: ChatVertexAI) -> None:
"""
Initialize the Chain class by creating the chain.
Args:
model (ChatVertexAI): The LLM model.
"""
super().__init__()
parser = PydanticOutputParser(pydantic_object=ClassifierOutput)
text_prompt = """
You are a fashion assistant expert on understanding what a customer needs and on extracting the category or categories of clothes a customer wants from the given text.
Text:
text
Instructions:
1. Read carefully the text.
2. Extract the category or categories of clothes the customer is looking for, it can be:
- t-shirt if the custimer is looking for a t-shirt.
- pants if the customer is looking for pants.
- jacket if the customer is looking for a jacket.
- shoes if the customer is looking for shoes.
- jersey if the customer is looking for a jersey.
- shirt if the customer is looking for a shirt.
3. If the customer is looking for multiple items of the same category, return the number of items we should retrieve. If not specfied but the user asked for more than 1, return 2.
4. If the customer is looking for multiple category, the number of items should be 1.
5. Return a valid JSON with the categories found, the key must be 'category' and the value must be a list with the categories found and 'number_of_items' with the number of items we should retrieve.
Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below.
format_instructions
Answer:
"""
prompt = PromptTemplate.from_template(
text_prompt, partial_variables="format_instructions": parser.get_format_instructions()
)
self.chain = prompt | model | parser
def classify(self, text: str) -> ClassifierOutput:
"""
Get the category from the model based on the text context.
Args:
text (str): user message.
Returns:
ClassifierOutput: The model's answer.
"""
try:
return self.chain.invoke("text": text)
except Exception as e:
raise RuntimeError(f"Error invoking the chain: e")
- El asistente es responsable de responder con una recomendación personalizada recuperada del Vector DB. En este caso, también estamos aprovechando las capacidades multimodales de Gemini para analizar las imágenes recuperadas y producir una mejor respuesta.
from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_google_vertexai import ChatVertexAI
from pydantic import BaseModel, Field
class AssistantOutput(BaseModel):
"""
Data structure for the model's output.
"""
answer: str = Field(description="A string with the fashion advice for the customer.")
class Assistant:
"""
Assitant class for providing fashion advice.
"""
def __init__(self, model: ChatVertexAI) -> None:
"""
Initialize the Chain class by creating the chain.
Args:
model (ChatVertexAI): The LLM model.
"""
super().__init__()
parser = PydanticOutputParser(pydantic_object=AssistantOutput)
text_prompt = """
You work for a fashion store and you are a fashion assistant expert on understanding what a customer needs.
Based on the items that are available in the store and the customer message below, provide a fashion advice for the customer.
Number of items: number_of_items
Images of items:
items
Customer message:
customer_message
Instructions:
1. Check carefully the images provided.
2. Read carefully the customer needs.
3. Provide a fashion advice for the customer based on the items and customer message.
4. Return a valid JSON with the advice, the key must be 'answer' and the value must be a string with your advice.
Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below.
format_instructions
Answer:
"""
prompt = PromptTemplate.from_template(
text_prompt, partial_variables="format_instructions": parser.get_format_instructions()
)
self.chain = prompt | model | parser
def get_advice(self, text: str, items: list, number_of_items: int) -> AssistantOutput:
"""
Get advice from the model based on the text and items context.
Args:
text (str): user message.
items (list): items found for the customer.
number_of_items (int): number of items to be retrieved.
Returns:
AssistantOutput: The model's answer.
"""
try:
return self.chain.invoke("customer_message": text, "items": items, "number_of_items": number_of_items)
except Exception as e:
raise RuntimeError(f"Error invoking the chain: e")
En términos de herramientas, definimos uno basado en Blip-2. Consiste en una función que recibe un texto o imagen como entrada y devuelve incrustaciones normalizadas. Dependiendo de la entrada, los incrustaciones se producen utilizando el modelo de incrustación de texto o el modelo de incrustación de imagen de Blip-2.
from typing import Optional
import numpy as np
import torch
import torch.nn.functional as F
from PIL import Image
from PIL.JpegImagePlugin import JpegImageFile
from transformers import AutoProcessor, Blip2TextModelWithProjection, Blip2VisionModelWithProjection
PROCESSOR = AutoProcessor.from_pretrained("Salesforce/blip2-itm-vit-g")
TEXT_MODEL = Blip2TextModelWithProjection.from_pretrained("Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32).to(
"cpu"
)
IMAGE_MODEL = Blip2VisionModelWithProjection.from_pretrained(
"Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32
).to("cpu")
def generate_embeddings(text: Optional[str] = None, image: Optional[JpegImageFile] = None) -> np.ndarray:
"""
Generate embeddings from text or image using the Blip2 model.
Args:
text (Optional[str]): customer input text
image (Optional[Image]): customer input image
Returns:
np.ndarray: embedding vector
"""
if text:
inputs = PROCESSOR(text=text, return_tensors="pt").to("cpu")
outputs = TEXT_MODEL(**inputs)
embedding = F.normalize(outputs.text_embeds, p=2, dim=1)[:, 0, :].detach().numpy().flatten()
else:
inputs = PROCESSOR(images=image, return_tensors="pt").to("cpu", torch.float16)
outputs = IMAGE_MODEL(**inputs)
embedding = F.normalize(outputs.image_embeds, p=2, dim=1).mean(dim=1).detach().numpy().flatten()
return embedding
Tenga en cuenta que creamos la conexión a PGVector con un modelo de incrustación diferente porque es obligatorio, aunque no se utilizará ya que almacenaremos los incrustaciones producidos por Blip-2 directamente.
En el ciclo a continuación, iteramos sobre todas las categorías de ropa, cargamos las imágenes y creamos y agreguamos las incrustaciones que se almacenarán en el Vector DB en una lista. Además, almacenamos la ruta a la imagen como texto para que podamos representarla en nuestra aplicación de transmisión. Finalmente, almacenamos la categoría para filtrar los resultados en función de la categoría predicha por el agente del clasificador.
import glob
import os
from dotenv import load_dotenv
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain_postgres.vectorstores import PGVector
from PIL import Image
from blip2 import generate_embeddings
load_dotenv("env/connection.env")
CONNECTION_STRING = PGVector.connection_string_from_db_params(
driver=os.getenv("DRIVER"),
host=os.getenv("HOST"),
port=os.getenv("PORT"),
database=os.getenv("DATABASE"),
user=os.getenv("USERNAME"),
password=os.getenv("PASSWORD"),
)
vector_db = PGVector(
embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"), # does not matter for our use case
collection_name="fashion",
connection=CONNECTION_STRING,
use_jsonb=True,
)
if __name__ == "__main__":
# generate image embeddings
# save path to image in text
# save category in metadata
texts = []
embeddings = []
metadatas = []
for category in glob.glob("images/*"):
cat = category.split("/")[-1]
for img in glob.glob(f"category/*"):
texts.append(img)
embeddings.append(generate_embeddings(image=Image.open(img)).tolist())
metadatas.append("category": cat)
vector_db.add_embeddings(texts, embeddings, metadatas)
Ahora podemos construir nuestra aplicación aerodinámica para chatear con nuestro asistente y pedir recomendaciones. El chat comienza con el agente preguntando cómo puede ayudar y proporcionar un cuadro para que el cliente escriba un mensaje y/o cargue un archivo.
Una vez que el cliente responde, el flujo de trabajo es el siguiente:
- El agente del clasificador identifica qué categorías de ropa está buscando el cliente y cuántas unidades desean.
- Si el cliente carga un archivo, este archivo se convertirá en una incrustación, y buscaremos elementos similares en el Vector DB, condicionado por la categoría de ropa que el cliente desea y la cantidad de unidades.
- Los elementos recuperados y el mensaje de entrada del cliente se envían al agente asistente para producir el mensaje de recomendación que se transforma junto con las imágenes recuperadas.
- Si el cliente no cargó un archivo, el proceso es el mismo, pero en lugar de generar insertos de imagen para la recuperación, creamos incrustaciones de texto.
import os
import streamlit as st
from dotenv import load_dotenv
from langchain_google_vertexai import ChatVertexAI
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain_postgres.vectorstores import PGVector
from PIL import Image
import utils
from assistant import Assistant
from blip2 import generate_embeddings
from classifier import Classifier
load_dotenv("env/connection.env")
load_dotenv("env/llm.env")
CONNECTION_STRING = PGVector.connection_string_from_db_params(
driver=os.getenv("DRIVER"),
host=os.getenv("HOST"),
port=os.getenv("PORT"),
database=os.getenv("DATABASE"),
user=os.getenv("USERNAME"),
password=os.getenv("PASSWORD"),
)
vector_db = PGVector(
embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"), # does not matter for our use case
collection_name="fashion",
connection=CONNECTION_STRING,
use_jsonb=True,
)
model = ChatVertexAI(model_name=os.getenv("MODEL_NAME"), project=os.getenv("PROJECT_ID"), temperarture=0.0)
classifier = Classifier(model)
assistant = Assistant(model)
st.title("Welcome to ZAAI's Fashion Assistant")
user_input = st.text_input("Hi, I'm ZAAI's Fashion Assistant. How can I help you today?")
uploaded_file = st.file_uploader("Upload an image", type=["jpg", "jpeg", "png"])
if st.button("Submit"):
# understand what the user is asking for
classification = classifier.classify(user_input)
if uploaded_file:
image = Image.open(uploaded_file)
image.save("input_image.jpg")
embedding = generate_embeddings(image=image)
else:
# create text embeddings in case the user does not upload an image
embedding = generate_embeddings(text=user_input)
# create a list of items to be retrieved and the path
retrieved_items = []
retrieved_items_path = []
for item in classification.category:
clothes = vector_db.similarity_search_by_vector(
embedding, k=classification.number_of_items, filter="category": "$in": [item]
)
for clothe in clothes:
retrieved_items.append("bytesBase64Encoded": utils.encode_image_to_base64(clothe.page_content))
retrieved_items_path.append(clothe.page_content)
# get assistant's recommendation
assistant_output = assistant.get_advice(user_input, retrieved_items, len(retrieved_items))
st.write(assistant_output.answer)
cols = st.columns(len(retrieved_items)+1)
for col, retrieved_item in zip(cols, ["input_image.jpg"]+retrieved_items_path):
col.image(retrieved_item)
user_input = st.text_input("")
else:
st.warning("Please provide text.")
Ambos ejemplos se pueden ver a continuación:
La Figura 6 muestra un ejemplo en el que el cliente cargó una imagen de una camiseta roja y le pidió al agente que completara el atuendo.

La Figura 7 muestra un ejemplo más directo en el que el cliente le pidió al agente que les mostrara camisetas negras.

Conclusión
La IA multimodal ya no es solo un tema de investigación. Se está utilizando en la industria para remodelar la forma en que los clientes interactúan con los catálogos de la empresa. En este artículo, exploramos cómo se pueden combinar modelos multimodales como Blip-2 y Gemini para abordar los problemas del mundo real y proporcionar una experiencia más personalizada a los clientes de una manera escalable.
Exploramos la arquitectura de Blip-2 en profundidad, demostrando cómo une la brecha entre las modalidades de texto y imagen. Para extender sus capacidades, desarrollamos un sistema de agentes, cada uno especializado en diferentes tareas. Este sistema integra un LLM (Gemini) y una base de datos vectorial, lo que permite la recuperación del catálogo de productos utilizando incrustaciones de texto e imágenes. También aprovechamos el razonamiento multimodal de Géminis para mejorar las respuestas del agente de ventas para ser más humanos.
Con herramientas como Blip-2, Gemini y PG Vector, el futuro de la búsqueda y recuperación multimodal ya está sucediendo, y los motores de búsqueda del futuro se verán muy diferentes de los que usamos hoy.
Acerca de mí
Empresario en serie y líder en el espacio de IA. Desarrollo productos de IA para empresas e invierto en nuevas empresas centradas en la IA.
Fundador @ Zaai | LinkedIn | X/Twitter
Referencias
[1] Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi. 2023. BLIP-2: Bootstrapping Language-Image Training con codificadores de imágenes congeladas y modelos de idiomas grandes. ARXIV: 2301.12597
[2] Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, CE Liu, Dilip Krishnan. 2020. Aprendizaje contrastante supervisado. ARXIV: 2004.11362
[3] Junnan Li, Rampasaath R. Selvaraju, Akhilesh Deepak Gotmare, Shafiq Joty, Caiming Xiong, Steven Hoi. 2021. Alinee antes del fusible: el aprendizaje de la representación del lenguaje y la visión con la destilación de impulso. ARXIV: 2107.07651
[4] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon. 2019. Modelo de lenguaje unificado Precrendimiento para la comprensión del lenguaje natural y la generación. ARXIV: 1905.03197
Noticias
Estrategia de Openai para mantener competitiva a la IA estadounidense

La siguiente es una publicación invitada de Ahmad Shadid, fundador de O.XYZ.
En una era en la que la inteligencia artificial dicta la dinámica del poder global, OpenAi está haciendo movimientos audaces para asegurar el dominio de Estados Unidos en el sector. Su nuevo plan llamado “Plan de acción de IA” intenta aliviar el marco regulatorio, implementar controles de exportación y aumentar la inversión federal para mantenerse por delante de la expansión de la IA de China.
Operai firmó un acuerdo con la administración Trump para el nuevo “Plan de acción de AI“El 13 de marzo. El acuerdo giró en torno a la supervisión regulatoria limitada y el rápido desarrollo de IA en los Estados Unidos.
La propuesta destaca una verdad fundamental: demasiada regulación a nivel estatal podría socavar el liderazgo de Estados Unidos en la IA, incluso cuando los jugadores de IA respaldados por China, liderados por Deepseek, continúan creciendo rápidamente.
Defender la IA de la censura
El modelo R1 de Deepseek, lanzado en enero de 2025, se realizó al nivel de los principales sistemas de IA de EE. UU., Aunque se ha desarrollado a un costo mucho menor, desafiando el dominio de los gigantes tecnológicos estadounidenses.
Esto resultó ser una gran venta de acciones de EE. UU., Con empresas como Nvidia que sufren grandes pérdidas. Poco después, el gobierno de los Estados Unidos levantó banderas rojas sobre la seguridad nacional y la privacidad de los datos, debatiendo las soluciones de políticas para mantener a Estados Unidos al frente en las mismas tecnologías para las que escribió las reglas.
El enfoque de OpenAI representa un punto fundamental en la política de IA estadounidense, combinando la defensa regulatoria con la ambición industrial para garantizar que Estados Unidos se mantenga al tanto del juego cuando se trata de IA. Además, en el corazón del plan de OpenAI hay una estrategia de control de exportación que tiene como objetivo limitar la influencia en expansión del país en China.
Esto evitará el mal uso de las plataformas y tecnologías de IA mediante naciones opuestas. En consecuencia, los controles de exportación protegerán la seguridad nacional de los Estados Unidos.
El plan de OpenAI también exige el uso de dólares federales para explicar al mundo que la IA de fabricación estadounidense es más segura y que las empresas con sede en los Estados Unidos deberían mantenerse a la vanguardia de la transmisión internacional de IA.
Deepseek no es solo una iniciativa de IA china y un competidor comercial, sino también un aliado fundamental del Partido Comunista Chino (CCP). A fines de enero, Deepseek se volvió infame por bloquear la información sobre la masacre de la Plaza Tiananmen de 1989, montando una ola de capturas de pantalla en las redes sociales señalando Censura de China.
El plan de $ 500 mil millones
Una parte central del tono de OpenAi se está bloqueando en mayor financiación federal para infraestructura de IA. Esto significa garantizar que la marca de alta agua para el progreso estadounidense en el campo de la IA no se preocupe por la protección de lo que viene a continuación de las amenazas extranjeras, sino que también refuerza la infraestructura computacional y de datos necesaria para mantener el crecimiento a largo plazo.
El Proyecto Stargatepor ejemplo, es un esfuerzo conjunto de Openai, SoftBank, Oracle y MGX que proporcionará hasta $ 500 mil millones para el desarrollo de la infraestructura de IA en los Estados Unidos.
Esta ambiciosa iniciativa está destinada a consolidar la superioridad de la IA estadounidense mientras produce miles de empleos domésticos, mucho en contra de la creencia de la narrativa de “AI podría reemplazar su trabajo”.
Es un cambio táctico importante en el enfoque de la política de IA, reconociendo que las inversiones en el sector privado no son suficientes para seguir siendo competitivos en comparación con los esfuerzos patrocinados por el estado como DeepSeek de China.
El proyecto Stargate quiere garantizar la construcción de centros de datos avanzados y la expansión de la fabricación de semiconductores dentro de los Estados Unidos para mantener el desarrollo de la IA doméstico en los Estados Unidos.
En sus primeras etapas, el apoyo federal a la infraestructura de IA es crítico, tanto para la creciente competitividad económica como para la seguridad nacional. Las características con IA a menudo se usan en defensa e inteligencia nacional. Por ejemplo, Escudo de Nova de AI es un dron de quadcopter autónomo que utiliza IA para volar a través de entornos complejos sin GPS para recopilar información que salva vidas en entornos de combate.
Además, la IA también es crítica en la defensa cibernética contra el pirateo, el phishing, el ransomware y otras amenazas de ciberseguridad porque puede identificar desviaciones o anormalidades en los sistemas en tiempo real. Por lo tanto, su papel en la detección de patrones y detectar irregularidades ayuda a los Estados Unidos a salvaguardar la infraestructura de defensa crítica de los ataques cibernéticos, lo que hace que sea aún más importante acelerar el crecimiento de la IA para la defensa.
Batalla por los modelos de entrenamiento de IA
Un elemento clave de la propuesta de OpenAI es el llamado a un nuevo enfoque de derechos de autor que garantice que los modelos de IA estadounidenses puedan acceder a material con derechos de autor para su uso en su capacitación. La capacidad de entrenar en una amplia gama de conjuntos de datos es vital para mantener sofisticados modelos de IA.
Si las políticas de derechos de autor son restrictivas, podría poner a los Estados Unidos en desventaja a sus competidores extranjeros, especialmente los chinos, que operan entre la aplicación de derechos de autor más débil.
Las herramientas de IA se evalúan por riesgo, escrutinio de la junta de gobierno y marcos de verificación de cumplimiento como el Política de IA de la casa y aprobaciones condicionales del DHS. Aunque el ‘pase rápido’ de Fedramp puede acelerar el despliegue, las antenas de la FTC y las regulaciones mantendrán los propósitos de IA en el mismo estante que la política de seguridad nacional y las protecciones del consumidor.
Estas salvaguardas, aunque sin duda son muy importantes, a menudo ralentizan el ritmo de la adopción de IA en casos de uso del gobierno crucial.
Ahora, OpenAi, en particular, está presionando por una asociación entre el gobierno y la industria, donde las compañías de IA contribuyen voluntariamente con los datos de sus modelos, y a cambio, no estarían sujetos a restricciones estatales fuertes.
No es un camino fácil por delante
Aunque la propuesta de OpenAI es audaz y ambiciosa, plantea serias preguntas sobre cuánto regulación puede ayudar a impulsar la innovación en este floreciente sector.
Si bien debilitar la supervisión regulatoria a nivel estatal dejará espacio para desarrollos de IA más rápidos, hay una preocupación significativa por resolver. La estructura de la asociación de las organizaciones de IA con el gobierno federal podría crear el potencial para que las empresas privadas tengan un poder descomunal sobre las políticas de la nación sobre la IA y los propios usuarios.
Independientemente de estos miedos, una cosa está clara: Estados Unidos no puede permitirse el lujo de quedarse atrás de sus competidores en el desarrollo de la IA. Si se hace bien, esta asociación podría garantizar que la IA estadounidense sea el marco dominante en todo el mundo en lugar de ceder terreno a competidores extranjeros controlados por el gobierno como el profundo de China.
Mencionado en este artículo

Noticias
El nuevo generador de imágenes de Openai es servidores derritiendo

San Francisco, California – 16 de noviembre: el CEO de OpenAi, Sam Altman, observa durante la Cumbre del CEO de APEC … Más
Getty Images
Aquí hay cinco cosas en tecnología que ocurrieron esta semana en NEWS TECH Tech y cómo afectan su negocio. ¿Los extrañaste?
Esta semana en NEWS TECHOLES DE NEGOCIOS
Noticias de tecnología empresarial #1 – El nuevo generador de imágenes de OpenAI se vuelve viral
Esta semana Openai lanzó una poderosa herramienta de generador de imágenes como parte de sus ofertas de chatgpt que muestra imágenes increíblemente vívidas. ¡Se ha vuelto tan viral que la compañía dice que la demanda está “derritiendo” sus GPU! (Fuente: Open AI, CNBC)
Por qué esto es importante para su negocio:
Las capacidades del generador de imágenes son extremadamente potentes y pueden tener un enorme impacto en el marketing y la marca de su empresa. Según la compañía: “La generación de imágenes GPT-4O se destaca para representar con precisión el texto, seguir con precisión las indicaciones y aprovechar la base de conocimiento inherente de 4O y el contexto de chat, incluida la transformación de imágenes de carga o usarlas como inspiración visual. Estas capacidades hacen que sea más fácil crear exactamente la imagen que imagina, ayudándole a comunicar de manera más efectiva a través de las imágenes y avanzar en una generación de imágenes prácticas con una práctica práctica con la precisión y alimentación de la imagen. Echa un vistazo a esta publicación X para ver algunos excelentes ejemplos.
Business Tech News #2 – LinkedIn presenta actualizaciones de marketing.
LinkedIn ha introducido actualizaciones en su gerente de campaña, con el objetivo de mejorar el éxito de los especialistas en marketing. Las características clave incluyen un planificador de medios para los resultados de la campaña de pronóstico, UTM dinámicos para un seguimiento más fácil y paneles mejorados para obtener información detallada de rendimiento. Además, un Digest de rendimiento de la campaña impulsado por la IA proporciona explicaciones de texto sencillo de las fortalezas y debilidades de la campaña. (Fuente: LinkedIn)
Por qué esto es importante para su negocio:
Según la compañía, estas actualizaciones se centran en refinar estrategias, optimizar el gasto publicitario y simplificar la gestión de la campaña. Se incluyen comentarios/revisiones de dueños de negocios que han utilizado estas herramientas para mejorar sus campañas. Las campañas de LinkedIn son más caras que la mayoría de las otras plataformas de redes sociales, pero nuevamente obtienes lo que pagas: acceso a excelentes datos B2B. Estas herramientas pueden ser de gran ayuda para los especialistas en marketing que se inclinan fuertemente en esta plataforma.
Business Tech News #3 – 40 por ciento de los equipos cibernéticos no han informado de ataques cibernéticos por temor a perder empleos, según New VikingCloud Research.
La compañía de ciberseguridad VikingCloud ha publicado algunas investigaciones muy reveladas. Entre los profesionales de los Estados Unidos, el Reino Unido e Irlanda, el 40 por ciento de los equipos de ciberseguridad admitieron que han evitado informar incidentes cibernéticos debido al temor a la pérdida de empleo. Este subregistro destaca una brecha significativa para abordar las violaciones cibernéticas a nivel mundial. A pesar de esto, el 96 por ciento de las empresas encuestadas expresaron su confianza en su capacidad para detectar y responder a los ataques en tiempo real, lo que puede conducir a una falsa sensación de seguridad. Además, el 68 por ciento de los equipos admitieron que no pudieron cumplir con la nueva regla de divulgación de cuatro días de la Comisión de Valores y Valores para incidentes cibernéticos. El informe enfatiza los desafíos que enfrentan los profesionales de la ciberseguridad y la necesidad de mejorar la resiliencia y las estrategias de respuesta. (Fuente: Business Wire)
Por qué esto es importante para su negocio:
¡Sí, esta es una gran apertura! ¡Imagínese no saber acerca de una violación de seguridad porque su equipo de TI no quiere admitirlo! Se trata de la cultura de la empresa y tener un entorno en el que las personas no tengan que tener miedo de cometer errores. Tome esta información en serio y tenga un corazón en serio con su gente tecnológica. Es mejor saber que no saber.
Noticias de tecnología empresarial #4 – El agente de reuniones de Otter.ai puede programar llamadas y escribir correos electrónicos para usted.
Otter.ai ha introducido un agente de reuniones de IA activado por voz que puede participar activamente en reuniones virtuales. Este agente puede responder preguntas, programar seguimientos, redactar correos electrónicos y realizar otras tareas basadas en datos de reuniones. Inicialmente compatible con Zoom, pronto admitirá los equipos de Microsoft y Google Meet. Otter también lanzó agentes especializados para demostraciones de ventas y productos, con el objetivo de optimizar los flujos de trabajo y mejorar la productividad. La compañía ha dicho que planea liberar más agentes “verticales” en el futuro. (Fuente: Engadget)
Por qué esto es importante para su negocio:
He entregado a algunos de mis clientes a esta aplicación porque hace muy bien las reuniones. Creo que sus mejores capacidades son cuando lo usa en su dispositivo móvil en reuniones cara a cara, en lugar de solo en línea. Aprovechando a Otter.ai cuando está en un cliente le permite concentrarse más en las relaciones y no preocuparse por tomar notas y acciones. Si va a inclinarse en esta aplicación, le recomiendo usarla cuando esté en el sitio, no solo en línea.
Business Tech News #5 – Honeybook acelera la innovación de IA para empoderar a las pequeñas empresas.
Honeybook ha presentado su próxima fase de herramientas de gestión empresarial con IA, diseñada para ayudar a los empresarios basados en servicios a racionalizar las operaciones y aumentar el crecimiento. Al incrustar la IA directamente en flujos de trabajo, Honeybook permite una automatización perfecta y proactiva. La compañía afirma que los empresarios que usan AI de Honeybook han informado beneficios significativos, incluida la duplicación de sus reservas de proyectos y el logro de un volumen de pago bruto 94 por ciento más alto. La plataforma también ayuda a los usuarios a ahorrar hasta tres horas por semana en tareas manuales, lo que permite más tiempo para el trabajo del cliente y el crecimiento comercial. (Fuente: Yahoo Finance)
Por qué esto es importante para su negocio:
Para las pequeñas empresas en el Service Sector Honeybook es una herramienta poderosa para ayudar tanto al marketing como a la implementación de servicios. A medida que la compañía se inclina más en la IA, como muchas otras compañías como esta, puede esperar más ahorros de tiempo y una mejor productividad. Definitivamente una aplicación que vale la pena intentarlo.
Cada semana redondeo cinco historias de tecnología empresarial que afectan a las pequeñas empresas y luego explico por qué. ¡Espero que disfrutes!
Noticias
Horóscopo diario hoy 30 de marzo: Horóscopo hoy, 30 de marzo de 2025: Predicciones astrológicas detalladas para el amor, la carrera y la salud para Aries, Tauro, Géminis, Cáncer, Leo y More

Horóscopo Aries hoy
Amar
El amor no se trata solo de grandes gestos, Aries. A veces, se trata de saber cuándo dar un paso atrás y darle espacio (y su pareja) para respirar. Si te has sentido abrumado, mañana es el día para recargarse emocionalmente.
Carrera
Prosperas en la acción, pero no todas las batalla necesitan ser libradas. Aléjese de los conflictos innecesarios en el trabajo y se reinicia sobre los objetivos a largo plazo. Verá un camino más claro si se permite un momento de planificación tranquila.
Salud
Su energía ha sido alta últimamente, pero incluso los guerreros necesitan descansar. Una caminata simple o un momento meditativo podría ser más beneficioso que otra taza de café. Escucha tu cuerpo.
Horóscopo Tauro hoy
Amar
El universo está orquestando un poco de magia para ti, Tauro. Una sorpresa, tal vez un gesto pequeño pero sincero, podría reavivar el romance o profundizar una conexión. Mantente abierto a lo inesperado.
Carrera
Un cambio en la dinámica en el trabajo podría atraparte desprevenido. Ya sea una nueva responsabilidad o un cambio en el liderazgo, la adaptabilidad será clave. Ve con el flujo y es posible que te encuentres adelante.
Salud
Los altibajos emocionales son naturales, pero se basan en la rutina, ya sea un entrenamiento o un pasatiempo creativo, ayudará a mantener el equilibrio interno.
Horóscopo Géminis hoy
Amar
Una reunión casual, una conversación o incluso un texto aleatorio podría provocar algo inesperado. Mantente presente, Géminis: Fate funciona de manera misteriosa.
Carrera
La red es su superpotencia, y mañana presenta la oportunidad de conectarse con alguien que podría afectar su futuro. Participe en discusiones, pero escuche tanto como hable.
Salud
La estimulación mental lo mantiene en marcha, pero tenga en cuenta el agotamiento. Tome breves descansos para refrescar su mente.
Horóscopo del cáncer hoy
Amar
Un poco de distancia puede traer claridad. Si las emociones se han ido en alto, una pausa podría ser justo lo que su relación necesita.
Carrera
Las demandas laborales están creciendo, pero el equilibrio no es negociable. Priorizar, delegar y no tenga miedo de decir que no cuando sea necesario.
Salud
Su bienestar depende del equilibrio emocional. Practica la atención plena y evita que te extiendas demasiado.
Leo Horóscope hoy
Amar
El miedo es lo único que te detiene, Leo. Si hay algo que ha dudado en decir o hacer, ahora es el momento de actuar con valentía.
Carrera
Los grandes cambios pueden estar en el horizonte, y aunque lo desconocido puede ser desalentador, también está lleno de posibilidades. Da un paso adelante con confianza.
Salud
Su salud física y mental está interconectada. Ejercicio para liberar el estrés y aumentar la confianza.
Horóscopo de virgo hoy
Amar
A veces, lo más difícil es liberarse de viejos hábitos. Si algo en tu vida amorosa se siente estancada, ahora es el momento del cambio.
Carrera
Los flujos de trabajo necesitan una actualización. Identificar ineficiencias y estar abierto a adoptar nuevos métodos. La innovación es tu amigo.
Salud
Declutter, tanto física como mentalmente. Un espacio limpio conduce a una mente más clara.
Horóscopo de libra hoy
Amar
El amor no solo se encuentra en el romance; Está en las conexiones que menos espera. Aprecia los pequeños momentos de calidez y risa.
Carrera
Una conversación alegre con un colega podría llevar a una realización importante. No descarte interacciones casuales.
Salud
La risa realmente es la mejor medicina. Busca alegría y deja que levante tu espíritu.
Horóscopo escorpio hoy
Amar
Una conversación profunda puede revelar verdades ocultas. Escuche con atención; Lo que se dice mañana podría cambiar la forma en que ves las cosas.
Carrera
El consejo de un mentor o la visión de un colega podrían cambiar su perspectiva. Estar abierto al aprendizaje.
Salud
La autorreflexión es esencial. El diario puede ayudarlo a procesar sus emociones.
Horóscopo de Sagitario hoy
Amar
Aferrarse a los rencores pesa por su corazón. Ya sea perdonar a una pareja o a usted mismo, mañana se trata de la liberación emocional.
Carrera
Un error pasado no define su futuro. Aprenda de él, poseerlo y avanzar con sabiduría.
Salud
El perdón no es solo emocional: también afecta su salud física. Libere la negatividad y sienta el levantamiento de peso.
Horóscopo de capricornio hoy
Amar
Ser responsable en las relaciones fortalece la confianza. Si debes una disculpa, dale. Si necesita uno, pídelo.
Carrera
Asumir la responsabilidad de las acciones pasadas y presentes allanará el camino para el éxito futuro.
Salud
La paz interior proviene de la autoconciencia. Un poco de introspección será muy útil.
Horóscopo Acuario hoy
Amar
Las tormentas emocionales pueden elaborar, pero permanecer compuesto evitará el drama innecesario. El equilibrio es clave.
Carrera
Mantenga una cabeza nivelada: las situaciones de extracción son temporales. Manténgase enfocado en los objetivos a largo plazo.
Salud
La meditación, la respiración profunda o incluso un momento tranquilo solo lo ayudará a mantenerse centrado.
Horóscopo de Piscis hoy
Amar
Una elección crucial está en el horizonte. Confía en ti mismo; Tu corazón sabe la respuesta.
Carrera
La paciencia es clave. No se apresure, siga las cosas que se desarrollan naturalmente, y la decisión correcta se aclarará.
Salud
Evite la fatiga de la decisión dándose espacio para respirar. Una mente descansada toma las mejores decisiones.
Preguntas frecuentes:
¿Qué predice el horóscopo de Aries para el 30 de marzo de 2025?
Aries debe centrarse en el descanso, la reflexión y la recarga de energía emocional.
¿Leo tomará una decisión importante hoy?
Sí, se alienta a Leo a tomar medidas audaces y abrazar nuevas posibilidades.
Declaración de descargo de responsabilidad: Este contenido es escrito por un tercero. Las opiniones expresadas aquí son las de los respectivos autores/ entidades y no representan las opiniones de los tiempos económicos (ET). ET no garantiza, garantiza ni respalda ninguno de sus contenidos ni es responsable de ellos de ninguna manera. Tome todos los pasos necesarios para determinar que cualquier información y contenido proporcionado sea correcto, actualizado y verificado. ET por la presente renuncia a todas y cada una de las garantías, expresas o implícitas, relacionadas con el informe y cualquier contenido en el mismo.
-
Startups10 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales11 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos11 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups9 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Recursos11 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Startups11 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos10 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Noticias9 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo