Connect with us

Noticias

Deepseek R1 apuesta audaz sobre el aprendizaje de refuerzo: cómo superó a OpenAi al 3% del costo

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


El lanzamiento del lunes de Deepseek R1 ha enviado ondas de choque a través de la comunidad de IA, interrumpiendo suposiciones sobre lo que se requiere para lograr un rendimiento de IA de vanguardia. Hacer coincidir con el O1 de OpenAI con solo 3% -5% del costo, este modelo de código abierto no solo ha cautivado a los desarrolladores, sino que también desafía a las empresas a repensar sus estrategias de IA.

El modelo se ha disparado al modelo de mayor tendencia que se descarga en Huggingface (109,000, a partir de este escrito), a medida que los desarrolladores se apresuran a probarlo y buscan comprender lo que significa para su desarrollo de IA. Los usuarios están comentando que la función de búsqueda adjunta de Deepseek (que puede encontrar en el sitio de Deepseek) ahora es superior a competidores como OpenAI y Perplexity, y solo está rivalizada por la investigación de Gemini Defunde de Google.

Las implicaciones para las estrategias empresariales de IA son profundas: con costos reducidos y acceso abierto, las empresas ahora tienen una alternativa a modelos patentados costosos como OpenAI. El lanzamiento de Deepseek podría democratizar el acceso a las capacidades de AI de vanguardia, lo que permite a las organizaciones más pequeñas competir de manera efectiva en la carrera armamentista de IA.

Esta historia se centra exactamente en cómo Deepseek manejó esta hazaña y en qué significa para la gran cantidad de usuarios de modelos de IA. Para las empresas que desarrollan soluciones impulsadas por la IA, el avance de Deepseek desafía los supuestos del dominio de OpenAI, y ofrece un plan para la innovación rentable. Es el “cómo” Deepseek hizo lo que hizo que debería ser el más educativo aquí.

El avance de Deepseek: moverse hacia el aprendizaje de refuerzo puro

En noviembre, Deepseek fue noticia con su anuncio de que había logrado el rendimiento superando el O1 de OpenAI, pero en ese momento solo ofrecía un modelo limitado de previsión R1-Lite. Con el lanzamiento completo del lunes de R1 y el documento técnico que lo acompaña, la compañía reveló una sorprendente innovación: una desviación deliberada del proceso convencional de ajuste fino (SFT) ampliamente utilizado en la capacitación de modelos de idiomas grandes (LLM).

SFT, un paso estándar en el desarrollo de la IA, implica modelos de capacitación en conjuntos de datos seleccionados para enseñar razonamiento paso a paso, a menudo denominado cadena de pensamiento (COT). Se considera esencial para mejorar las capacidades de razonamiento. Sin embargo, Deepseek desafió esta suposición omitiendo SFT por completo, optando en su lugar para confiar en el aprendizaje de refuerzo (RL) para entrenar el modelo.

Este movimiento audaz obligó a Deepseek-R1 a desarrollar habilidades de razonamiento independientes, evitando la fragilidad a menudo introducida por conjuntos de datos prescriptivos. Mientras que surgen algunos defectos, lo que lleva al equipo a reintroducir una cantidad limitada de SFT durante las etapas finales de construcción del modelo, los resultados confirmaron el avance fundamental: el aprendizaje de refuerzo solo podría generar ganancias de rendimiento sustanciales.

La compañía consiguió gran parte del uso de código abierto, una forma convencional y no sorprendente

Primero, algunos antecedentes sobre cómo Deepseek llegó a donde lo hizo. Deepseek, un spin-off de 2023 de la cuantificación de alto nivel de fondos de cobertura chinos, comenzó desarrollando modelos de IA para su chatbot patentado antes de liberarlos para uso público. Poco se sabe sobre el enfoque exacto de la compañía, pero se abre rápidamente obtuvo sus modelos, y es extremadamente probable que la compañía se basara en los proyectos abiertos producidos por Meta, por ejemplo, el modelo LLAMA, y la biblioteca ML Pytorch.

Para capacitar a sus modelos, la cuantía de alto vuelo obtuvo más de 10,000 GPU NVIDIA antes de las restricciones de exportación de EE. UU., Y según los informes, se expandió a 50,000 GPU a través de rutas de suministro alternativas, a pesar de las barreras comerciales. Esto palidece en comparación con los principales laboratorios de IA como OpenAi, Google y Anthrope, que funcionan con más de 500,000 GPU cada uno.

La capacidad de Deepseek para lograr resultados competitivos con recursos limitados destaca cómo el ingenio y el ingenio pueden desafiar el paradigma de alto costo de capacitar a los LLM de vanguardia.

A pesar de la especulación, se desconoce el presupuesto completo de Deepseek

Según los informes, Deepseek capacitó a su modelo base, llamado V3, con un presupuesto de $ 5.58 millones durante dos meses, según el ingeniero de NVIDIA Jim Fan. Si bien la compañía no ha divulgado los datos de capacitación exactos que utilizó (nota al margen: los críticos dicen que esto significa que Deepseek no es verdaderamente de código abierto), las técnicas modernas hacen que la capacitación en la web y los conjuntos de datos abiertos sean cada vez más accesibles. Estimar el costo total de la capacitación Deepseek-R1 es un desafío. Mientras que ejecutar 50,000 GPU sugiere gastos significativos (potencialmente cientos de millones de dólares), las cifras precisas siguen siendo especulativas.

Sin embargo, lo que está claro es que Deepseek ha sido muy innovador desde el principio. El año pasado, surgieron informes sobre algunas innovaciones iniciales que estaba haciendo, en torno a cosas como la mezcla de expertos y atención latente de múltiples cabezas.

Cómo Deepseek-R1 llegó al “Momento AHA”

El viaje a la iteración final de Deepseek-R1 comenzó con un modelo intermedio, Deepseek-R1-Zero, que fue entrenado con aprendizaje de refuerzo puro. Al confiar únicamente en RL, Deepseek incentivó a este modelo a pensar de forma independiente, recompensando tanto las respuestas correctas como los procesos lógicos utilizados para llegar a ellas.

Este enfoque condujo a un fenómeno inesperado: el modelo comenzó a asignar un tiempo de procesamiento adicional a problemas más complejos, lo que demuestra la capacidad de priorizar las tareas en función de su dificultad. Los investigadores de Deepseek describieron esto como un “momento de AHA”, donde el modelo en sí identificó y articuló nuevas soluciones a problemas desafiantes (ver captura de pantalla a continuación). Este hito subrayó el poder del aprendizaje de refuerzo para desbloquear las capacidades de razonamiento avanzado sin depender de los métodos de capacitación tradicionales como SFT.

Fuente: Papel Deepseek-R1. No dejes que este gráfico te intimida. La conclusión clave es la línea roja, donde el modelo literalmente usó la frase “Momento AHA”. Los investigadores se aferraron a esto como un ejemplo sorprendente de la capacidad del modelo para repensar los problemas en un tono antropomórfico. Para los investigadores, dijeron que era su propio “momento de aha”.

Los investigadores concluyen: “Subraya el poder y la belleza del aprendizaje de refuerzo: en lugar de enseñar explícitamente el modelo sobre cómo resolver un problema, simplemente le proporcionamos los incentivos correctos y desarrolla de forma autónoma estrategias avanzadas de resolución de problemas”.

Más que rl

Sin embargo, es cierto que el modelo necesitaba más que solo RL. El artículo continúa hablando sobre cómo a pesar de la RL creando comportamientos de razonamiento inesperados y poderosos, este modelo intermedio Deepseek-R1-Zero enfrentó algunos desafíos, incluida la mala legibilidad y la mezcla de idiomas (comenzando en chino y cambiando al inglés, por ejemplo ). Así que solo entonces el equipo decidió crear un nuevo modelo, que se convertiría en el modelo final de Deepseek-R1. Este modelo, nuevamente basado en el modelo base V3, se inyectó primero con SFT limitado, centrado en una “pequeña cantidad de datos de cuna largos” o lo que se llamaba datos de inicio frío, para solucionar algunos de los desafíos. Después de eso, se puso a través del mismo proceso de aprendizaje de refuerzo de R1-Zero. Luego, el periódico habla sobre cómo R1 pasó por algunas rondas finales de ajuste.

Las ramificaciones

Una pregunta es por qué el lanzamiento ha habido tanta sorpresa. No es como si los modelos de código abierto sean nuevos. Los modelos de código abierto tienen una gran lógica e impulso detrás de ellos. Su costo gratuito y maleabilidad es la razón por la que informamos recientemente que estos modelos van a ganar en la empresa.

El modelo 3 de peso abierto de Meta, por ejemplo, explotó en popularidad el año pasado, ya que fue ajustado por los desarrolladores que querían sus propios modelos personalizados. Del mismo modo, ahora Deepseek-R1 ya se está utilizando para destilar su razonamiento en una variedad de otros modelos mucho más pequeños, la diferencia es que Deepseek ofrece un rendimiento líder en la industria. Esto incluye ejecutar pequeñas versiones del modelo en teléfonos móviles, por ejemplo.

Deepseek-r1 no solo funciona mejor que la alternativa de código abierto líder, Llama 3. Muestra toda su cadena de pensamiento de sus respuestas de manera transparente. La llama de Meta no ha recibido instrucciones de hacer esto como un incumplimiento; Se necesita una solicitud agresiva de Llama para hacer esto.

La transparencia también ha proporcionado un ojo negro de relaciones públicas a OpenAi, que hasta ahora ha ocultado sus cadenas de pensamiento de los usuarios, citando razones competitivas y no confundir a los usuarios cuando un modelo se equivoca. La transparencia permite a los desarrolladores identificar y abordar los errores en el razonamiento de un modelo, agilizando las personalizaciones para cumplir con los requisitos empresariales de manera más efectiva.

Para los tomadores de decisiones empresariales, el éxito de Deepseek subraya un cambio más amplio en el panorama de IA: las prácticas de desarrollo más delgadas y más eficientes son cada vez más viables. Las organizaciones pueden necesitar reevaluar sus asociaciones con proveedores de IA patentados, considerando si los altos costos asociados con estos servicios están justificados cuando las alternativas de código abierto pueden ofrecer resultados comparables, si no superiores.

Sin duda, no hay plomo masivo

Si bien la innovación de Deepseek es innovadora, de ninguna manera ha establecido una ventaja dominante del mercado. Debido a que publicó su investigación, otras compañías modelo aprenderán de ella y se adaptarán. Meta y Mistral, la compañía modelo de código abierto francesa, pueden ser un latido detrás, pero probablemente solo pasarán unos meses antes de que se pongan al día. Como dijo el investigador principal de Meta, Yann Lecun: “La idea es que todos se ganen de las ideas de todos los demás. Nadie ‘supera’ a nadie y ningún país ‘pierde’ a otro. Nadie tiene el monopolio de las buenas ideas. Todos están aprendiendo de todos los demás “. Entonces es la ejecución lo que importa.

En última instancia, son los consumidores, nuevas empresas y otros usuarios los que más ganarán, porque las ofertas de Deepseek continuarán impulsando el precio de usar estos modelos cerca de cero (nuevamente, aparte del costo de ejecutar modelos con inferencia). Esta rápida mercantilización podría plantear desafíos, de hecho, dolor masivo, para los principales proveedores de IA que han invertido mucho en infraestructura patentada. Como muchos comentaristas lo han dicho, incluido Chamath Palihapitiya, un inversor y ex ejecutivo de Meta, esto podría significar que se desperdiciarán años de Opex y Capex por OpenAi y otros.

Existe un comentario sustancial sobre si es ético usar el modelo Deepseek-R1 debido a los sesgos inculcados por las leyes chinas, por ejemplo, que no debe responder preguntas sobre la brutal represión del gobierno chino en Tiananmen Square. A pesar de las preocupaciones éticas en torno a los sesgos, muchos desarrolladores ven estos sesgos como casos de borde poco frecuente en aplicaciones del mundo real, y pueden mitigarse a través del ajuste. Además, apuntan a diferentes pero análogos sesgos que tienen modelos de Operai y otras compañías. La llama de Meta se ha convertido en un modelo abierto popular a pesar de que sus conjuntos de datos no se hacen públicos, y a pesar de los prejuicios ocultos, y las demandas se presentan en su contra como resultado.

Las preguntas abundan en torno al ROI de las grandes inversiones por OpenAI

Todo esto plantea grandes preguntas sobre los planes de inversión perseguidos por Operai, Microsoft y otros. El proyecto Stargate de $ 500 mil millones de OpenAI refleja su compromiso de construir centros de datos masivos para alimentar sus modelos avanzados. Respaldado por socios como Oracle y SoftBank, esta estrategia se basa en la creencia de que lograr la inteligencia general artificial (AGI) requiere recursos de cómputo sin precedentes. Sin embargo, la demostración de Deepseek de un modelo de alto rendimiento a una fracción de los desafíos de costos de la sostenibilidad de este enfoque, lo que plantea dudas sobre la capacidad de OpenAI para ofrecer rendimientos de una inversión tan monumental.

El emprendedor y comentarista Arnaud Bertrand capturó esta dinámica, contrastando la innovación frugal y descentralizada de China con la dependencia de los Estados Unidos de la infraestructura centralizada e intensiva en recursos: “Se trata del mundo que se da cuenta de que China ha acelerado, y en algunas áreas superada: EE. UU. En tecnología y tecnología y la tecnología. Innovación, a pesar de los esfuerzos para evitar exactamente eso “. De hecho, ayer otra compañía china, Bytedance, anunció DouBao-1.5-Pro, que incluye un modo de “pensamiento profundo” que supera el O1 de OpenAI en el punto de referencia del AIME.

¿Quieres sumergirte más profundamente en cómo Deepseek-R1 está remodelando el desarrollo de la IA? Echa un vistazo a nuestra discusión en profundidad en YouTube, donde exploro este avance con el desarrollador de ML Sam Witteveen. Juntos, desglosamos los detalles técnicos, las implicaciones para las empresas y lo que esto significa para el futuro de la IA:

https://www.youtube.com/watch?v=BJZJ5LTIQE0

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Operai actualiza su nueva API de respuestas rápidamente con el soporte de MCP, GPT-4O Native Image Gen y más características empresariales

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Operai está implementando un conjunto de actualizaciones significativas de su nueva API de respuestas, con el objetivo de facilitar que los desarrolladores y empresas creen aplicaciones de agente inteligentes orientadas a la acción.

Estas mejoras incluyen soporte para servidores de protocolo de contexto del modelo remoto (MCP), integración de la generación de imágenes y herramientas de intérpretes de código, y actualizaciones para las capacidades de búsqueda de archivos, todo disponible a partir de hoy, 21 de mayo.

Lanzado por primera vez en marzo de 2025, la API de respuestas sirve como la caja de herramientas de OpenAI para que los desarrolladores de terceros creen aplicaciones de agente sobre algunas de las funcionalidades centrales de sus exitosos servicios CHATGPT y sus agentes de IA de propiedades profundas y operadores.

En los meses posteriores a su debut, ha procesado billones de tokens y ha apoyado una amplia gama de casos de uso, desde la investigación de mercado y la educación hasta el desarrollo de software y el análisis financiero.

Las aplicaciones populares construidas con la API incluyen el agente de codificación de Zencoder, el asistente de inteligencia de mercado de Revi y la plataforma educativa de MagicSchool.

La base y el propósito de la API de las respuestas

La API de respuestas debutó junto con el SDK de los agentes de código abierto de Opengai en marzo de 2025, como parte de una iniciativa para proporcionar acceso a desarrolladores de terceros a las mismas tecnologías que alimentan a los propios agentes de inteligencia artificial de Openi como la investigación y el operador profundo.

De esta manera, las nuevas empresas y las empresas fuera de OpenAI podrían integrar la misma tecnología que ofrece a través de ChATGPT en sus propios productos y servicios, ya sean internos para el uso de empleados o externos para clientes y socios.

Inicialmente, la API combinó elementos de las completaciones de chat y la API de asistentes, que libera herramientas incorporadas para la búsqueda en la web y los archivos, así como el uso de la computadora, lo que permite a los desarrolladores construir flujos de trabajo autónomos sin lógica de orquestación compleja. Openai dijo en ese momento que la API de finalización de chat estaría en desuso a mediados de 2026.

La API de respuestas proporciona visibilidad en las decisiones del modelo, el acceso a los datos en tiempo real y las capacidades de integración que permitieron a los agentes recuperar, razonar y actuar sobre la información.

Este lanzamiento marcó un cambio para dar a los desarrolladores un conjunto de herramientas unificado para crear agentes de IA específicos de dominio listos para la producción con una fricción mínima.

El servidor remoto del servidor MCP amplía el potencial de integración

Una adición de clave en esta actualización es el soporte para los servidores MCP remotos. Los desarrolladores ahora pueden conectar los modelos de OpenAI a herramientas y servicios externos como Stripe, Shopify y Twilio utilizando solo unas pocas líneas de código. Esta capacidad permite la creación de agentes que pueden tomar medidas e interactuar con los usuarios de los sistemas de la que ya dependen. Para apoyar este ecosistema en evolución, OpenAI se ha unido al Comité Directivo de MCP.

La actualización trae nuevas herramientas incorporadas a la API de respuestas que mejoran lo que los agentes pueden hacer dentro de una sola llamada API.

Una variante del exitoso modelo de generación de imágenes nativas de GPT-4O de OpenAI, que inspiró una ola de memes de anime estilo “Studio Ghibli” en la web y abrochó los servidores de OpenAI con su popularidad, pero obviamente puede crear muchos otros estilos de imagen ahora está disponible a través de la API bajo el nombre del modelo “GPT-IMage-1”. Incluye nuevas características potencialmente útiles y bastante impresionantes, como vistas previas de transmisión en tiempo real y refinamiento múltiple.

Esto permite a los desarrolladores crear aplicaciones que puedan producir y editar imágenes dinámicamente en respuesta a la entrada del usuario.

Además, la herramienta de intérprete de código ahora está integrada en la API de respuestas, lo que permite que los modelos manejen el análisis de datos, las matemáticas complejas y las tareas basadas en la lógica dentro de sus procesos de razonamiento.

La herramienta ayuda a mejorar el rendimiento del modelo en varios puntos de referencia técnicos y permite un comportamiento de agentes más sofisticado.

Búsqueda de archivos mejorado y manejo de contexto

La funcionalidad de búsqueda de archivos también se ha actualizado. Los desarrolladores ahora pueden realizar búsquedas en múltiples tiendas vectoriales y aplicar el filtrado basado en atributos para recuperar solo el contenido más relevante.

Esto mejora la precisión del uso de los agentes de la información, mejorando su capacidad para responder preguntas complejas y operar dentro de grandes dominios de conocimiento.

Nuevas empresas de fiabilidad, características de transparencia

Varias características están diseñadas específicamente para satisfacer las necesidades empresariales. El modo de fondo permite tareas asincrónicas de larga duración, abordando problemas de tiempos de espera o interrupciones de la red durante el razonamiento intensivo.

Los resúmenes de razonamiento, una nueva adición, ofrecen explicaciones en idioma natural del proceso de pensamiento interno del modelo, ayudando con la depuración y la transparencia.

Los elementos de razonamiento cifrados proporcionan una capa de privacidad adicional para clientes de retención de datos cero.

Estos permiten a los modelos reutilizar los pasos de razonamiento anteriores sin almacenar ningún dato en los servidores Operai, mejorando tanto la seguridad como la eficiencia.

Las últimas capacidades son compatibles con la serie GPT-4O de Openai, la serie GPT-4.1 y los modelos O-Series, incluidos O3 y O4-Mini. Estos modelos ahora mantienen el estado de razonamiento en múltiples llamadas y solicitudes de herramientas, lo que conduce a respuestas más precisas a un costo y latencia más bajos.

¡El precio de ayer es el precio de hoy!

A pesar del conjunto de características ampliada, OpenAI ha confirmado que los precios de las nuevas herramientas y capacidades dentro de las respuestas API seguirán siendo consistentes con las tasas existentes.

Por ejemplo, la herramienta de intérprete de código tiene un precio de $ 0.03 por sesión, y el uso de búsqueda de archivos se factura a $ 2.50 por 1,000 llamadas, con costos de almacenamiento de $ 0.10 por GB por día después del primer gigabyte gratuito.

El precio de búsqueda web varía según el tamaño del modelo y el tamaño del contexto de búsqueda, que oscila entre $ 25 y $ 50 por cada 1,000 llamadas. La generación de imágenes a través de la herramienta GPT-Image-1 también se cobra de acuerdo con la resolución y el nivel de calidad, a partir de $ 0.011 por imagen.

Todo el uso de la herramienta se factura a las tarifas por juicio del modelo elegido, sin un marcado adicional para las capacidades recientemente agregadas.

¿Qué sigue para la API de respuestas?

Con estas actualizaciones, OpenAI continúa expandiendo lo que es posible con la API de respuestas. Los desarrolladores obtienen acceso a un conjunto más rico de herramientas y funciones listas para la empresa, mientras que las empresas ahora pueden construir aplicaciones más integradas, capaces y seguras de IA.

Todas las características están en vivo a partir del 21 de mayo, con detalles de precios e implementación disponibles a través de la documentación de OpenAI.

Continue Reading

Noticias

Las nuevas funciones de Google AI no tienen coincidencia

Published

on

Después de la E/S 2024 del año pasado, que se dedicó a las nuevas características de Gemini AI, al igual que la nota clave de E/S 2025 de ayer, me pregunté quién ganó el duelo de IA que acabábamos de presenciar. El año pasado, OpenAi emboscó brillantemente a Google con un evento de ChatGPT masivo alojado un día antes de la nota clave de E/S.

Operai venció a Google hasta el golpe, dando características multimodales de ChatGPT y un modo de voz antes de que Google dio a conocer características similares para Gemini. Al mismo tiempo, dije el año pasado que la nota clave de E/S 2024 se sintió como un tour de Force de Google cuando se trata de las habilidades de Gemini AI. Realmente no había nada más que importara en el evento del año pasado que no sea Géminis.

Un evento de ChatGPT no precedió a la E/S 2025 de este año. No hay batalla por el centro de atención entre ChatGPT y Google. Pero dado lo que vimos el martes de Sundar Pichai & Co., no sé qué OpenAi podría haber lanzado antes del evento de Google para hacernos ignorar todas las novedades de IA con gemini que Google presentó.

La E/S 2025 fue una exhibición de fuerza aún mayor que el año pasado. Géminis es aún más poderoso y más rápido que antes. También está obteniendo una integración más profunda en las aplicaciones y servicios de Google, por lo que es una herramienta más útil para cualquier persona entusiasmada con la IA, incluso un poco.

La mejor parte es que Google presentó un montón de características de IA emocionantes que no tienen equivalentes de OpenAI. Debería saber. No es solo que he estado cubriendo ChatGPT y todas las noticias de IA por un tiempo, pero ChatGPT es mi IA predeterminada en este momento. Y envidio varias novedades de Géminis que Operai no puede igualar.

Algunos de ellos son obvios, y me refiero a los lazos entre Gemini y Google, algo OpenAi no puede igualar. Y algunas de las características de Géminis que Google dio a conocer no están listas para un lanzamiento comercial amplio. Eso no cambia el hecho de que Google está tomando una gran ventaja sobre ChatGPT, y no puedo evitar preguntarme cómo responderá OpenAi.

Pensar profundamente

Gemini 2.5 Pro Deep Think Feature Tops Benchmarks. Fuente de la imagen: Google

Hemos tenido un profundo apoyo de investigación en ChatGPT y Gemini durante meses, y me encanta la funcionalidad. La IA puede entregar informes detallados sobre cualquier tema mediante la realización de investigaciones en profundidad.

Google está listo para ir un paso más allá con Gemini Deep Think, un modo de razonamiento mejorado que le dará a Gemini la capacidad de proporcionar respuestas aún mejores.

Profunde Think todavía está en la fase de prueba de evaluación de seguridad, y no está disponible para la mayoría de los usuarios de Géminis.

Agentes de IA en todas partes

No me gustó Project Mariner cuando salió en diciembre, y ciertamente favorecí al operador de OpenAI sobre la implementación de Google. Sin embargo, Google ha mejorado significativamente Project Mariner, y el agente de IA ha recibido poderes masivos, al menos según lo que vimos ayer.

La mejor parte es que Google enviará agentes de IA en varios productos. Por ejemplo, el modo de IA de búsqueda de Google podrá monitorear la web para obtener los cambios de precios para el producto que desea comprar y permitirle comprar el artículo que desee.

En Gemini Live, los agentes de IA dejarán que Gemini llame a las empresas para los usuarios, mientras que la IA continúa interactuándose con usted y colocará pedidos en línea para los bienes. La IA también puede navegar por la web para encontrar la información que necesita, desplazarse por los documentos y ver el mundo que lo rodea mientras interactúa con usted a través de la voz.

Géminis en vivo

Gemini Live se está convirtiendo en el tipo de asistente de IA que estamos acostumbrados a ver en las películas. Mire la demostración a continuación que Google ofreció en E/S para tener una idea de lo que Gemini Live hará para el usuario una vez que Google esté listo para lanzar estas nuevas funciones de Project Astra.

No es solo un comportamiento de agente, como hacer llamadas en su nombre o comprar productos. La IA puede obtener información de otras aplicaciones de Google, es consciente del historial del usuario y puede manejar a varias personas que hablan en la habitación sin perder el seguimiento de la tarea en cuestión.

La mayoría de estas capacidades aún no están llegando a Gemini Live, pero están más allá de lo que Operai puede hacer con ChatGPT. Operai también quiere que ChatGPT se convierta en su asistente y sepa todo sobre usted para proporcionar mejores respuestas. Pero la compañía no puede integrar ChatGPT con otras aplicaciones que proporcionan esos datos sobre usted, como lo hace Google.

Ya dije que tengo envidia sobre las nuevas capacidades de Gemini Live, y me pregunto cuándo y si OpenAi lanzará un producto similar.

Mientras espera a que Gemini Live obtenga todas las nuevas funciones, puede usar la cámara y las habilidades de intercambio de pantalla de forma gratuita ahora mismo en Android y iPhone.

Cuando Operai presentó al operador, mostró al mundo lo que el agente de IA que viene a Chatgpt podría hacer en situaciones de la vida real. Eso implicó buscar cosas para comprar para el usuario, ya sea un producto real o hacer una reserva.

Medio año después, el operador permanece disponible solo para los usuarios de ChatGPT Pro, pero no puedo justificar el nivel de $ 200/mes en este momento.

Mientras tanto, Google ha traído un agente de IA a la búsqueda de Google y la ha empacado en modo AI. El modo AI con Gemini con Gemini le permitirá encontrar cosas para comprar, incluso si usa un lenguaje de conversación en lugar de un mensaje específico. Chatgpt también puede hacer eso.

Pero el modo AI tendrá una función “Comprar para mí” que le permite instruir a la IA que monitoree el precio de un producto. La IA le notificará cuándo cae el precio y ofrece comprarlo por usted. Chatgpt no puede hacer nada de eso.

Luego está la función “Prueba en” “que es simplemente alucinante y el mejor uso de la IA en productos como la búsqueda en línea hasta ahora. Encuentre un artículo de ropa que le guste, suba una foto reciente de usted mismo, y un modelo especial de IA determinará cómo se verá usando esa ropa.

El modo AI también le permitirá encontrar y comprar boletos para eventos, hacer reservas de restaurantes y programar otras citas. Chatgpt no puede hacer nada de eso por ti.

Personalización

Claro, hay implicaciones de privacidad para usar características del modo AI como las anteriores. Y no soy un gran admirador de entregar ninguno de mis datos personales o acceder a ellos a la IA. Pero tendré que hacer eso una vez que esté listo para adoptar un modelo de IA como asistente que sepa todo sobre mí y pueda acceder a mis datos, ya sean conversaciones por correo electrónico y chat, documentos o información de pago.

Otras personas no se sentirán así, y si no tienen ningún problema con la IA acceder a datos de otras aplicaciones, querrán ver qué está haciendo Google con Gemini.

GEMINI: Personalización por correo electrónico de Gmail basada en el estilo de escritura del usuario.
GEMINI: Personalización por correo electrónico de Gmail basada en el estilo de escritura del usuario. Fuente de la imagen: Google

Una de las mejores demostraciones en E/S fue Gemini escribiendo un correo electrónico en Gmail utilizando el tono del usuario y surgir la información correcta de otras aplicaciones de Google, ya sean documentos o fotos.

Del mismo modo, Gemini Live podría acceder a los datos de Gmail en el ejemplo anterior para encontrar la información que el usuario necesitaba, y recordaba al perro del usuario para una búsqueda en Internet.

GEMINI: Personalización por correo electrónico de Gmail basada en el historial de correo electrónico.
GEMINI: Personalización por correo electrónico de Gmail basada en el historial de correo electrónico. Fuente de la imagen: Google

Incluso el modo AI puede ofrecer sugerencias personalizadas basadas en sus búsquedas pasadas si lo desea. También puede conectarse a Gmail para un contexto más personal.

ChatGPT no puede hacer nada de eso porque no tiene su propio conjunto de aplicaciones complementarias. Y conectarse a aplicaciones de terceros podría ser más difícil.

Fluir

OpenAI le permite generar video con Sora, y puede comenzar directamente desde ChatGPT, pero el flujo de Google es, sin duda, uno de los grandes aspectos destacados de E/S 2025 y probablemente un paso por encima de Sora.

El flujo te permite generar videos increíbles con audio. Ofrecen consistencia de carácter y escena, y puede continuar editando su proyecto fuera del programa AI.

De todas las características anunciadas en la E/S 2025, el flujo podría ser el más fácil para que Operai coincida.

Traducción en tiempo real

Google no es el primero en ofrecer una traducción en tiempo real con IA. La característica ha sido uno de los productos básicos de Galaxy AI, con Samsung mejorando a lo largo de los años. ChatGPT también puede comprender y traducir idiomas para usted.

Pero Google está trayendo la traducción en tiempo real con Gemini a aplicaciones de chateo de video como Google Meet. Eso es algo que Chatgpt no puede hacer.

La función es aún mejor en el hardware con Gemini, como la próxima ola de dispositivos Android XR.

El hardware Géminis

Esto me lleva a los primeros dispositivos desarrollados con Gemini en el núcleo: AR/AI de Google y lentes inteligentes solo. I/o 2025 finalmente nos dio las demostraciones públicas que nos faltamos. Hubo problemas técnicos, y la conectividad a Internet definitivamente afectó el rendimiento, pero las demostraciones mostraron que estos wearables de IA funcionaban.

Veremos gafas Android XR en las tiendas a finales de este año, y serán el dispositivo perfecto para usar AI. Sí, Meta tiene sus gafas Ray-Ban Meta Smart que hacen lo mismo con Meta AI. Pero todo lo que dije sobre las nuevas potencias de Google Gemini hace que las gafas de Android XR sean aún más emocionantes, al menos en teoría.

OpenAi no puede igualar eso. No hay gafas inteligentes de primera parte que ejecuten chatgpt de forma nativa. Estoy seguro de que dicho producto vendrá de Jony Ive y Co. en los próximos años, y el hardware ChatGPT valdrá la pena. Pero Google está llegando allí primero, y ciertamente está llamando la atención en el proceso.

Continue Reading

Noticias

Su asistente de Google Gemini está obteniendo 8 características útiles: aquí está el registro de actualizaciones

Published

on

Artie Beaty/Zdnet

Google Gemini ya ofrece una gran cantidad de capacidades útiles. Desde generar texto y crear imágenes hasta conversaciones en vivo, investigaciones profundas y analizar archivos, la IA de Google ha demostrado ser un fuerte contendiente en el campo de IA.

También: Todo anunciado en Google I/O 2025: Gemini, Search, Android XR y más

En Google I/O 2025 el martes, la compañía reveló una serie de características nuevas y mejoradas ahora disponibles con su asistente de IA.

1. Nuevos planes Google AI Pro y Ultra

Primero hay dos nuevas suscripciones de Google AI que ofrecen más funciones, pero naturalmente vienen con sus propios precios.

El primer plan se conoce como Google AI Pro, que en realidad es el mismo plan de AI Premium que ha existido por un tiempo solo con un nuevo nombre. Todavía con un precio de $ 20 por mes, AI Pro ofrece las mismas funciones de IA disponibles con la versión gratuita de Gemini, pero agrega límites de tarifa más altos y características especiales.

AI Pro también incluye la aplicación Gemini anteriormente conocida como Gemini Advanced, junto con productos como NotebookLM y el nuevo editor de video de AI Flow. Esas dos características llegarán a los suscriptores de AI Pro primero en los EE. UU. Y luego se expandirán a otros países.

Los estudiantes universitarios en los Estados Unidos, el Reino Unido, Brasil, Indonesia y Japón pueden obtener un año escolar gratuito de Google AI Pro.

Si necesita más potencia y características y está dispuesto a gastar mucho dinero, también hay un plan de Google Al Ultra. Este ofrece los modelos más poderosos, los límites de tarifa más altos y el acceso temprano a las características experimentales de AL.

También: Google presenta su suscripción de AI Ultra de $ 250 por mes: lo que está incluido

Como ejemplo, el Ultra Plan le otorgará acceso temprano al modo de agente, una nueva herramienta de agente basada en escritorio que llevará a cabo tareas para usted. Simplemente describa su solicitud o pregunta; En respuesta, el agente navega por la Web, realiza su propia investigación y se integra con sus aplicaciones de Google para abordar tareas complejas de varios pasos de principio a fin.

El Ultra Plan cuesta $ 250 al mes, aunque los suscriptores por primera vez obtienen un 50% de descuento durante los primeros tres meses.

2. Géminis en vivo

El siguiente es Gemini Live, el práctico modo de chat en el que llevas una conversación de voz de ida y vuelta con la IA. Anteriormente, solo los usuarios de Android podían compartir su pantalla o vista de cámara y hacer preguntas de Gemini al respecto. Ahora, Google está expandiendo esta función para que los usuarios de Android e iOS puedan usar la cámara y el intercambio de pantalla.

También: el intercambio de pantalla en vivo de Gemini y la cámara ahora están disponibles para todos, gratis

Para probar esto, abra la aplicación Gemini en su dispositivo iPhone o Android y toque el icono de Gemini Live a la derecha de la solicitud. El icono de la cámara en la parte inferior le permite apuntar su teléfono en cualquier objeto o escena y pedirle a Gemini que lo describiera o responda preguntas al respecto. El segundo icono le permite compartir cualquier pantalla en su dispositivo para que Gemini analice.

Hay más: en las próximas semanas, Gemini Live funcionará con otras aplicaciones y servicios de Google, incluidos los mapas de Google, el calendario, las tareas y el mantenimiento. Esto significa que podrá pedirle a Gemini Live que realice tareas tales como crear una cita de calendario o proporcionar instrucciones a su próximo destino.

3. Imagen 4 Generación de imágenes

Anteriormente, Google usó su modelo Imagen 3 para generar imágenes basadas en sus descripciones. Ahora, la compañía se ha actualizado a Imagen 4, que según él ofrecerá un rendimiento más rápido, más detalles realistas y una mejor producción de texto. Cualquiera ahora podrá probar Imagen 4 a través de la aplicación móvil Gemini.

4. Veo 3 Generación de videos

También recibe una actualización es el generador de video VEO de Gemini. Avanzando de VEO versión 2, VEO 3 ofrece una generación de audio nativa con soporte para el diálogo entre personajes, ruidos de fondo y efectos de sonido. Como Google lo describe, ahora puede agregar cualquier cosa, desde los sonidos de la ciudad bulliciosos hasta el susurro de las hojas hasta el diálogo del personaje solo desde sus descripciones de texto. La barrera principal aquí es que VEO 3 estará disponible solo para Google AI Ultra suscriptores en los EE. UU.

5. Mejoras de lienzo

La herramienta Canvas de Google le ofrece un espacio de trabajo interactivo y colaborativo en el que puede crear código, diseñar páginas web e idear otro contenido visual, con los resultados que aparecen de lado a lado en tiempo real. Utilizando el último modelo Gemini 2.5, Canvas promete ser más intuitivo y poderoso, según Google.

También: Google Beam está listo para traer videoconferencia 3D convencional

Puede crear infografías interactivas, cuestionarios y descripciones de audio al estilo de podcast en cualquiera de los 45 idiomas. Con las habilidades de codificación de Gemini 2.5 Pro, Canvas ahora es más experto en convertir sus ideas en código real, lo que le ayuda a desarrollar aplicaciones completas.

6. Tamizios interactivos

¿Tratando de aprender un nuevo tema complicado? Géminis puede ayudar. Ahora puede pedirle a la IA que cree un cuestionario sobre su tema de interés. En respuesta, Gemini lo desafía con una serie de preguntas diseñadas para expandir su conocimiento. A medida que responde a cada pregunta, la IA le dirá cómo está y se concentrará en cualquier área que necesite atención especial. Esta característica ahora se está implementando en todos los usuarios de Gemini en los dispositivos de escritorio y móviles.

7. Géminis en Chrome

Hasta el miércoles, Gemini comenzará a aparecer en Chrome en el escritorio tanto en Windows como en MacOS. Aquí, podrá pedirle a Gemini que analice o responda preguntas sobre su página web actual. En el futuro, la IA también funcionará a través de múltiples pestañas e incluso lanzará diferentes sitios web para usted.

También: Conoce a Gemini-in Chrome, tu nuevo asistente de navegación de IA, aquí es quién lo usa

Suena útil, pero el acceso será limitado. Gemini-in Chrome estará disponible solo para los suscriptores de Google Al Pro y Google Al Ultra en los EE. UU. Que usan el inglés como idioma en el navegador.

8. Investigación profunda

Finalmente, el modo de investigación profunda de Gemini es una herramienta de agente que puede realizar una investigación en línea para usted y presentar los resultados en un informe detallado, por sí solo. Anteriormente, Deep Research solo pudo consultar a los sitios web para obtener la información que necesitaba. Ahora, también puede ver sus propios PDF e imágenes. Esto significa que podría decirle a Gemini que incluya tendencias y temas que ya han sido capturados en sus propios archivos personales o de trabajo.

En un ejemplo citado por Google, un investigador de mercado podría cargar cifras de ventas internas almacenadas en un PDF para referencias cruzadas con las tendencias del mercado público. En otro ejemplo, un investigador académico podría decirle a Gemini que consulte a los artículos de revistas descargados para agregar a una revisión de la literatura en línea. Como un elemento más, Google dijo que planea integrar una investigación profunda con Google Drive y Gmail para expandir el número de fuentes disponibles.

También: Google le da al video generado por IA una voz con VEO 3 – Cómo probarlo

Vaya, eso es mucho para desempacar. Pero con AI impactando cada vez más tanto individuos como organizaciones, Google está demostrando que está tratando de mantenerse competitivo. E incluso con la nueva y costosa suscripción Ultra, hay suficiente aquí para los usuarios gratuitos de Gemini y los suscriptores de AI Pro para tratar de ver si pueden aprovechar los últimos desarrollos y cómo y cómo.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Trending