Noticias

Google Deepmind presenta dos modelos basados ​​en Géminis para llevar la IA al mundo real

Published

on

El equipo de robótica de Google aplica experiencia en aprendizaje automático, ingeniería y simulación de física para abordar los desafíos que enfrentan el desarrollo de robots con IA. | Fuente: DeepMind

Google Deepmind introdujo hoy dos nuevos modelos de inteligencia artificial: Gemini Robotics, su modelo con sede en Gemini 2.0 diseñado para robótica y Gemini Robotics-Er, un modelo Gemini con comprensión espacial avanzada.

DeepMind dijo que ha estado progresando en cómo Gemini resuelve problemas complejos a través del razonamiento multimodal entre texto, imágenes, audio y video. Ahora, con estos nuevos modelos, está sacando esas capacidades de lo digital y al mundo real.

Gemini Robotics, es un modelo avanzado de acción-idioma de visión (VLA) que se basó en Géminis 2.0. Agregó acciones físicas como una nueva modalidad de salida con el fin de controlar directamente los robots.

Gemini Robotics-ER ofrece una comprensión espacial avanzada, lo que permite a los robotistas ejecutar sus propios programas utilizando las habilidades de razonamiento encarnado de Gemini (ER).

Deepmind dijo que ambos modelos permiten que una variedad de robots realicen una gama más amplia de tareas del mundo real que nunca. Como parte de sus esfuerzos, DeepMind se está asociando con Apptronik para construir robots humanoides con Gemini 2.0.

La Unidad de Google también está trabajando con probadores de confianza para guiar el futuro de Gemini Robotics-Er. Incluyen robots ágiles, robótica de agilidad, dinámica de Boston y herramientas encantadas.


Anuncio del sitio para el registro de la Cumbre Robótica 2025.
¡Regístrese ahora para que no se lo pierda!


Cómo hacer que la IA sea útil en el mundo real

Según una publicación de blog de DeepMind, para ser útiles y útiles para las personas, los modelos de IA para robótica necesitan tres cualidades principales:

  • Tienen que ser generales, lo que significa que pueden adaptarse a diferentes situaciones.
  • Tienen que ser interactivos, para que puedan entender y responder rápidamente a instrucciones o cambios en sus entornos.
  • Tienen que ser hábiles, lo que significa que pueden hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos y dedos, como manipular cuidadosamente objetos.

Si bien el trabajo previo de la organización demostró cierto progreso en estas áreas, Gemini Robotics representa un paso sustancial en el rendimiento en los tres ejes.

https://www.youtube.com/watch?v=SY20X_TYWPQ

DeepMind enfatiza la generalidad y la interactividad

Gemini Robotics utiliza la comprensión mundial de Gemini para generalizar a situaciones novedosas y resolver una amplia variedad de tareas fuera de la caja, incluidas las tareas que nunca antes había visto en la capacitación. Gemini Robotics también es experto en tratar con nuevos objetos, diversas instrucciones y nuevos entornos, afirmó Google.

Dijo que, en promedio, Gemini Robotics más que duplica el rendimiento en un punto de referencia de generalización integral en comparación con otros modelos VLA.

Además de la genrealidad, la interactividad es clave. Para operar en nuestro mundo dinámico y físico, los robots deben poder interactuar sin problemas con las personas y su entorno circundante, y adaptarse a los cambios en la marcha.

Debido a que está construido sobre una base de Géminis 2.0, Deepmind dijo que Gemini Robotics es intuitivamente interactivo. Aprovecha las capacidades de idioma avanzado de Géminis y puede comprender y responder a los comandos redactados en conversaciones cotidianas y en diferentes idiomas.

El modelo puede comprender y responder a un conjunto mucho más amplio de instrucciones en idioma natural que los modelos anteriores, adaptando su comportamiento a la entrada del usuario, dijo DeepMind. También monitorea continuamente su entorno, detecta cambios en su entorno o instrucciones y ajusta sus acciones en consecuencia. Este tipo de control, o “dominabilidad”, puede ayudar mejor a las personas a colaborar con los asistentes de robots en una variedad de entornos, desde el hogar hasta el lugar de trabajo, dijo la compañía.

https://www.youtube.com/watch?v=hyqs2oaif-i

Los robots de todas las formas y tamaños requieren alta destreza

Deepmind dijo que el tercer pilar clave para construir un robot útil es actuar con destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras finas y todavía son demasiado difíciles para los robots.

Por el contrario, Gemini Robotics puede abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa, como el plegamiento de origami o el empaquetado de un refrigerio en una bolsa Ziploc, explicó.

Además, DeepMind dijo que diseñó Gemini Robotics para adaptarse a robots de diferentes factores de forma. La compañía capacitó al modelo principalmente en datos de la plataforma robótica bi-brazo, Aloha 2, pero también demostró que el modelo podría controlar una plataforma de dos brazos basada en los brazos de Franka utilizados en muchos laboratorios académicos.

Deepmind señaló que Gemini Robotics también puede especializarse para realizaciones más complejas, como el robot Humanoide Apollo desarrollado por Apptronik, con el objetivo de completar tareas del mundo real.

https://www.youtube.com/watch?v=x-exzz-ciuw

Géminis Robotics-ER se centra en el razonamiento espacial

Gemini Robotics-ER mejora la comprensión de Géminis del mundo de manera necesaria para la robótica, centrándose especialmente en el razonamiento espacial. También permite a los robotistas conectarlo con sus controladores de bajo nivel existentes. Deepmind dijo que el modelo mejora significativamente las habilidades existentes de Gemini 2.0, como la señalización y la detección 3D.

Combinando el razonamiento espacial y las habilidades de codificación de Géminis, Gemini Robotics-Er puede instanciar capacidades completamente nuevas sobre la marcha, afirmó DeepMind. Por ejemplo, cuando se le muestra una taza de café, el modelo puede intuir un agarre de dos dedos apropiado para recogerlo por el mango y una trayectoria segura para acercarse a él.

Gemini Robotics-ER puede realizar todos los pasos necesarios para controlar un robot inmediatamente fuera de la caja, incluida la percepción, la estimación del estado, la comprensión espacial, la planificación y la generación de códigos, según Google. En un entorno de extremo a extremo, el modelo es de dos a tres veces más exitoso que Gemini 2.0.

Cuando la generación de código no es suficiente, Gemini Robotics-ER puede aprovechar el poder del aprendizaje en contexto, siguiendo los patrones de un puñado de demostraciones humanas para proporcionar una solución.

DeepMind considera la seguridad del robot en el enfoque de Géminis

Deepmind dijo que, a medida que explora el potencial de la IA y la robótica, está adoptando un enfoque holístico en capas para abordar la seguridad, desde el control motor de bajo nivel hasta la comprensión semántica de alto nivel.

Gemini Robotics-ER puede interactuar con controladores críticos de seguridad “de bajo nivel” para hacer cosas como evitar colisiones, limitar la magnitud de las fuerzas de contacto y garantizar la estabilidad dinámica de los robots móviles.

Sobre la base de las características de seguridad básicas de Gemini, la organización permite a los modelos de Gemini Robotics-ER comprender si una acción potencial es segura o no en un contexto dado y generar respuestas apropiadas.

https://www.youtube.com/watch?v=4mvgnmpp3c0

DeepMind busca más investigación con un nuevo conjunto de datos

Para avanzar en la investigación de seguridad robótica en toda la academia e industria, DeepMind también lanzó un nuevo conjunto de datos para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporada. En trabajos anteriores, mostró cómo una “constitución de robots” inspirada en las tres leyes de robótica de Isaac Asimov podría ayudar a impulsar un modelo de lenguaje grande (LLM) a seleccionar tareas más seguras para los robots.

Desde entonces, la organización ha desarrollado un marco para generar automáticamente constituciones basadas en datos, reglas expresadas directamente en el lenguaje natural, para dirigir el comportamiento de un robot. Este marco permitiría a las personas crear, modificar y aplicar constituciones para desarrollar robots que sean más seguros y más alineados con los valores humanos.

Finalmente, el nuevo conjunto de datos de Asimov ayudará a los investigadores a medir rigurosamente las implicaciones de seguridad de las acciones robóticas en los escenarios del mundo real, dijo Deepmind.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version