Noticias

Géminis Robotics: los nuevos modelos de IA de Google Deepmind para robots

Published

on

Los modelos generativos de IA se están acercando a tomar medidas en el mundo real. Las grandes compañías de IA ya presentan agentes de IA que pueden ocuparse del trabajo ocupado basado en la web, ordenando sus comestibles o haciendo su reserva de cena. Hoy, Google Deepmind anuncióDos modelos de IA generativos diseñados para alimentar los robots de mañana.

Ambos modelos se basan en Google Gemini, un modelo de base multimodal que puede procesar datos de texto, voz y imagen para responder preguntas, dar consejos y, en general, ayudar. DeepMind llama al primero de los nuevos modelos, Gemini Robotics, un “modelo avanzado de acción-lengua de visión”, lo que significa que puede tomar todas esas mismas entradas y luego obtener instrucciones para las acciones físicas de un robot. Los modelos están diseñados para funcionar con cualquier sistema de hardware, pero se probaron principalmente en el sistema Aloha 2 de dos brazos que DeepMind introdujo el año pasado.

En un video de demostración, una voz dice: “Recoja el baloncesto y slamla” (a las 2:27 en el video a continuación). Luego, un brazo robot recoge cuidadosamente un baloncesto en miniatura y lo deja caer en una red en miniatura, y aunque no era una volcada a nivel de NBA, fue suficiente para entusiasmar a los investigadores de profundos.

https://www.youtube.com/watch?v=uyi0k7puyksGoogle Deepmind lanzó este video de demostración que muestra las capacidades de su modelo Gemini Robotics Foundation para controlar los robots. Robótica de Géminis

“Este ejemplo de baloncesto es uno de mis favoritos”, dijo Kanishka Rao, la principal ingeniera de software del proyecto, en una conferencia de prensa. Explica que el robot “nunca, nunca había visto nada relacionado con el baloncesto”, pero que su modelo de base subyacente tenía una comprensión general del juego, sabía cómo se ve una red de baloncesto y entendía cómo significaba el término “volcado de slam”. Por lo tanto, el robot era “capaz de conectarlos [concepts] realmente cumplir la tarea en el mundo físico “, dice Rao.

¿Cuáles son los avances de la robótica de Géminis?

Carolina Parada, directora de robótica en Google Deepmind, dijo en la sesión informativa que los nuevos modelos mejoran los robots anteriores de la compañía en tres dimensiones: generalización, adaptabilidad y destreza. Todos estos avances son necesarios, dijo, para crear “una nueva generación de robots útiles”.

La generalización significa que un robot puede Aplique un concepto que haya aprendido en un contexto a otra situación, y los investigadores analizaron la generalización visual (por ejemplo, se confunde si el color de un objeto o antecedentes cambió), la generalización de instrucciones (puede interpretar los comandos que están redactados de diferentes maneras) y la generalización de la acción (puede realizar una acción que nunca antes había hecho).

Parada también dice que los robots impulsados ​​por Gemini pueden adaptarse mejor a las instrucciones y circunstancias cambiantes. Para demostrar ese punto en un video, un investigador le dijo a un brazo robot que colocara un montón de uvas de plástico en el recipiente transparente de Tupperware, luego procedió a cambiar tres contenedores sobre la mesa en una aproximación de un juego de concha de Shyster. El brazo del robot siguió obedientemente el contenedor transparente hasta que pudiera cumplir su directiva.

https://www.youtube.com/watch?v=gvz78jhkzroGoogle Deepmind dice que Gemini Robotics es mejor que los modelos anteriores para adaptarse a las instrucciones y circunstancias cambiantes.Google DeepMind

En cuanto a la destreza, los videos de demostración mostraron los brazos robóticos que doblaban una hoja de papel en un zorro de origami y realizaban otras tareas delicadas. Sin embargo, es importante tener en cuenta que el rendimiento impresionante aquí está en el contexto de Un conjunto estrecho de datos de alta calidad en los que se entrenó al robot para estas tareas específicas, por lo que el nivel de destreza que representan estas tareas no se está generalizando.

¿Qué es el razonamiento incorporado?

El segundo modelo presentado hoy es Gemini Robotics-Er, con la sala de emergencias para “razonamiento encarnado”, que es el tipo de comprensión física intuitiva del mundo que los humanos desarrollan con experiencia a lo largo del tiempo. Podemos hacer cosas inteligentes como mirar un objeto que nunca antes habíamos visto y hacer una suposición educada sobre la mejor manera de interactuar con él, y esto es lo que DeepMind busca emular con Gemini Robotics-Er.

Parada dio un ejemplo de la capacidad de Gemini Robotics-Er para identificar un punto de agarre apropiado para recoger una taza de café. El modelo identifica correctamente el mango, porque ahí es donde los humanos tienden a captar tazas de café. Sin embargo, esto ilustra una posible debilidad de depender de los datos de entrenamiento centrados en el ser humano: para un robot, especialmente un robot que podría manejar cómodamente una taza de café caliente, un mango delgado podría ser un punto de agarre mucho menos confiable que una comprensión más envolvente de la taza en sí.

El enfoque de DeepMind para la seguridad robótica

Vikas Sindhwani, jefe de seguridad robótica de Deepmind para el proyecto, dice que el equipo adoptó un enfoque en capas de seguridad. Comienza con controles clásicos de seguridad física que manejan cosas como la evitación de colisiones y la estabilidad, pero también incluyen sistemas de “seguridad semántica” que evalúan sus instrucciones y las consecuencias de seguirlas. Estos sistemas son más sofisticados en el modelo Gemini Robotics-ER, dice Sindhwani, que está “capacitado para evaluar si una acción potencial es segura para realizar en un escenario determinado”.

Y debido a que “la seguridad no es un esfuerzo competitivo”, dice Sindhwani, DeepMind está lanzando un nuevo conjunto de datos y lo que llama el punto de referencia de Asimov, que tiene la intención de medir la capacidad de un modelo para comprender las reglas de vida de sentido común. El punto de referencia contiene ambas preguntas sobre escenas visuales y escenarios de texto, haciendo opiniones de modelos sobre cosas como la conveniencia de mezclar lejía y vinagre (una combinación que hace gas de cloro) y colocar un juguete suave en una estufa caliente. En la sesión informativa de la prensa, Sindhwani dijo que los modelos de Géminis tenían un “fuerte rendimiento” en ese punto de referencia, y el informe técnico mostró que los modelos obtuvieron más del 80 por ciento de las preguntas correctas.

Asociaciones robóticas de Deepmind

En diciembre, DeepMind y la compañía de robótica humanoide Apptronik anunciaron una asociación, y Parada dice que las dos compañías están trabajando juntas “para construir la próxima generación de robots humanoides con Gemini en su núcleo”. DeepMind también está poniendo a disposición de sus modelos para un grupo de élite de “probadores de confianza”: robots ágiles, robótica de agilidad, dinámica de Boston y herramientas encantadas.

De los artículos de su sitio

Artículos relacionados en la web

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version