Connect with us

Noticias

Géminis Robotics: los nuevos modelos de IA de Google Deepmind para robots

Published

on

Los modelos generativos de IA se están acercando a tomar medidas en el mundo real. Las grandes compañías de IA ya presentan agentes de IA que pueden ocuparse del trabajo ocupado basado en la web, ordenando sus comestibles o haciendo su reserva de cena. Hoy, Google Deepmind anuncióDos modelos de IA generativos diseñados para alimentar los robots de mañana.

Ambos modelos se basan en Google Gemini, un modelo de base multimodal que puede procesar datos de texto, voz y imagen para responder preguntas, dar consejos y, en general, ayudar. DeepMind llama al primero de los nuevos modelos, Gemini Robotics, un “modelo avanzado de acción-lengua de visión”, lo que significa que puede tomar todas esas mismas entradas y luego obtener instrucciones para las acciones físicas de un robot. Los modelos están diseñados para funcionar con cualquier sistema de hardware, pero se probaron principalmente en el sistema Aloha 2 de dos brazos que DeepMind introdujo el año pasado.

En un video de demostración, una voz dice: “Recoja el baloncesto y slamla” (a las 2:27 en el video a continuación). Luego, un brazo robot recoge cuidadosamente un baloncesto en miniatura y lo deja caer en una red en miniatura, y aunque no era una volcada a nivel de NBA, fue suficiente para entusiasmar a los investigadores de profundos.

https://www.youtube.com/watch?v=uyi0k7puyksGoogle Deepmind lanzó este video de demostración que muestra las capacidades de su modelo Gemini Robotics Foundation para controlar los robots. Robótica de Géminis

“Este ejemplo de baloncesto es uno de mis favoritos”, dijo Kanishka Rao, la principal ingeniera de software del proyecto, en una conferencia de prensa. Explica que el robot “nunca, nunca había visto nada relacionado con el baloncesto”, pero que su modelo de base subyacente tenía una comprensión general del juego, sabía cómo se ve una red de baloncesto y entendía cómo significaba el término “volcado de slam”. Por lo tanto, el robot era “capaz de conectarlos [concepts] realmente cumplir la tarea en el mundo físico “, dice Rao.

¿Cuáles son los avances de la robótica de Géminis?

Carolina Parada, directora de robótica en Google Deepmind, dijo en la sesión informativa que los nuevos modelos mejoran los robots anteriores de la compañía en tres dimensiones: generalización, adaptabilidad y destreza. Todos estos avances son necesarios, dijo, para crear “una nueva generación de robots útiles”.

La generalización significa que un robot puede Aplique un concepto que haya aprendido en un contexto a otra situación, y los investigadores analizaron la generalización visual (por ejemplo, se confunde si el color de un objeto o antecedentes cambió), la generalización de instrucciones (puede interpretar los comandos que están redactados de diferentes maneras) y la generalización de la acción (puede realizar una acción que nunca antes había hecho).

Parada también dice que los robots impulsados ​​por Gemini pueden adaptarse mejor a las instrucciones y circunstancias cambiantes. Para demostrar ese punto en un video, un investigador le dijo a un brazo robot que colocara un montón de uvas de plástico en el recipiente transparente de Tupperware, luego procedió a cambiar tres contenedores sobre la mesa en una aproximación de un juego de concha de Shyster. El brazo del robot siguió obedientemente el contenedor transparente hasta que pudiera cumplir su directiva.

https://www.youtube.com/watch?v=gvz78jhkzroGoogle Deepmind dice que Gemini Robotics es mejor que los modelos anteriores para adaptarse a las instrucciones y circunstancias cambiantes.Google DeepMind

En cuanto a la destreza, los videos de demostración mostraron los brazos robóticos que doblaban una hoja de papel en un zorro de origami y realizaban otras tareas delicadas. Sin embargo, es importante tener en cuenta que el rendimiento impresionante aquí está en el contexto de Un conjunto estrecho de datos de alta calidad en los que se entrenó al robot para estas tareas específicas, por lo que el nivel de destreza que representan estas tareas no se está generalizando.

¿Qué es el razonamiento incorporado?

El segundo modelo presentado hoy es Gemini Robotics-Er, con la sala de emergencias para “razonamiento encarnado”, que es el tipo de comprensión física intuitiva del mundo que los humanos desarrollan con experiencia a lo largo del tiempo. Podemos hacer cosas inteligentes como mirar un objeto que nunca antes habíamos visto y hacer una suposición educada sobre la mejor manera de interactuar con él, y esto es lo que DeepMind busca emular con Gemini Robotics-Er.

Parada dio un ejemplo de la capacidad de Gemini Robotics-Er para identificar un punto de agarre apropiado para recoger una taza de café. El modelo identifica correctamente el mango, porque ahí es donde los humanos tienden a captar tazas de café. Sin embargo, esto ilustra una posible debilidad de depender de los datos de entrenamiento centrados en el ser humano: para un robot, especialmente un robot que podría manejar cómodamente una taza de café caliente, un mango delgado podría ser un punto de agarre mucho menos confiable que una comprensión más envolvente de la taza en sí.

El enfoque de DeepMind para la seguridad robótica

Vikas Sindhwani, jefe de seguridad robótica de Deepmind para el proyecto, dice que el equipo adoptó un enfoque en capas de seguridad. Comienza con controles clásicos de seguridad física que manejan cosas como la evitación de colisiones y la estabilidad, pero también incluyen sistemas de “seguridad semántica” que evalúan sus instrucciones y las consecuencias de seguirlas. Estos sistemas son más sofisticados en el modelo Gemini Robotics-ER, dice Sindhwani, que está “capacitado para evaluar si una acción potencial es segura para realizar en un escenario determinado”.

Y debido a que “la seguridad no es un esfuerzo competitivo”, dice Sindhwani, DeepMind está lanzando un nuevo conjunto de datos y lo que llama el punto de referencia de Asimov, que tiene la intención de medir la capacidad de un modelo para comprender las reglas de vida de sentido común. El punto de referencia contiene ambas preguntas sobre escenas visuales y escenarios de texto, haciendo opiniones de modelos sobre cosas como la conveniencia de mezclar lejía y vinagre (una combinación que hace gas de cloro) y colocar un juguete suave en una estufa caliente. En la sesión informativa de la prensa, Sindhwani dijo que los modelos de Géminis tenían un “fuerte rendimiento” en ese punto de referencia, y el informe técnico mostró que los modelos obtuvieron más del 80 por ciento de las preguntas correctas.

Asociaciones robóticas de Deepmind

En diciembre, DeepMind y la compañía de robótica humanoide Apptronik anunciaron una asociación, y Parada dice que las dos compañías están trabajando juntas “para construir la próxima generación de robots humanoides con Gemini en su núcleo”. DeepMind también está poniendo a disposición de sus modelos para un grupo de élite de “probadores de confianza”: robots ágiles, robótica de agilidad, dinámica de Boston y herramientas encantadas.

De los artículos de su sitio

Artículos relacionados en la web

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Acabo de probar Manus vs Chatgpt con 5 indicaciones: aquí está el ganador

Published

on

Desde su lanzamiento la semana pasada, el agente de IA Manus ha ganado rápidamente tracción en línea. Desarrollado por la startup mariposa con sede en Wuhan, la comunidad de IA se ha dado cuenta, con más de 2 millones de personas en la lista de espera.

Al compararlo con Deepseek, Manus se distingue a sí mismo como lo que dice ser el primer agente general de IA del mundo, lo que lo distingue de los chatbots de IA tradicionales. En lugar de confiar en un solo modelo de lenguaje grande, como ChatGPT, Grok, Deepseek y otros sistemas de IA conversacionales, Manus opera con múltiples modelos de IA, incluidos el soneto Claude 3.5 de Anthrope y las versiones ajustadas de Alibaba’s Open-Source Qwen.

Continue Reading

Noticias

Operai pide a Trump que elimine las restricciones a la industria de la IA

Published

on

Operai ha presentado una larga propuesta al gobierno de los Estados Unidos, con el objetivo de influir en su próximo plan de acción de IA, un informe de estrategia que muchos creen que guiará la política del presidente Donald Trump sobre la tecnología de inteligencia artificial.

La propuesta de la compañía de IA más reconocible de Estados Unidos es previsiblemente controvertida, y requiere que el gobierno de los Estados Unidos enfatice la velocidad del desarrollo sobre el escrutinio regulatorio, al tiempo que advierte los peligros que plantean las empresas de IA chinas para el país.

Trump pidió que el Plan de Acción de AI fuera redactado por la Oficina de Política de Ciencia y Tecnología y se sometió a él para julio poco después de asumir su segunda residencia en la Casa Blanca. Eso sucedió en enero, cuando expulsó una orden ejecutiva relacionada con la IA que fue firmada por su predecesor Joe Biden en octubre de 2023, reemplazándola con la suya, declarando que “es la política de los Estados Unidos para mantener y mejorar el dominio global de IA de Estados Unidos”.

Operai ha perdido poco tiempo al tratar de influir en las recomendaciones en ese plan, y en su propuesta dejó en claro sus sentimientos sobre el nivel actual de regulación en la industria de la IA. Pidió que los desarrolladores de IA recibieran “la libertad de innovar en el interés nacional”, y abogó por una “asociación voluntaria entre el gobierno federal y el sector privado”, en lugar de “leyes estatales demasiado pesadas”.

Argumenta que el gobierno federal debería poder trabajar con compañías de IA de manera “puramente voluntaria y opcional”, diciendo que esto ayudará a promover la innovación y la adopción de la tecnología. Además, pidió a los EE. UU. Que cree una “estrategia de control de exportación” que cubra los sistemas de IA fabricados en Estados Unidos, que promoverán la adopción global de su tecnología de IA de cosecha propia.

Impulso por la adopción del gobierno

La compañía argumenta además en sus recomendaciones que el gobierno otorga a las agencias federales una mayor libertad para “probar y experimentar” las tecnologías de IA que utilizan “datos reales”, y también solicitó a Trump que otorgue una exención temporal que negaría la necesidad de que los proveedores de IA estén certificados bajo el programa federal de gestión de riesgos y autorización. Pidió a Trump que “modernice” el proceso que las compañías de IA deben pasar para ser aprobadas para el uso del gobierno federal, pidiendo la creación de una “ruta más rápida basada en criterios para la aprobación de las herramientas de IA”.

Openai argumenta que sus recomendaciones harán posible que las agencias del gobierno federal utilicen los nuevos sistemas de IA hasta 12 meses más rápido de lo que es posible actualmente. Sin embargo, algunos expertos de la industria han expresado su preocupación de que la adopción tan rápida de la IA por parte del gobierno podría crear problemas de seguridad y privacidad.

Al presionar más, OpenAi también le dijo al gobierno de los Estados Unidos que debería asociarse más estrechamente con las empresas del sector privado para construir sistemas de IA para uso de seguridad nacional. Explicó que el gobierno podría beneficiarse de tener sus propios modelos de IA que están capacitados en conjuntos de datos clasificados, ya que estos podrían “ajustados para ser excepcionales en las tareas de seguridad nacional”.

Operai tiene un gran interés en abrir el sector del gobierno federal para productos y servicios de IA, después de haber lanzado una versión especializada de ChatGPT, llamada ChatGPT Gov, en enero. Está diseñado para ser dirigido por agencias gubernamentales en sus propios entornos informáticos seguros, donde tienen más control sobre la seguridad y la privacidad.

‘Libertad para aprender’

Además de promover el uso gubernamental de la IA, Operai también quiere que el gobierno de los Estados Unidos facilite su propia vida al implementar una “estrategia de derechos de autor que promueva la libertad de aprender”. Pidió a Trump que desarrollara regulaciones que preservarán la capacidad de los modelos de IA estadounidenses para aprender de los materiales con derechos de autor.

“Estados Unidos tiene tantas nuevas empresas de IA, atrae tanta inversión y ha hecho tantos avances de investigación en gran medida porque la doctrina de uso justo promueve el desarrollo de IA”, declaró la compañía.

Es una solicitud controvertida, porque la compañía actualmente está luchando contra múltiples organizaciones de noticias, músicos y autores sobre reclamos de infracción de derechos de autor. El ChatGPT original que se lanzó a fines de 2022 y los modelos más poderosos que se han lanzado desde entonces están en gran medida entrenados en Internet público, que es la principal fuente de su conocimiento.

Sin embargo, los críticos de la compañía dicen que básicamente está plagiando contenido de los sitios web de noticias, de los cuales muchos están paseados por pagos. Operai ha sido golpeado con demandas por el New York Times, el Chicago Tribune, el New York Daily News y el Centro de Informes de Investigación, la sala de redacción sin fines de lucro más antigua del país. Numerosos artistas y autores también han emprendido acciones legales contra la empresa.

Si no puedes vencerlos, ¿prohibirlos?

Las recomendaciones de Openai también apuntaron a algunos de los rivales de la compañía, en particular Deepseek Ltd., el laboratorio de IA chino que desarrolló el modelo Deepseek R-1 con una fracción del costo de cualquier cosa que Operai haya desarrollado.

La compañía describió a Deepseek como “subsidiado por el estado” y “controlado por el estado”, y le pidió al gobierno que considerara prohibir sus modelos y los de otras empresas chinas de IA.

En la propuesta, Openai afirmó que el modelo R1 de Deepseek es “inseguro”, porque la ley china requiere que cumpla con ciertas demandas con respecto a los datos del usuario. Al prohibir el uso de modelos de China y otros países de “nivel 1”, Estados Unidos podría minimizar el “riesgo de robo de IP” y otros peligros, dijo.

“Mientras Estados Unidos mantiene una ventaja en la IA hoy, Deepseek muestra que nuestro liderazgo no es ancho y está reduciendo”, dijo Openii.

Foto: TechCrunch/Flickr

Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.

Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.

Únete a nuestra comunidad en YouTube

Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, ​​el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.

“TheCube es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente les apreciamos que vengan y sé que la gente aprecia el contenido que crean también ” – Andy Jassy

GRACIAS

Continue Reading

Noticias

Google DeepMind tiene como objetivo útil Robots AI útiles

Published

on

Google Deepmind ha introducido Gemini Robotics, nuevos modelos de IA diseñados para traer razonamiento avanzado y capacidades físicas a los robots.

Construido sobre la base de Gemini 2.0, los nuevos modelos representan un salto hacia la creación de robots que pueden entender e interactuar con el mundo físico de manera que anteriormente se limitaron al ámbito digital.

Los nuevos modelos, Robótica de Géminis y Géminis robótica (Razonamiento encarnado), tiene como objetivo permitir a los robots realizar una gama más amplia de tareas del mundo real combinando la visión avanzada, el lenguaje y las capacidades de acción.

https://www.youtube.com/watch?v=4mvgnmpp3c0

Gemini Robotics tiene como objetivo cerrar la brecha física digital

Hasta ahora, los modelos de IA como Gemini se han destacado en el razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, sus habilidades se han limitado en gran medida a las aplicaciones digitales.

Para que los modelos de IA realmente útiles en la vida cotidiana, deben poseer “razonamiento encarnado” (es decir, la capacidad de comprender y reaccionar ante el mundo físico, al igual que los humanos).

Gemini Robotics aborda este desafío al introducir acciones físicas Como una nueva modalidad de salida, permitiendo que el modelo controle directamente los robots. Mientras tanto, Gemini Robotics-ER mejora la comprensión espacial, lo que permite a los robotistas para integrar las capacidades de razonamiento del modelo en sus propios sistemas.

Estos modelos representan un paso fundamental hacia una nueva generación de robots útiles. Al combinar la IA avanzada con la acción física, Google Deepmind está desbloqueando el potencial de los robots para ayudar en una variedad de configuraciones del mundo real, desde hogares hasta lugares de trabajo.

Características clave de Géminis Robótica

Gemini Robotics está diseñado con tres cualidades centrales en mente: generalidad, interactividady destreza. Estos atributos aseguran que el modelo pueda adaptarse a diversas situaciones, responder a entornos dinámicos y realizar tareas complejas con precisión.

Generalidad

Gemini Robotics aprovecha las capacidades mundiales de Enderstanding de Gemini 2.0 para generalizar en situaciones novedosas. Esto significa que el modelo puede abordar las tareas que nunca antes había encontrado, adaptarse a nuevos objetos y operar en entornos desconocidos. Según Google Deepmind, Gemini Robotics duplica más que el rendimiento de los modelos de acción de la visión de última generación en los puntos de referencia de generalización.

https://www.youtube.com/watch?v=SY20X_TYWPQ

Interactividad

Para funcionar de manera efectiva en el mundo real, los robots deben interactuar sin problemas con las personas y sus alrededores. Gemini Robotics sobresale en esta área, gracias a sus capacidades avanzadas de comprensión del idioma. El modelo puede interpretar y responder a las instrucciones del lenguaje natural, monitorear su entorno para los cambios y ajustar sus acciones en consecuencia.

Por ejemplo, si un objeto se desliza del alcance de un robot o es movido por una persona, Gemini Robotics puede replantar rápidamente y continuar la tarea. Este nivel de adaptabilidad es crucial para las aplicaciones del mundo real, donde la imprevisibilidad es la norma.

https://www.youtube.com/watch?v=hyqs2oaif-i

Destreza

Muchas tareas cotidianas requieren habilidades motoras finas que tradicionalmente han sido desafiantes para los robots. Gemini Robotics, sin embargo, demuestra una destreza notable, lo que permite realizar tareas complejas y de varios pasos, como el origami plegable o empacar un refrigerio en una bolsa Ziploc.

https://www.youtube.com/watch?v=x-exzz-ciuw

Realizaciones múltiples para diversas aplicaciones

Una de las características destacadas de Gemini Robotics es su capacidad para adaptarse a diferentes tipos de robots. Si bien el modelo se capacitó principalmente utilizando datos de la plataforma robótica bi-brazo Aloha 2, también se ha probado con éxito en otras plataformas, incluidas las armas Franka utilizadas en los laboratorios académicos.

Google Deepmind también está colaborando con Apptronik para integrar la robótica de Géminis en su robot humanoide, Apollo. Esta asociación tiene como objetivo desarrollar robots capaces de completar tareas del mundo real con eficiencia y seguridad sin precedentes.

Gemini Robotics-ER es un modelo diseñado específicamente para mejorar las capacidades de razonamiento espacial. Este modelo permite a los robotistas conectar las habilidades de razonamiento avanzado de Gemini con sus controladores de bajo nivel existentes, lo que permite tareas como la detección de objetos, la percepción 3D y la manipulación precisa.

Por ejemplo, cuando se le muestra una taza de café, Gemini Robotics-ER puede determinar una comprensión de dos dedos apropiada para recogerla por el mango y planificar una trayectoria segura para abordarlo. El modelo logra una tasa de éxito 2X-3X en comparación con Gemini 2.0 en tareas de extremo a extremo, lo que lo convierte en una herramienta poderosa para los robotistas.

Priorizar la seguridad y la responsabilidad

Google Deepmind dice que la seguridad es una prioridad y posteriormente ha implementado un enfoque en capas para garantizar la seguridad física de los robots y las personas que los rodean. Esto incluye la integración de medidas de seguridad clásicas, como la evitación de colisiones y la limitación de la fuerza, con las capacidades de razonamiento avanzado de Gemini.

Para avanzar aún más en la investigación de seguridad, Google Deepmind está lanzando el conjunto de datos Asimov, un nuevo recurso para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporada. El conjunto de datos está inspirado en el de Isaac Asimov Tres leyes de robótica y tiene como objetivo ayudar a los investigadores a desarrollar robots que sean más seguros y más alineados con los valores humanos.

Google Deepmind está trabajando con un grupo selecto de probadores, incluidos robots ágiles, robots de agilidad, dinámica de Boston y herramientas encantadas, para explorar las capacidades de Gemini Robotics-Er. Google dice que estas colaboraciones ayudarán a refinar los modelos y guiarán su desarrollo hacia aplicaciones del mundo real.

Al combinar el razonamiento avanzado con la acción física, Google Deepmind está allanando el camino para un futuro donde los robots pueden ayudar a los humanos en una amplia gama de tareas, desde tareas domésticas hasta aplicaciones industriales.

Ver también: La ‘bolsa de golf’ de los robots abordará entornos peligrosos

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Echa un vistazo a AI y Big Data Expo que tendrá lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluida la Conferencia de Automatización Inteligente, Blockx, la Semana de Transformación Digital y Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web de tecnología empresarial alimentados por TechForge aquí.

Etiquetas: IA, inteligencia artificial, profunda, IA encarnada, robótica de Géminis, Google, modelos, robótica, robots

Continue Reading

Trending