Investigadores del MIT, Sakana AI, OpenAI y el Swiss AI Lab IDSIA proponen un nuevo algoritmo llamado búsqueda automatizada de vida artificial (ASAL) para automatizar el descubrimiento de vida artificial utilizando modelos básicos de visión-lenguaje
La investigación sobre Vida Artificial (ALife) explora el surgimiento de comportamientos realistas a través de simulaciones computacionales, proporcionando un marco único para estudiar “la vida tal como podría ser”. Sin embargo, el campo enfrenta limitaciones significativas: la dependencia de reglas y configuraciones de simulación diseñadas manualmente. Este proceso requiere mucho tiempo y está limitado por la intuición humana, lo que deja muchos descubrimientos potenciales sin explorar. Los investigadores a menudo dependen del ensayo y error para identificar configuraciones que conducen a fenómenos como la autorreplicación, la dinámica de los ecosistemas o los comportamientos emergentes. Estos desafíos limitan el progreso y la amplitud de los descubrimientos.
Otra complicación es la dificultad para evaluar fenómenos realistas. Si bien métricas como la complejidad y la novedad brindan algunas ideas, a menudo no logran captar la percepción humana matizada de lo que hace que los fenómenos sean “interesantes” o “realistas”. Esta brecha subraya la necesidad de enfoques sistemáticos y escalables.
Para abordar estos desafíos, investigadores del MIT, Sakana AI, OpenAI y el Swiss AI Lab IDSIA han desarrollado la búsqueda automatizada de vida artificial (ASAL). Este innovador algoritmo aprovecha los modelos básicos (FM) de visión y lenguaje para automatizar el descubrimiento de formas de vida artificiales. En lugar de diseñar cada regla manualmente, los investigadores pueden definir el espacio de simulación y ASAL lo explora de forma autónoma.
ASAL integra FM de lenguaje visual, como CLIP, para alinear las salidas visuales con indicaciones textuales, lo que permite la evaluación de simulaciones en un espacio de representación similar al humano. El algoritmo opera a través de tres mecanismos distintos:
Búsqueda de objetivos supervisada: Identifica simulaciones que producen fenómenos específicos.
Búsqueda abierta: Descubre simulaciones que generan patrones novedosos y sostenidos temporalmente.
Búsqueda de iluminación: Mapea diversas simulaciones, revelando la amplitud de formas de vida potenciales.
Este enfoque cambia el enfoque de los investigadores de la configuración de bajo nivel a la investigación de alto nivel sobre los resultados deseados, mejorando enormemente el alcance de la exploración de ALife.
Información técnica y ventajas
ASAL utiliza FM de lenguaje visual para evaluar espacios de simulación definidos por tres componentes clave:
Distribución estatal inicial: Especifica las condiciones iniciales.
Función de paso: Gobierna la dinámica de la simulación en el tiempo.
Función de renderizado: Convierte estados de simulación en imágenes interpretables.
Al incorporar resultados de simulación en un espacio de representación alineado con humanos, ASAL permite:
Exploración eficiente: Automatizar el proceso de búsqueda ahorra tiempo y esfuerzo computacional.
Amplia aplicabilidad: ASAL es compatible con varios sistemas ALife, incluidos Lenia, Boids, Particle Life y Neural Cellular Automata.
Métricas mejoradas: Los FM de lenguaje visual cierran la brecha entre el juicio humano y la evaluación computacional.
Descubrimiento abierto: El algoritmo se destaca en la identificación de patrones continuos y novedosos que son fundamentales para los objetivos de investigación de ALife.
Resultados clave y observaciones
Los experimentos han demostrado la eficacia de ASAL en varios sustratos:
Búsqueda de objetivos supervisada: ASAL descubrió con éxito simulaciones que coincidían con indicaciones como “moléculas autorreplicantes” y “una red de neuronas”. Por ejemplo, en Neural Cellular Automata, identificó reglas que permiten la autorreplicación y dinámicas similares a las de un ecosistema.
Búsqueda abierta: El algoritmo reveló reglas de autómatas celulares que superan la expresividad del Juego de la vida de Conway. Estas simulaciones mostraron patrones dinámicos que mantuvieron la complejidad sin estabilizarse ni colapsar.
Búsqueda de iluminación: ASAL mapeó diversos comportamientos en Lenia y Boids, identificando patrones nunca antes vistos, como dinámicas de bandadas exóticas y estructuras celulares autoorganizadas.
Los análisis cuantitativos aportaron más conocimientos. En las simulaciones de Particle Life, ASAL destacó cómo condiciones específicas, como un número crítico de partículas, eran necesarias para que surgieran fenómenos como “una oruga”. Esto se alinea con el principio de que “más es diferente” en la ciencia de la complejidad. Además, la capacidad de interpolar entre simulaciones arroja luz sobre la naturaleza caótica de los sustratos de ALife.
Conclusión
ASAL representa un avance significativo en la investigación de ALife, ya que aborda desafíos de larga data a través de soluciones sistemáticas y escalables. Al automatizar el descubrimiento y emplear métricas de evaluación alineadas con los humanos, ASAL ofrece una herramienta práctica para explorar comportamientos realistas emergentes.
Las direcciones futuras de ASAL incluyen aplicaciones más allá de ALife, como la física de bajo nivel o la investigación en ciencia de materiales. Dentro de ALife, la capacidad de ASAL para explorar mundos hipotéticos y mapear el espacio de posibles formas de vida puede conducir a avances en la comprensión de los orígenes de la vida y los mecanismos detrás de la complejidad.
En conclusión, ASAL permite a los científicos ir más allá del diseño manual y centrarse en cuestiones más amplias sobre el potencial de la vida. Proporciona un enfoque reflexivo y metódico para explorar “la vida tal como podría ser”, abriendo nuevas posibilidades de descubrimiento.
Verificar el papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones inigualable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
[Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)
Desde su lanzamiento la semana pasada, el agente de IA Manus ha ganado rápidamente tracción en línea. Desarrollado por la startup mariposa con sede en Wuhan, la comunidad de IA se ha dado cuenta, con más de 2 millones de personas en la lista de espera.
Al compararlo con Deepseek, Manus se distingue a sí mismo como lo que dice ser el primer agente general de IA del mundo, lo que lo distingue de los chatbots de IA tradicionales. En lugar de confiar en un solo modelo de lenguaje grande, como ChatGPT, Grok, Deepseek y otros sistemas de IA conversacionales, Manus opera con múltiples modelos de IA, incluidos el soneto Claude 3.5 de Anthrope y las versiones ajustadas de Alibaba’s Open-Source Qwen.
Operai ha presentado una larga propuesta al gobierno de los Estados Unidos, con el objetivo de influir en su próximo plan de acción de IA, un informe de estrategia que muchos creen que guiará la política del presidente Donald Trump sobre la tecnología de inteligencia artificial.
La propuesta de la compañía de IA más reconocible de Estados Unidos es previsiblemente controvertida, y requiere que el gobierno de los Estados Unidos enfatice la velocidad del desarrollo sobre el escrutinio regulatorio, al tiempo que advierte los peligros que plantean las empresas de IA chinas para el país.
Trump pidió que el Plan de Acción de AI fuera redactado por la Oficina de Política de Ciencia y Tecnología y se sometió a él para julio poco después de asumir su segunda residencia en la Casa Blanca. Eso sucedió en enero, cuando expulsó una orden ejecutiva relacionada con la IA que fue firmada por su predecesor Joe Biden en octubre de 2023, reemplazándola con la suya, declarando que “es la política de los Estados Unidos para mantener y mejorar el dominio global de IA de Estados Unidos”.
Operai ha perdido poco tiempo al tratar de influir en las recomendaciones en ese plan, y en su propuesta dejó en claro sus sentimientos sobre el nivel actual de regulación en la industria de la IA. Pidió que los desarrolladores de IA recibieran “la libertad de innovar en el interés nacional”, y abogó por una “asociación voluntaria entre el gobierno federal y el sector privado”, en lugar de “leyes estatales demasiado pesadas”.
Argumenta que el gobierno federal debería poder trabajar con compañías de IA de manera “puramente voluntaria y opcional”, diciendo que esto ayudará a promover la innovación y la adopción de la tecnología. Además, pidió a los EE. UU. Que cree una “estrategia de control de exportación” que cubra los sistemas de IA fabricados en Estados Unidos, que promoverán la adopción global de su tecnología de IA de cosecha propia.
Impulso por la adopción del gobierno
La compañía argumenta además en sus recomendaciones que el gobierno otorga a las agencias federales una mayor libertad para “probar y experimentar” las tecnologías de IA que utilizan “datos reales”, y también solicitó a Trump que otorgue una exención temporal que negaría la necesidad de que los proveedores de IA estén certificados bajo el programa federal de gestión de riesgos y autorización. Pidió a Trump que “modernice” el proceso que las compañías de IA deben pasar para ser aprobadas para el uso del gobierno federal, pidiendo la creación de una “ruta más rápida basada en criterios para la aprobación de las herramientas de IA”.
Openai argumenta que sus recomendaciones harán posible que las agencias del gobierno federal utilicen los nuevos sistemas de IA hasta 12 meses más rápido de lo que es posible actualmente. Sin embargo, algunos expertos de la industria han expresado su preocupación de que la adopción tan rápida de la IA por parte del gobierno podría crear problemas de seguridad y privacidad.
Al presionar más, OpenAi también le dijo al gobierno de los Estados Unidos que debería asociarse más estrechamente con las empresas del sector privado para construir sistemas de IA para uso de seguridad nacional. Explicó que el gobierno podría beneficiarse de tener sus propios modelos de IA que están capacitados en conjuntos de datos clasificados, ya que estos podrían “ajustados para ser excepcionales en las tareas de seguridad nacional”.
Operai tiene un gran interés en abrir el sector del gobierno federal para productos y servicios de IA, después de haber lanzado una versión especializada de ChatGPT, llamada ChatGPT Gov, en enero. Está diseñado para ser dirigido por agencias gubernamentales en sus propios entornos informáticos seguros, donde tienen más control sobre la seguridad y la privacidad.
‘Libertad para aprender’
Además de promover el uso gubernamental de la IA, Operai también quiere que el gobierno de los Estados Unidos facilite su propia vida al implementar una “estrategia de derechos de autor que promueva la libertad de aprender”. Pidió a Trump que desarrollara regulaciones que preservarán la capacidad de los modelos de IA estadounidenses para aprender de los materiales con derechos de autor.
“Estados Unidos tiene tantas nuevas empresas de IA, atrae tanta inversión y ha hecho tantos avances de investigación en gran medida porque la doctrina de uso justo promueve el desarrollo de IA”, declaró la compañía.
Es una solicitud controvertida, porque la compañía actualmente está luchando contra múltiples organizaciones de noticias, músicos y autores sobre reclamos de infracción de derechos de autor. El ChatGPT original que se lanzó a fines de 2022 y los modelos más poderosos que se han lanzado desde entonces están en gran medida entrenados en Internet público, que es la principal fuente de su conocimiento.
Sin embargo, los críticos de la compañía dicen que básicamente está plagiando contenido de los sitios web de noticias, de los cuales muchos están paseados por pagos. Operai ha sido golpeado con demandas por el New York Times, el Chicago Tribune, el New York Daily News y el Centro de Informes de Investigación, la sala de redacción sin fines de lucro más antigua del país. Numerosos artistas y autores también han emprendido acciones legales contra la empresa.
Si no puedes vencerlos, ¿prohibirlos?
Las recomendaciones de Openai también apuntaron a algunos de los rivales de la compañía, en particular Deepseek Ltd., el laboratorio de IA chino que desarrolló el modelo Deepseek R-1 con una fracción del costo de cualquier cosa que Operai haya desarrollado.
La compañía describió a Deepseek como “subsidiado por el estado” y “controlado por el estado”, y le pidió al gobierno que considerara prohibir sus modelos y los de otras empresas chinas de IA.
En la propuesta, Openai afirmó que el modelo R1 de Deepseek es “inseguro”, porque la ley china requiere que cumpla con ciertas demandas con respecto a los datos del usuario. Al prohibir el uso de modelos de China y otros países de “nivel 1”, Estados Unidos podría minimizar el “riesgo de robo de IP” y otros peligros, dijo.
“Mientras Estados Unidos mantiene una ventaja en la IA hoy, Deepseek muestra que nuestro liderazgo no es ancho y está reduciendo”, dijo Openii.
Foto: TechCrunch/Flickr
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.
Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.
“TheCube es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente les apreciamos que vengan y sé que la gente aprecia el contenido que crean también ” – Andy Jassy
Google Deepmind ha introducido Gemini Robotics, nuevos modelos de IA diseñados para traer razonamiento avanzado y capacidades físicas a los robots.
Construido sobre la base de Gemini 2.0, los nuevos modelos representan un salto hacia la creación de robots que pueden entender e interactuar con el mundo físico de manera que anteriormente se limitaron al ámbito digital.
Los nuevos modelos, Robótica de Géminis y Géminis robótica (Razonamiento encarnado), tiene como objetivo permitir a los robots realizar una gama más amplia de tareas del mundo real combinando la visión avanzada, el lenguaje y las capacidades de acción.
Gemini Robotics tiene como objetivo cerrar la brecha física digital
Hasta ahora, los modelos de IA como Gemini se han destacado en el razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, sus habilidades se han limitado en gran medida a las aplicaciones digitales.
Para que los modelos de IA realmente útiles en la vida cotidiana, deben poseer “razonamiento encarnado” (es decir, la capacidad de comprender y reaccionar ante el mundo físico, al igual que los humanos).
Gemini Robotics aborda este desafío al introducir acciones físicas Como una nueva modalidad de salida, permitiendo que el modelo controle directamente los robots. Mientras tanto, Gemini Robotics-ER mejora la comprensión espacial, lo que permite a los robotistas para integrar las capacidades de razonamiento del modelo en sus propios sistemas.
Estos modelos representan un paso fundamental hacia una nueva generación de robots útiles. Al combinar la IA avanzada con la acción física, Google Deepmind está desbloqueando el potencial de los robots para ayudar en una variedad de configuraciones del mundo real, desde hogares hasta lugares de trabajo.
Características clave de Géminis Robótica
Gemini Robotics está diseñado con tres cualidades centrales en mente: generalidad, interactividady destreza. Estos atributos aseguran que el modelo pueda adaptarse a diversas situaciones, responder a entornos dinámicos y realizar tareas complejas con precisión.
Generalidad
Gemini Robotics aprovecha las capacidades mundiales de Enderstanding de Gemini 2.0 para generalizar en situaciones novedosas. Esto significa que el modelo puede abordar las tareas que nunca antes había encontrado, adaptarse a nuevos objetos y operar en entornos desconocidos. Según Google Deepmind, Gemini Robotics duplica más que el rendimiento de los modelos de acción de la visión de última generación en los puntos de referencia de generalización.
Para funcionar de manera efectiva en el mundo real, los robots deben interactuar sin problemas con las personas y sus alrededores. Gemini Robotics sobresale en esta área, gracias a sus capacidades avanzadas de comprensión del idioma. El modelo puede interpretar y responder a las instrucciones del lenguaje natural, monitorear su entorno para los cambios y ajustar sus acciones en consecuencia.
Por ejemplo, si un objeto se desliza del alcance de un robot o es movido por una persona, Gemini Robotics puede replantar rápidamente y continuar la tarea. Este nivel de adaptabilidad es crucial para las aplicaciones del mundo real, donde la imprevisibilidad es la norma.
Muchas tareas cotidianas requieren habilidades motoras finas que tradicionalmente han sido desafiantes para los robots. Gemini Robotics, sin embargo, demuestra una destreza notable, lo que permite realizar tareas complejas y de varios pasos, como el origami plegable o empacar un refrigerio en una bolsa Ziploc.
Realizaciones múltiples para diversas aplicaciones
Una de las características destacadas de Gemini Robotics es su capacidad para adaptarse a diferentes tipos de robots. Si bien el modelo se capacitó principalmente utilizando datos de la plataforma robótica bi-brazo Aloha 2, también se ha probado con éxito en otras plataformas, incluidas las armas Franka utilizadas en los laboratorios académicos.
Google Deepmind también está colaborando con Apptronik para integrar la robótica de Géminis en su robot humanoide, Apollo. Esta asociación tiene como objetivo desarrollar robots capaces de completar tareas del mundo real con eficiencia y seguridad sin precedentes.
Gemini Robotics-ER es un modelo diseñado específicamente para mejorar las capacidades de razonamiento espacial. Este modelo permite a los robotistas conectar las habilidades de razonamiento avanzado de Gemini con sus controladores de bajo nivel existentes, lo que permite tareas como la detección de objetos, la percepción 3D y la manipulación precisa.
Por ejemplo, cuando se le muestra una taza de café, Gemini Robotics-ER puede determinar una comprensión de dos dedos apropiada para recogerla por el mango y planificar una trayectoria segura para abordarlo. El modelo logra una tasa de éxito 2X-3X en comparación con Gemini 2.0 en tareas de extremo a extremo, lo que lo convierte en una herramienta poderosa para los robotistas.
Priorizar la seguridad y la responsabilidad
Google Deepmind dice que la seguridad es una prioridad y posteriormente ha implementado un enfoque en capas para garantizar la seguridad física de los robots y las personas que los rodean. Esto incluye la integración de medidas de seguridad clásicas, como la evitación de colisiones y la limitación de la fuerza, con las capacidades de razonamiento avanzado de Gemini.
Para avanzar aún más en la investigación de seguridad, Google Deepmind está lanzando el conjunto de datos Asimov, un nuevo recurso para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporada. El conjunto de datos está inspirado en el de Isaac Asimov Tres leyes de robótica y tiene como objetivo ayudar a los investigadores a desarrollar robots que sean más seguros y más alineados con los valores humanos.
Google Deepmind está trabajando con un grupo selecto de probadores, incluidos robots ágiles, robots de agilidad, dinámica de Boston y herramientas encantadas, para explorar las capacidades de Gemini Robotics-Er. Google dice que estas colaboraciones ayudarán a refinar los modelos y guiarán su desarrollo hacia aplicaciones del mundo real.
Al combinar el razonamiento avanzado con la acción física, Google Deepmind está allanando el camino para un futuro donde los robots pueden ayudar a los humanos en una amplia gama de tareas, desde tareas domésticas hasta aplicaciones industriales.
Ver también: La ‘bolsa de golf’ de los robots abordará entornos peligrosos
¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Echa un vistazo a AI y Big Data Expo que tendrá lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluida la Conferencia de Automatización Inteligente, Blockx, la Semana de Transformación Digital y Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web de tecnología empresarial alimentados por TechForge aquí.
Etiquetas: IA, inteligencia artificial, profunda, IA encarnada, robótica de Géminis, Google, modelos, robótica, robots
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.