Connect with us

Noticias

Gemini Robotics: A new era of AI-Powered Robots

Published

on

Introduction

In March 2025, Google DeepMind introduced Gemini Robotics, a groundbreaking technology set to revolutionize how robots interact with humans in both industrial and domestic environments.

Until now, robots commonly used in factories have been designed with a primary focus on task efficiency, executing specific jobs as quickly and precisely as possible. These machines operate much like the mechanical components of a car, where every action is carefully timed and optimized for efficiency. However, traditional industrial robots assume a static environment, meaning they do not monitor or adapt to changes around them. They are unable to detect obstacles, such as a person crossing their path, which is why they are typically enclosed within safety cages to prevent accidents.

Gemini Robotics aims to change this paradigm by integrating advanced AI, enabling robots to perceive, adapt, and interact dynamically with their surroundings, making them safer and more versatile for real-world applications.

However, the nature of work is changing rapidly. For example, in the automotive industry, vehicle models are evolving in increasingly shorter cycles. This means that production chains must adapt quickly, making highly specialized machines less cost-effective in the long run.

Additionally, challenges arise when robots need to share a workspace with other similar robots. When relying on a basic approach based on predefined task lists and rigid workarounds, coordination and efficiency can become major obstacles.

In a factory, machines are not the only ones at work. Not all tasks can be fully automated due to cost constraints or the need for flexibility. This is where the concept of Cobots (Collaborative Robots) comes into play. A Cobot is a type of robot specifically designed to work alongside humans in a shared workspace, rather than operating autonomously or in isolation like traditional industrial robots.

However, designing Cobots presents new challenges, particularly in ensuring human safety. These robots must be capable of detecting collisions with both humans and other machines within their environment. As a result, they need to dynamically adjust their movements based on real-time conditions. For example, it is common for a Cobot to reduce its working speed when a human approaches too closely, minimizing the risk of accidental contact.

How Gemini Robotics differs from previous approaches

Google DeepMind aims to leverage its most advanced AI models, such as Gemini 2.0, to help robots better understand the physical world. The goal is to develop generalist robots capable of executing various tasks with the same programming while ensuring safety when working alongside humans in dynamic environments.

According to DeepMind, Gemini Robotics has been tested on a wide range of tasks and has demonstrated the ability to tackle challenges it had never encountered during training. For instance, previous robots AI trained only to stack blocks would struggle if asked to arrange items in a fridge. In contrast, Gemini Robotics harnesses the broad reasoning capabilities of Gemini 2.0, enabling it to process novel instructions. In technical evaluations, it more than doubled performance on a comprehensive generalization benchmark, surpassing other state-of-the-art models in adapting to new situations.

Another key differentiator is real-time interactivity. Built on a powerful language model, Gemini can understand instructions given in everyday language and even follow along in a conversation. If a user interrupts a robot mid-task and says, “Actually, place that item on the top shelf instead,” the Gemini system can adjust on the fly. It continuously monitors both its environment and instructions, ensuring it doesn’t blindly execute a plan if conditions change.

Earlier robots were often rigid once a task began, any unexpected change could cause failure (for example, a cleaning robot might repeatedly bump into a chair that had been moved after it mapped the room). In contrast, Gemini’s AI brings a human-like adaptability, it is always “thinking” and re-planning when necessary. This adaptability is possible because the model doesn’t just react reflexively; it actively reasons through situations, thanks to Gemini 2.0’s deep contextual and intent-based understanding.

The secret under the hood

In recent years, AI models have evolved from simply processing text inputs and generating text-based responses to more advanced architectures capable of handling multiple types of inputs and outputs within the same model.

Google DeepMind has built upon this evolution by using Gemini 2.0 as the foundation for a new AI model that can process various types of input data, including text (natural language), images, audio, and video. This model goes beyond traditional AI by generating action outputs that can be executed directly by a robot. It is a Vision-Language-Action (VLA) model, serving as the “brain” for robots and enabling them to interpret complex commands and perform tasks in human environments.

A crucial innovation in this system is the integration of an intermediate reasoning layer between input and output. This layer is designed to analyze physical space and enforce safety protocols, ensuring that every action is evaluated in real-time before execution. The most groundbreaking aspect of this technology is that its outputs are generated as a continuous stream, dynamically adjusting based on real-time input data.

This concept is incredibly powerful and represents the key breakthrough behind the success of this new technology, allowing robots to adapt on the fly and operate more safely and efficiently in unpredictable environments.

Gemini Robotics highlights

Google DeepMind highlights three core capabilities that define the advancements in Gemini Robotics: generality, interactivity, and dexterity.

Generality: Adapting to the Unexpected

Generality refers to the ability of a robot to adapt to new and unforeseen situations. Gemini Robotics leverages the extensive world knowledge embedded within the Gemini model to handle novel objects, diverse instructions, and unfamiliar environments. This capability is crucial for robots to move beyond highly specific, pre-programmed tasks and operate effectively in the dynamic real world. Google reports that Gemini Robotics demonstrates a significant improvement in this area, more than doubling the performance on a comprehensive generalization benchmark compared to other leading vision-language-action models. This focus on generality indicates a broader trend in robotics towards creating more versatile machines. Unlike traditional industrial robots designed for very specific and repetitive actions, Gemini Robotics aims to enable robots that can be more readily adapted and deployed across a wider variety of tasks and settings.

Interactivity: Understanding and Responding Naturally

Interactivity describes the robot’s ability to understand and respond to commands and changes in its environment in a seamless and intuitive way. Gemini Robotics can understand and respond to everyday, conversational language and react to sudden changes in instructions or its surroundings, often continuing tasks without needing further input. This includes the ability to understand and respond to natural language instructions in multiple languages. Furthermore, if a robot happens to drop an object or if someone in the environment moves something, the system can replan its actions and adjust accordingly without requiring explicit reprogramming. This level of real-time adaptability is crucial for robots to be truly useful in dynamic, human-centric environments. The advanced language understanding capabilities derived from Gemini 2.0 directly contribute to this seamless interaction. Instead of requiring users to learn specific robotic commands, they can communicate with Gemini-powered robots using natural language, making the technology more accessible and fostering more intuitive human-robot collaboration.

Dexterity: Mastering Fine Motor Skills

Dexterity refers to the robot’s ability to perform complex tasks that require fine motor skills and precise manipulation. Gemini Robotics demonstrates significant advancements in this area, enabling robots to perform tasks such as folding origami, packing a lunch box, or preparing a salad. Demonstrations of this capability include robots picking fruits and snacks, placing glasses in cases, tying shoelaces, and even attempting to slam dunk a basketball. Many everyday tasks that humans perform effortlessly rely on a high degree of dexterity, and progress in this area significantly expands the potential utility of robots in real-world scenarios. While robots have traditionally excelled at tasks involving large, repetitive movements, fine manipulation has been a persistent challenge. Gemini Robotics’ advancements in dexterity open possibilities for robots to assist in more nuanced and human-oriented tasks.

Gemini robotics model family

Google DeepMind has introduced two AI models under the Gemini Robotics initiative:

  • Gemini Robotics: Gemini Robotics is the general AI model for robotics built on top of DeepMind’s Gemini 2.0. It extends the foundation model’s multimodal capabilities, text, vision, and audio by adding robotic control as a new output. This means that instead of just processing and responding to information in the digital realm (as Gemini 2.0 does with text and images), Gemini Robotics can generate motor actions and control robotic systems in real-world environments.
  • Gemini Robotics-ER: Gemini Robotics-ER is a specialized model for embodied reasoning that works alongside or enhances the Gemini Robotics model. It focuses on spatial awareness, object interactions, and physics-based reasoning.

Comparison table:

Business Adoption

The advancements brought by Gemini Robotics open a vast range of real-world applications across multiple industries. These include the development of more capable general-purpose robots and next-generation humanoid robots designed to assist in homes, workplaces, and beyond.

A key collaboration in this effort is Google DeepMind’s partnership with Apptronik, a robotics company, to integrate Gemini Robotics into their Apollo humanoid robot for logistics automation. This partnership highlights the practical implementation of Gemini Robotics in advancing humanoid robots for real-world tasks.

Furthermore, Gemini Robotics-ER is currently being evaluated by a select group of trusted partners, including Agile Robots, Agility Robotics, Boston Dynamics, and Enchanted Tools. This strong industry interest underscores the technology’s potential and its validation by leading robotics companies.

The potential applications span a broad spectrum of tasks, from everyday household chores like meal preparation to complex industrial operations such as warehouse automation. Additionally, Gemini Robotics could play a crucial role in elder care and medical assistance, providing support for healthcare professionals.

These collaborations between Google DeepMind and various robotics companies are crucial for translating cutting-edge AI research into practical, real-world solutions. They also facilitate continuous improvement by gathering valuable feedback to further refine and enhance the technology.

In Summary

Gemini Robotics has made a significant impact by demonstrating that a single AI model can equip robots with a wide range of capabilities from understanding human commands to adapting to new tasks and manipulating objects with precision. Unlike previous approaches, Gemini Robotics is designed to be more general, integrated, and adaptable, introducing groundbreaking technologies that could shape the future of robotics AI.

The potential applications are vast, spanning business automation, industrial efficiency, and personal assistance in daily life. However, transforming this prototype into a widely adopted reality will require overcoming challenges in safety, business integration, and ethical considerations. The coming years will serve as a crucial testing phase for Gemini Robotics, determining whether it can successfully transition from an experimental breakthrough to a mainstream solution.

If all goes well, this moment could be remembered as the turning point when robots moved beyond the assembly line and began seamlessly assisting in the real world, a world they can finally understand. With Gemini Robotics, the vision of intelligent, helpful robots is no longer confined to science fiction but is becoming a tangible reality, ushering in a new era where AI and robotics work together to enhance human potential.

 

Sources

– Gemini Robotics – Google DeepMind

– Gemini Robotics brings AI into the physical world – Google DeepMind

– storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Los dos abiertos – el Atlántico

Published

on

Realmente hay dos abiertos. Uno es el creador de máquinas que doblan el mundo, la nueva empresa que desató el chatgpt y, a su vez, el auge generativo-AI, surgiendo hacia un futuro irreconocible con el resto de la industria tecnológica a cuestas. Este es el OpenAI que promete eventualmente provocar programas “superintelligentes” que excedan las capacidades de la humanidad.

El otro Openai es simplemente un negocio. Esta es la compañía que, según los informes, está trabajando en una red social y considerando una expansión en el hardware; Es la compañía la que ofrece actualizaciones de experiencia de usuario a CHATGPT, como una función de “biblioteca de imágenes” anunciada la semana pasada y la nueva capacidad de “referencia” a los chats anteriores para proporcionar respuestas personalizadas. Se podría pensar en esta OpenAI como otra compañía de tecnología que sigue los pasos de Meta, Apple y Google, no solo para inspirar a los usuarios con nuevos descubrimientos, sino de mantenerlos bloqueados en una línea de productos infinitamente iteradores.

Las compañías tecnológicas más poderosas tienen éxito no simplemente por las virtudes de su software y dispositivos individuales, sino mediante la creación de ecosistemas de servicios conectados. Tener un iPhone y un MacBook hace que sea muy conveniente usar el almacenamiento de iCloud e iMessage y Apple Pay, y muy molesto si un miembro de la familia tiene un teléfono inteligente Samsung o si alguna vez decide cambiar a una PC con Windows. Google Search, Drive, Chrome y Android Devices forman un jardín amurallado similar, tanto que los abogados federales han pedido a un tribunal que obligue a la compañía a vender Chrome como remedio a una violación antimonopolio. Pero en comparación con las computadoras o incluso los navegadores web, los chatbots son muy fáciles de cambiar, solo abre una nueva pestaña y escriba una URL diferente. Eso hace que el desafío sea algo mayor para las nuevas empresas de IA. Google y Apple ya tienen ecosistemas de productos para deslizar la IA; Operai no lo hace.

El CEO de Openai, Sam Altman, afirmó recientemente que los productos de su compañía tienen unos 800 millones de usuarios semanales, aproximadamente una décima parte de la población mundial. Pero incluso si OpenAi solo tuviera la mitad de ese número de usuarios, sería muchas personas que se arriesgarían a perder ante Anthrope, Google y el torrente interminable de las nuevas empresas de IA. Como han demostrado otras compañías tecnológicas, la recopilación de datos de los usuarios (imágenes, conversaciones, compras, amistades) y construir productos en torno a esa información es una buena manera de mantenerlos bloqueados. Incluso si un chatbot competidor es “más inteligente”, la capacidad de aprovechar las conversaciones anteriores podría hacer que la separación sea mucho más difícil. Esto también ayuda a explicar por qué Operai está dando a los estudiantes universitarios dos meses de acceso gratuito a un nivel premium de ChatGPT, sembrando el terreno para la lealtad a largo plazo. (Esto sigue un patrón familiar para las empresas tecnológicas: Hulu solía ser gratuito, Gmail solía aumentar regularmente su almacenamiento gratuito, y hace Eons, YouTube no tenía anuncios). En particular, OpenAi recientemente ha contratado ejecutivos de Meta, Twitter, Uber y Nextdoor para avanzar en sus operaciones comerciales.

Las dos identidades de Openai, el laboratorio de IA de ruptura del suelo y la empresa tecnológica arquetípica, no necesariamente conflictos. La compañía ha dicho que la comercialización beneficia al desarrollo de IA, y que ofrecer modelos de IA como productos de consumo es una forma importante de acostumbrar a las personas a la tecnología, probar sus limitaciones en el mundo real y fomentar la deliberación sobre cómo debería y no debe usarse. Presentar IA en una forma intuitiva y conversacional, en lugar de promover un salto importante en la “inteligencia” o capacidades de un algoritmo, es precisamente lo que hizo que Chatgpt fuera un éxito. Si la idea es hacer una IA que “beneficie a toda la humanidad”, como Operai profesa en su carta, entonces compartir estos supuestos beneficios ahora tiene sentido y crea un incentivo económico para capacitar a modelos de IA mejores y más confiables. El aumento de los ingresos, a su vez, puede sostener el desarrollo de esos modelos futuros y mejorados.

Por otra parte, Operai ha pasado gradualmente de una organización sin fines de lucro a una estructura corporativa más y más orientada a las ganancias: usar la tecnología Generation-AI para descubrir mágicamente nuevos medicamentos es una buena idea, pero eventualmente la compañía necesitará comenzar a ganar dinero con los usuarios cotidianos para mantener las luces encendidas. (Openai perdió más de $ 1 mil millones el año pasado). Un portavoz de OpenAi, que tiene una asociación corporativa con El atlánticoescribió por correo electrónico que “la competencia es buena para los usuarios y la innovación de los Estados Unidos. Cualquiera puede usar ChatGPT de cualquier navegador” y que “los desarrolladores siguen siendo libres de cambiar a modelos competidores cuando lo deseen”.

Anthrope y Meta han adoptado enfoques alternativos para llevar sus modelos a los usuarios de Internet. El primero ofreció recientemente la capacidad de integrar su chatbot Claude en Gmail, Google Docs y Google Calendar, dando un punto de apoyo en un ecosistema tecnológico existente en lugar de construir de nuevo. (Operai parecía estar probando esta estrategia el año pasado al asociarse con Apple para incorporar ChatGPT directamente a la inteligencia de Apple, pero esto requiere un poco de configuración en la parte del usuario, y los esfuerzos de IA de Apple han sido percibidos ampliamente como decepcionantes. Altman ha dicho que Operai publicará un modelo igualmente abierto a finales de este año; Aparentemente, la puesta en marcha quiere pared de su jardín y hacer de sus modelos de IA la base para todos los demás también.

A partir de esta ventaja, la IA generativa parece menos revolucionaria y más como todos los sitios web anteriores, plataformas y dispositivos que luchan para llamar su atención y nunca dejarla ir. Las montañas de datos recopiladas a través de las interacciones de chatbot pueden alimentar servicios y anuncios más personalizados y dirigidos con precisión. La dependencia de los teléfonos inteligentes y los relojes inteligentes podría generar dependencia de la IA y viceversa. Y hay otro ADN compartido. Las plataformas de redes sociales se basaron en trabajos de modificación de contenido mal compensado para detectar publicaciones dañinas y abusivas, exponiendo a los trabajadores a medios horribles para que los productos sean sabrosos para la audiencia más amplia posible. Operai y otras compañías de IA se han basado en el mismo tipo de trabajo para desarrollar sus conjuntos de datos de capacitación. Debería OpenAI realmente lanzar un sitio web de redes sociales o un dispositivo de hardware, este linaje se volverá explícito. Que hay dos abiertos ahora está claro. Pero sigue siendo incierto cuál es el alter ego.

Continue Reading

Noticias

Exclusivo: AI Bests Virus Experts, Raising Biohazard Fears

Published

on

A Un nuevo estudio afirma que modelos de IA como ChatGPT y Claude ahora superan a los virólogos a nivel de doctorado en la resolución de problemas en laboratorios húmedos, donde los científicos analizan productos químicos y material biológico. Este descubrimiento es una espada de doble filo, dicen los expertos. Los modelos de IA ultra inteligentes podrían ayudar a los investigadores a prevenir la propagación de enfermedades infecciosas. Pero los no expertos también podrían armarse los modelos para crear biowapons mortales.

El estudio, compartido exclusivamente con el tiempo, fue realizado por investigadores del Centro para la Seguridad de AI, el Laboratorio de Medios del MIT, la Universidad Brasileña UFABC y la Pandemic Prevention sin fines de lucro SecureBio. Los autores consultaron a los virólogos para crear una prueba práctica extremadamente difícil que midiera la capacidad de solucionar problemas y protocolos de laboratorio complejos. Mientras que los virólogos a nivel de doctorado obtuvieron un promedio de 22.1% en sus áreas declaradas de especialización, el O3 de OpenAI alcanzó la precisión del 43.8%. Gemini 2.5 Pro de Google obtuvo un puntaje 37.6%.

Seth Donoughe, científica investigadora de SecureBio y coautora del documento, dice que los resultados lo ponen un “poco nervioso”, porque por primera vez en la historia, prácticamente cualquier persona tiene acceso a un experto en virología de IA sin juicio que podría guiarlos a través de procesos de laboratorio complejos para crear biológicas.

“A lo largo de la historia, hay un buen número de casos en los que alguien intentó hacer una biela, y una de las principales razones por las que no tuvieron éxito es porque no tuvieron acceso al nivel correcto de especialización”, dice. “Por lo tanto, parece que vale la pena ser cauteloso acerca de cómo se distribuyen estas capacidades”.

Hace meses, los autores del documento enviaron los resultados a los principales laboratorios de IA. En respuesta, Xai publicó un marco de gestión de riesgos prometiendo su intención de implementar salvaguardas de virología para futuras versiones de su modelo de AI Grok. Operai le dijo a Time que “desplegó nuevas mitigaciones a nivel de sistema para riesgos biológicos” para sus nuevos modelos publicados la semana pasada. Anthrope incluyó resultados de rendimiento del modelo en el documento en las tarjetas del sistema recientes, pero no proponió medidas de mitigación específicas. Géminis de Google declinó hacer comentarios.

Ai en biomedicina

La virología y la biomedicina han estado a la vanguardia de las motivaciones de los líderes de IA para construir modelos de IA siempre potentes. “A medida que avanza esta tecnología, veremos que las enfermedades se curan a un ritmo sin precedentes”, dijo el CEO de OpenAI, Sam Altman, en la Casa Blanca en enero mientras anunciaba el proyecto Stargate. Ha habido algunas señales de aliento en esta área. A principios de este año, los investigadores del Instituto de Patógenos Emergentes de la Universidad de Florida publicaron un algoritmo capaz de predecir qué variante de coronavirus podría extender lo más rápido.

Pero hasta este punto, no había habido un estudio importante dedicado a analizar la capacidad de los modelos de IA para realizar un trabajo de laboratorio de virología. “Hemos sabido desde hace algún tiempo que los AIS son bastante fuertes para proporcionar información de estilo académico”, dice Donoughe. “No ha estado claro si los modelos también pueden ofrecer asistencia práctica detallada. Esto incluye interpretar imágenes, información que podría no ser escrita en ningún documento académico o material que se transfiera socialmente de colegas más experimentados”.

Entonces, Donoughe y sus colegas crearon una prueba específicamente para estas preguntas difíciles y no capaces de Google. “Las preguntas toman la forma:” He estado cultivando este virus en particular en este tipo de célula, en estas condiciones específicas, durante este tiempo. Tengo esta cantidad de información sobre lo que ha salido mal. ¿Puede decirme cuál es el problema más probable? “, Dice Donoughe.

Y prácticamente todos los modelos de IA superaron a los virólogos a nivel de doctorado en la prueba, incluso dentro de sus propias áreas de especialización. Los investigadores también encontraron que los modelos mostraron una mejora significativa con el tiempo. El soneto Claude 3.5 de Anthrope, por ejemplo, aumentó de 26.9% a 33.6% de precisión de su modelo de junio de 2024 a su modelo de octubre de 2024. Y una vista previa del GPT 4.5 de OpenAI en febrero superó a GPT-4O por casi 10 puntos porcentuales.

“Anteriormente, encontramos que los modelos tenían mucho conocimiento teórico, pero no de conocimiento práctico”, dice Dan Hendrycks, director del Centro de Seguridad de AI, a Time. “Pero ahora, están obteniendo una cantidad preocupante de conocimiento práctico”.

Riesgos y recompensas

Si los modelos de IA son tan capaces en los entornos de laboratorio húmedo como lo encuentra el estudio, entonces las implicaciones son masivas. En términos de beneficios, AIS podría ayudar a los virólogos experimentados en su trabajo crítico que lucha contra los virus. Tom Inglesby, director del Centro Johns Hopkins para la Seguridad de la Salud, dice que la IA podría ayudar a acelerar los plazos de la medicina y el desarrollo de la vacuna y mejorar los ensayos clínicos y la detección de enfermedades. “Estos modelos podrían ayudar a los científicos en diferentes partes del mundo, que aún no tienen ese tipo de habilidad o capacidad, a hacer un valioso trabajo diario sobre enfermedades que están ocurriendo en sus países”, dice. Por ejemplo, un grupo de investigadores descubrió que la IA los ayudó a comprender mejor los virus de la fiebre hemorrágica en el África subsahariana.

Pero los actores de mala fe ahora pueden usar modelos de IA para guiarlos a través de cómo crear virus, y podrán hacerlo sin ninguna de las capacitación típicas requeridas para acceder a un laboratorio de nivel 4 (BSL-4) de bioseguridad, que se ocupa de los agentes infecciosos más peligrosos y exóticos. “Significará que muchas más personas en el mundo con mucha menos capacitación podrán manejar y manipular virus”, dice Inglesby.

Hendrycks insta a las compañías de IA a colocar las barandillas para evitar este tipo de uso. “Si las empresas no tienen buenas salvaguardas durante seis meses, eso, en mi opinión, sería imprudente”, dice.

Hendrycks dice que una solución no es cerrar estos modelos o ralentizar su progreso, sino hacerlos cerrados, de modo que solo confiaban en que terceros tengan acceso a sus versiones sin filtrar. “Queremos dar a las personas que tienen un uso legítimo para preguntar cómo manipular virus mortales, como un investigador en el departamento de biología del MIT, la capacidad de hacerlo”, dice. “Pero las personas aleatorias que hicieron una cuenta hace un segundo no obtienen esas capacidades”.

Y AI Labs debería poder implementar este tipo de salvaguardas con relativa facilidad, dice Hendrycks. “Ciertamente es tecnológicamente factible para la autorregulación de la industria”, dice. “Hay una cuestión de si algunos arrastrarán sus pies o simplemente no lo harán”.

Xai, el laboratorio de IA de ELON MUSK, publicó un memorando de marco de gestión de riesgos en febrero, que reconoció el documento y señaló que la compañía “potencialmente utilizaría” ciertas salvaguardas en torno a las preguntas de virología, incluida la capacitación de Grok para rechazar solicitudes nocivas y aplicar filtros de entrada y salida.

Openai, en un correo electrónico a Time el lunes, escribió que sus modelos más nuevos, el O3 y el O4-Mini, se desplegaron con una variedad de salvaguardas relacionadas con el riesgo biológico, incluido el bloqueo de resultados dañinos. La compañía escribió que realizó una campaña de equipo rojo de mil horas en la que el 98.7% de las conversaciones biológicas inseguras fueron marcadas y bloqueadas con éxito. “Valoramos la colaboración de la industria en el avance de salvaguardas para modelos fronterizos, incluso en dominios sensibles como Virology”, escribió un portavoz. “Continuamos invirtiendo en estas salvaguardas a medida que crecen las capacidades”.

Inglesby argumenta que la autorregulación de la industria no es suficiente, y pide a los legisladores y a los líderes políticos a estrategia un enfoque político para regular los riesgos biológicos de la IA. “La situación actual es que las empresas que son más virtuosas están tomando tiempo y dinero para hacer este trabajo, lo cual es bueno para todos nosotros, pero otras compañías no tienen que hacerlo”, dice. “Eso no tiene sentido. No es bueno para el público no tener información sobre lo que está sucediendo”.

“Cuando una nueva versión de un LLM está a punto de ser lanzada”, agrega Inglesby, “debe haber un requisito para que ese modelo sea evaluado para asegurarse de que no produzca resultados de nivel pandémico”.

Continue Reading

Noticias

Cómo indicar el nuevo chatgpt, según OpenAi

Published

on

La última versión de ChatGPT es significativamente más poderosa, pero requiere nuevas técnicas de indicación. El modelo ahora sigue las instrucciones más literalmente y hace menos suposiciones sobre lo que está pidiendo. Esto es importante para los empresarios que usan la herramienta.

No seas consejos anticuados. No indique usando palabras deficientes. Eres mejor que eso.

Las indicaciones mal construidas desperdician su tiempo y dinero. Hazlo bien y desbloqueas una IA significativamente más capaz. Los miembros del equipo de Operai, Noah MacCallum y Julian Lee, han publicado una amplia documentación sobre cómo provocar sus nuevos modelos.

Aquí hay un resumen de su orientación, para que pueda aprovechar al máximo la herramienta.

Las reglas de indicación han cambiado

La provisión de técnicas que funcionaron para modelos anteriores en realidad podrían obstaculizar sus resultados con las últimas versiones. ChatGPT-4.1 sigue las instrucciones más literalmente que sus predecesores, que solían inferir la intención liberalmente. Esto es bueno y malo. La buena noticia es que ChatGPT ahora es altamente orientable y responde a las indicaciones bien especificadas. La mala noticia es que sus viejas indicaciones necesitan una revisión.

La mayoría de las personas todavía usan indicaciones básicas que apenas rascan la superficie de lo que es posible. Escriben preguntas o solicitudes simples, luego se preguntan por qué sus resultados se sienten genéricos. Operai ahora ha revelado cómo entrenaron el modelo para responder, ayudándole a obtener exactamente lo que desea de sus modelos más avanzados.

Optimice sus indicaciones con la guía de información privilegiada de Openai

Estructura tus indicaciones estratégicamente

Comience organizando sus indicaciones con secciones claras. OpenAI recomienda una estructura básica con componentes específicos:

• Rol y objetivo: dígale a ChatGPT a quién debe actuar y qué está tratando de lograr

• Instrucciones: proporcionar pautas específicas para la tarea

• Pasos de razonamiento: indique cómo desea que aborde el problema

• Formato de salida: especifique exactamente cómo desea la respuesta estructurada

• Ejemplos: Muestre muestras de lo que espera

• Contexto: proporcionar información de fondo necesaria

• Instrucciones finales: incluya los últimos recordatorios o criterios

No necesita todas estas secciones para cada aviso, pero un enfoque estructurado ofrece mejores resultados que una pared de texto.

Para tareas más complejas, la documentación de OpenAI sugiere usar reducción para separar sus secciones. También aconsejan el uso de caracteres de formato especial alrededor del código (como Backticks, que se ven así: `) para ayudar a ChatGPT a distinguir el código del texto regular y el uso de listas numeradas o balas estándar para organizar información.

Dominar el arte de delimitar información

La separación de la información afecta adecuadamente sus resultados significativamente. Las pruebas de Openai encontraron que Etiquetas XML Realice excepcionalmente bien con los nuevos modelos. Le permiten envolver las secciones con precisión con etiquetas de inicio y extremo, agregar metadatos a las etiquetas y habilitar la anidación.

El formato JSON funciona mal con contextos largos (que proporcionan los nuevos modelos), particularmente al proporcionar múltiples documentos. En su lugar, intente formatos como ID: 1 | Título: El zorro | Contenido: El Fox Brown rápido salta sobre el perro perezoso que Openai encontró que funcionó bien en las pruebas.

Construir agentes de IA autónomos

Chatgpt ahora puede funcionar como un “agente” Eso funciona de manera más independiente en su nombre, abordando tareas complejas con una supervisión mínima. Lleve sus indicaciones al siguiente nivel construyendo estos agentes.

Un agente de IA está esencialmente ChatGPT configurado para trabajar a través de problemas de forma autónoma en lugar de solo responder a sus preguntas. Puede recordar el contexto en una conversación, usar herramientas como navegación web o ejecución de código, y resolver problemas de varios pasos.

OpenAI recomienda incluir tres recordatorios clave en todas las indicaciones del agente: persistencia (continuar hasta la resolución), callarse de herramientas (usando herramientas disponibles en lugar de adivinar) y planificar (pensar antes de actuar).

“Estas tres instrucciones transforman el modelo de un estado de chatbot en un agente mucho más ‘ansioso’, impulsando la interacción de forma autónoma e independiente”, explica el equipo. Sus pruebas mostraron un aumento del rendimiento del 20% en las tareas de ingeniería de software con estas simples adiciones.

Maximizar el poder de los contextos largos

El último chatGPT puede manejar una impresionante ventana de contexto de 1 millón de tokens. Las capacidades son emocionantes. Según OpenAi, el rendimiento sigue siendo fuerte incluso con miles de páginas de contenido. Sin embargo, el rendimiento del contexto largo se degrada cuando se requiere un razonamiento complejo en todo el contexto.

Para obtener los mejores resultados con documentos largos, coloque sus instrucciones tanto al principio como al final del contexto proporcionado. Hasta ahora, esto ha sido más seguro de fallas en lugar de una característica requerida de su aviso.

Cuando use el nuevo modelo con un contexto extenso, sea explícito sobre si debe confiar únicamente en la información proporcionada o combinarlo con su propio conocimiento. Para respuestas estrictamente basadas en documentos, OpenAI sugiere instruir explícitamente: “Solo use los documentos en el contexto externo proporcionado para responder a la consulta del usuario”.

Implementar la solicitud de la cadena de pensamiento

Si bien GPT-4.1 no está diseñado como un modelo de razonamiento, puede solicitar que muestre su trabajo como podría los modelos más antiguos. “Pedirle al modelo que piense paso a paso (llamada ‘cadena de pensamiento’) puede ser una forma efectiva de dividir los problemas en piezas más manejables”, señala el equipo de OpenAI. Esto viene con un mayor uso de tokens pero ofrece una mejor calidad.

Una instrucción simple como “Primero, piense cuidadosamente paso a paso sobre qué información o recursos se necesitan para responder a la consulta” puede mejorar drásticamente los resultados. Esto es especialmente útil cuando se trabaja con archivos cargados o cuando CHATGPT necesita analizar múltiples fuentes de información.

Haga que el nuevo chatgpt funcione para ti

Operai ha compartido información más extensa sobre cómo aprovechar al máximo sus últimos modelos. Las técnicas representan objetivos de capacitación reales para los modelos, no solo conjeturas de la comunidad. Al implementar su orientación sobre una estructura rápida, delimitar información, creación de agentes, manejo de contexto largo y suministro de cadena de pensamiento, verá mejoras dramáticas en sus resultados.

El éxito con ChatGPT proviene de tratarlo como un compañero de pensamientono solo un generador de texto. Siga la guía directamente de la fuente para obtener mejores resultados del mismo modelo que todos los demás están utilizando.

Acceder a todos mis Las mejores indicaciones de contenido de chatgpt.

Continue Reading

Trending