Noticias

Google presenta Gemini 2.0 Flash como base para las experiencias de los agentes de IA

Published

on

Google LLC hoy liberado el primer modelo de la familia de inteligencia artificial Gemini 2.0, una versión experimental de Gemini 2.0 Flash diseñada para convertirse en la base de los agentes y asistentes de IA generativa.

Gemini 2.0 Flash se basa en el de la compañía 1.5 destelloun modelo de lenguaje grande y caballo de batalla liviano, optimizado para brindar velocidad y eficiencia. La compañía señaló que Flash 2.0 supera a Gemini 1.5 Pro, el modelo de IA más grande y complejo de la compañía, en algunos puntos de referencia clave, mientras funciona al doble de velocidad.

El modelo admite entradas como imágenes, vídeo y audio, pero se ha actualizado para admitir salidas multimodales, como imágenes generadas de forma nativa mezcladas con texto y audio de texto a voz. Para convertirse en un modelo superior de asistentes, Google también le permitió utilizar herramientas externas como la Búsqueda de Google, ejecución de código y funciones de terceros.

Así como Gemini 1.5 Flash era popular entre los desarrolladores, 2.0 Flash ahora está disponible como modelo experimental a través de la interfaz de programación de aplicaciones Gemini para socios de acceso temprano a través de Google AI Studio y Vertex AI.una plataforma de Google Cloud que permite a los usuarios entrenar e implementar modelos. La disponibilidad general está prevista para enero.

A partir de hoy, 2.0 Flash experimental está disponible a través del menú desplegable en la web de escritorio y móvil en el asistente de chat de Gemini para que los usuarios lo prueben. Pronto estará disponible en la aplicación móvil Gemini. La compañía dijo que pronto llegará a más productos de Google.

Probar prototipos de agentes y asistentes

Poniendo a funcionar Gemini 2.0 Flash, dijo el equipo de Google que ha estado explorando varios productos nuevos que se basarán en su base para el uso de nuevas funciones que se centrarán en agentes de IA generativa y capacidades de asistente.

Los agentes de IA son pedazos de El software inteligente que puede trabajar de forma proactiva en nombre de los usuarios humanos recopila información y utiliza herramientas para lograr objetivos. Por ejemplo, a diferencia de los asistentes actuales, que solo conversan, responden preguntas y resumen información, un agente de IA podría salir y completar tareas como ir de compras o comprar boletos.

“Las capacidades de acción de la interfaz de usuario nativa de Gemini 2.0 Flash, junto con otras mejoras como el razonamiento multimodal, la comprensión del contexto extenso, el seguimiento y la planificación de instrucciones complejas, la llamada a funciones de composición, el uso de herramientas nativas y la latencia mejorada, todos trabajan en conjunto para permitir una nueva clase. de experiencias de agencia”, Google dicho sobre la actualización.

Google presentó Proyecto Astra como iniciativa para desarrollar un asistente universal de IA en Google I/O 2024 en mayo. Astra es capaz de mantener conversaciones de voz que suenan naturales con los usuarios y responder preguntas sobre el mundo.

Con la incorporación de Gemini 2.0, Astra puede interactuar con la Búsqueda de Google para recuperar información, Lens para identificar objetos y Maps para comprender áreas locales. El equipo también mejoró su capacidad para recordar cosas, permitiéndole recordar detalles de conversaciones como recordatorios, dónde quiere ir un usuario, números de teléfono y códigos de bloqueo. Esto también permite a los usuarios personalizar el asistente.

También gracias a Gemini 2.0, Astra puede cambiar entre varios idiomas en medio de una conversación. La misma capacidad también mejora la comprensión de acentos y palabras poco comunes, lo que puede causar problemas incluso para muchos modelos de inteligencia artificial de reconocimiento de voz actuales.

Google dijo que la compañía está trabajando para llevar a los probadores estas capacidades de asistente de IA a más dispositivos, como gafas de manos libres. La empresa también está ampliando el número de evaluadores de confianza. quien tiene acceso a Astra.

Otro prototipo de agente de IA que Google está construyendo con Gemini 2.0 Flash es Project Mariner, que permitirá que el modelo navegue por la web para los usuarios. es capaz de tomar el control del navegador y comprender la información en pantalla, incluidos elementos como enlaces, texto, códigos, botones y formularios para navegar en páginas web.

Actualmente en prueba, funciona como una extensión de Chrome que puede completar algunas tareas para usuarios mientras se mantiene al ser humano informado. En una demostración, Google hizo que Mariner revisara una hoja de Google con nombres de empresas y nombres de personas. y Solicitó al modelo de IA que encontrara sus correos electrónicos de contacto. Luego, el modelo tomó el navegador para ir a los sitios web, buscar direcciones de correo electrónico y finalmente mostrar la información que encontró.

En cada paso del camino, el modelo mostraba su razonamiento y el usuario podía verlo en acción e incluso interrumpirlo si era necesario. Dado que los usuarios podrían pedirle al modelo que vaya de compras a sitios web de comercio electrónico o compre boletos, los investigadores de Google dijeron que no finalizaría las compras sin interacción humana directa.pero podría tener la tarea de realizar los movimientos de encontrar artículos y cargar carritos.

Jules: un agente experimental para desarrolladores

Julio es un agente de codificación experimental impulsado por IA que utiliza Gemini 2.0 y puede funcionar por sí solo para completar un trabajo tedioso mediante la integración directa con un código base de GitHub basado en las indicaciones de un desarrollador.

“Es muy bien En correcciones de errores, funciones pequeñas, cosas así, casi puedes pensar en ello como si fuera un ingeniero junior y estás ahí dirigiéndolo”, dijo Kathy Korevec, directora de gestión de productos de Google Labs, a SiliconANGLE en una entrevista.

Jules existe como una aplicación independiente que toma un repositorio de GitHub y crea su propia copia para trabajar. Una vez que se le asigna una “tarea”, que es como Google llama el mensaje del desarrollador, genera un plan para producir correcciones de errores o cambios de código y luego se lo proporciona al usuario para que vea qué pretende hacer. De eso, comienza un proceso de varios pasos de reparación y codificación para realizar los cambios apropiados.

En cualquier momento durante el proceso, el desarrollador puede interrumpirlo, cambiar su plan y redirigirlo a la acción. Incluso podría cambiar su plan si tiene problemas. Incluso puede actualizar las dependencias del código o modificar archivos completos a medida que avanza. Cuando esté completo, esperará a que el desarrollador confirme los cambios de código y prepare una solicitud de extracción para que los cambios se puedan incluir en una solicitud de extracción a GitHub.

“No me convertí en ingeniero de software porque sueño todos los días con corregir errores; esa no era mi ambición”, dijo Korevec. “Quiero crear aplicaciones realmente interesantes y creativas. Lo bueno de Jules es que puedo decir: ‘Oye, arregla estos errores por mí’”.

Ciertamente, añadió Korevec, a algunos ingenieros les encanta corregir errores, pero no quieren migrar de una versión a otra u otras tareas igualmente tediosas. El impulso detrás de la construcción de Jules provino de permitir a los desarrolladores ponerse manos a la obra. que ellos querían hacer y desatando a Jules en el trabajo que no quiero hacer.

Jules está actualmente disponible para un pequeño grupo de evaluadores confiables y estará disponible para un mayor número de desarrolladores interesados a principios de 2025, dijo Google.

Imagen: Google

Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido GRATIS.

Un clic a continuación respalda nuestra misión de proporcionar contenido gratuito, profundo y relevante.

Únase a nuestra comunidad en YouTube

Únase a la comunidad que incluye más de 15 000 expertos de #CubeAlumni, incluido el director ejecutivo de Amazon.com, Andy Jassy, ​​el fundador y director ejecutivo de Dell Technologies, Michael Dell, el director ejecutivo de Intel, Pat Gelsinger, y muchas más luminarias y expertos.

“TheCUBE es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente apreciamos que vengan y sé que la gente también aprecia el contenido que crean” – Andy Jassy

GRACIAS

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version