Google lanzó el primer modelo Gemini en diciembre de 2023 cuando su chatbot todavía se llamaba Bard. Desde entonces, el gigante de las búsquedas ha adoptado gradualmente el nombre Gemini para casi todo lo que hace relacionado con la IA.
El chatbot Bard fue el primero en caer y se convirtió simplemente en Gemini a principios de este año. A esto pronto le siguió el Asistente Gemini que reemplazó en gran medida al asistente anterior en Android. La empresa también utiliza Gemini en Docs y para desarrolladores.
Después de la ráfaga inicial de actividad, las cosas parecieron ralentizarse para Google. En lugar de un nuevo nombre, como lo habían hecho anteriormente, la compañía duplicó su apuesta por Gemini, agregándolo a cada vez más productos y servicios.
Luego, en diciembre, Google lanzó Gemini 2.0. El director ejecutivo, Sundar Pichai, describió su lanzamiento como el comienzo de la Era del Agente. Aquí es donde los modelos de IA realizan tareas en su nombre basándose en un conjunto inicial de instrucciones.
¿Qué es Géminis?
Mirar
El modelo Gemini ha sido entrenado no sólo en texto, sino como un modelo multimodal que puede procesar imágenes, vídeo, audio e incluso código informático. Esto es similar al GPT-4o de OpenAI y a partir de Gemini 2 también puede generar esas modalidades.
En línea con el modo de funcionamiento típico de Google, la última versión del modelo se ha desarrollado silenciosamente durante los últimos meses y ofrece algunas características que productos más publicitados como ChatGPT han pasado por alto.
Por ejemplo, ahora existen más de 50.000 variaciones de Gemini en Hugging Face, que cubren una multitud de idiomas y usos.
Desafortunadamente, esta variedad ha generado bastante confusión. La última oleada de lanzamientos de Gemini ha empeorado aún más las cosas, por lo que pensamos que era hora de diseñar un mapa claro del universo Gemini para que las cosas sean más fáciles de entender.
Lo primero que hay que darse cuenta es que a Google le gusta mezclar y combinar modelos de tecnología y aplicaciones, con variaciones del mismo nombre. Una vez que lo tienes claro, todo lo demás empieza a encajar en su lugar.
1. Modelos
Al principio fue DeepMind, el laboratorio de IA inaugurado en Londres en 2010. Esta piedra angular de toda la industria de la IA entregó al mundo los modelos de IA LaMDA, PaLM y Gato. Géminis es la última versión de esta familia generacional.
La versión 1.0 del modelo Gemini se lanzó en tres versiones, Ultra, Pro y Nano. Como sugieren los nombres, los modelos iban desde versiones de alta potencia hasta versiones pequeñas diseñadas para funcionar en teléfonos y otros dispositivos pequeños.
Tenga en cuenta que gran parte de la confusión de los lanzamientos posteriores se debe a la lucha filosófica de Google entre sus negocios de búsqueda y de inteligencia artificial.
El canibalismo de la IA en la búsqueda siempre ha sido una espada que pende sobre la cabeza de la empresa y ha contribuido enormemente a su actitud de “lo harán, no lo harán” hacia el lanzamiento de productos de IA.
Gemini 1.5, lanzado hace diez meses, fue una mejora incremental del modelo original, incorporando una combinación de tecnología de expertos (MoE), una ventana de contexto de un millón de tokens y una nueva arquitectura. Desde entonces hemos visto el lanzamiento de Gemini 1.5 Flash, Gemini 1.5 Pro-002 y Gemini 1.5 Flash-002; este último lanzado hace apenas tres meses.
Al mismo tiempo, la empresa también hizo una sorprendente incursión en el territorio de los modelos abiertos, con el lanzamiento del producto gratuito Gemma. Estos modelos de parámetros 2B y 7B se consideraron una respuesta directa al lanzamiento de la familia de modelos Llama por parte de Meta. Gemma 2.0 fue lanzado cinco meses después.
Gemini 2.0 se lanzó en diciembre de 2024 y se presenta como un modelo para la era agente. La primera versión que se lanzó fue Gemini 2.0 Flash Experimental, un modelo multimodal de alto rendimiento, que admite el uso de herramientas como la búsqueda de Google y llamadas a funciones para la generación de código.
A las pocas semanas la compañía lanzó Gemini 2.0 Experimental Advanced, aparentemente la versión completa de la generación actual. Decimos aparentemente porque en este momento nadie está realmente seguro de qué es el código completo y qué es el código inicial.
Lo que se puede decir con certeza es que Gemini 2.0 Flash Experimental es un modelo de IA extremadamente capaz y eficaz en todos los aspectos.
Modelos Géminis
- Géminis 1 Ultra – potente
- Gemini 1 Pro – gama media
- Géminis 1 Nano – pequeño
- Gemini 1.5 Flash: rápido, más económico
- Gemini 1.5 Pro: más lento, más caro
- Experimental Flash Géminis 2.0
- Pensamiento flash Géminis 2.0
- Géminis 2.0 Experimental Avanzado
Modelos Gemma (Gemmaverse)
- Gema 1 (parámetros 2B, 7B)
- Gemma 2 (2B, 9B, 27B): 27B entrenado desde cero.
- CodeGemma (2B y 7B): optimizado para la generación de código.
- RecurrentGemma (2B, 9B): basado en Griffin, en lugar de basado en Transformer.
- PaliGemma 2 (3B, 10B, 28B): el modelo de visión acepta entradas de texto e imágenes. Plurilingüe.
- DataGemma: modelo centrado en datos
- GemmaScope: herramienta de investigación de IA
2. Aplicaciones
Google es a la vez una empresa de investigación y de productos. DeepMind y Google AI lideran la investigación y lanzan los modelos. La otra cara de Google toma esos modelos y los convierte en productos. Esto incluye hardware, software y servicios.
Chatbots
Los chatbots lideran la carga en términos de aplicaciones de Google, como lo hacen con muchos otros proveedores de modelos básicos. Nuevamente, al tratarse de Google, las cosas se vuelven un poco confusas en términos de nombres y funciones.
Chatbot Géminis. Solía llamarse Bard y está completamente separado del modelo Gemini. Hace diez meses, Bard y Duet AI, otro producto de Google, se fusionaron bajo la marca Gemini con el lanzamiento de una aplicación para Android.
Después de esa acción, el chat Gemini ahora se ha integrado en más productos de Google, incluido el Asistente de Android, el navegador Chrome, Google Photos y Google Workspace.
Al momento de escribir este artículo, Gemini Chatbot y el Asistente de Android heredado se ofrecen como opciones duales en las últimas versiones del sistema operativo del teléfono Android. Gemini Live se considera la alternativa de Google al modo de voz avanzado de alta velocidad y baja latencia de OpenAI, y se espera que se implemente en los teléfonos inteligentes Google Pixel en un futuro próximo.
Productos
Si bien Gemini como chatbot podría captar la mayoría de los nuevos modelos y la atención de los aficionados a la IA, la mayoría de los ojos puestos en la IA se dirigirán a Gemini en dispositivos móviles.
Esto se presenta de dos formas, primero a través de la aplicación Gemini en iPhone y Android, y luego a través de su profunda integración en el sistema operativo Android.
En Android, los desarrolladores pueden incluso utilizar el modelo Gemini Nano en sus propias aplicaciones sin tener que utilizar un modelo costoso o basado en la nube para realizar tareas básicas.
La profunda integración permite que las funciones del sistema se activen desde Gemini, así como el uso de Gemini Live, el asistente de voz de IA, para reproducir canciones y más.
experimentos
El último lanzamiento del modelo Gemini ha ido acompañado de una serie de importantes lanzamientos o avances de aplicaciones de Google relacionados con el nuevo modelo. La lista es larga e impresionante. Algunos de ellos incluyen:
- Proyecto Astra: espectacular demostración del poder de la comprensión visual para asistentes de IA
- Proyecto Mariner: una gran muestra del poder de la IA multimodal para casos de uso del mundo real
- NotebookLM: un nuevo e impresionante paradigma para aplicaciones de investigación y estudio
- Investigación profunda: herramienta de investigación agente enormemente poderosa con capacidad de búsqueda profunda y contextos enormes
3. Plataformas
Fuera de las versiones móviles y web de Gemini, existen algunos productos premium y centrados en desarrolladores. Estos suelen ofrecer los modelos y funciones más avanzados, como Deep Research en Gemini Advanced.
- Gemini Advanced: la sofisticada puerta de enlace de Google basada en suscripción para sus productos de inteligencia artificial.
- Google Cloud: pago sobre la marcha para acceder a toda la gama de productos empresariales y de consumo de Google
- AI Studio: área de juegos de IA gratuita para probar y evaluar la gama Gemini de modelos de IA
- Vertex AI: plataforma de desarrollo de IA integrada como parte de los servicios de Google Cloud
- Google One: servicio de almacenamiento en la nube basado en suscripción para consumidores