Noticias
El futuro está aquí: probar el modo de cámara en vivo de Gemini
“Acabo de ver tus tijeras sobre la mesa, justo al lado del paquete verde de pistachos. ¿Las ves?”
La nueva y charlatis función de cámara de Gemini Live era correcta. Mis tijeras estaban exactamente donde decían que estaban, y todo lo que hice fue pasar mi cámara frente a ellas en algún momento durante una sesión en vivo de 15 minutos de mí dándole al chatbot Ai un recorrido por mi apartamento. Google ha estado implementando el nuevo modo de cámara a todos los teléfonos Android utilizando la aplicación Gemini de forma gratuita después de una exclusiva de dos semanas en Pixel 9 (incluidos los nuevos teléfonos inteligentes Pixel 9a) y Galaxy S5. Entonces, ¿qué es exactamente este modo de cámara y cómo funciona?
Cuando comienzas una sesión en vivo con Gemini, ahora tienes la opción de habilitar una vista de cámara en vivo, donde puedes hablar con el chatbot y preguntarle sobre cualquier cosa que ve la cámara. No solo puede identificar objetos, sino que también puede hacer preguntas sobre ellos, y funciona bastante bien en su mayor parte. Además, puede compartir su pantalla con Gemini para que pueda identificar cosas que sale a la superficie en la pantalla de su teléfono.
Cuando apareció la nueva función de cámara en mi teléfono, no dudé en probarla. En una de mis pruebas más largas, lo encendí y comencé a caminar por mi apartamento, preguntándole a Géminis qué vio. Identificó algunas frutas, chapstick y algunos otros artículos cotidianos sin ningún problema. Me sorprendió cuando encontró mis tijeras.
Eso es porque no había mencionado las tijeras en absoluto. Géminis los había identificado silenciosamente en algún lugar del camino y luego retiró la ubicación con precisión. Se sentía mucho como el futuro, tuve que hacer más pruebas.
Mi experimento con la función de cámara de Gemini Live fue seguir el liderazgo de la demostración que Google hizo el verano pasado cuando mostró por primera vez estas capacidades de IA de video en vivo. Géminis le recordó a la persona que dio la demostración donde había dejado sus gafas, y parecía demasiado bueno para ser verdad. Pero como descubrí, era muy cierto.
Gemini Live reconocerá mucho más que las probabilidades y fines del hogar. Google dice que te ayudará a navegar por una estación de tren abarrotada o descubrir el relleno de una masa. Puede brindarle información más profunda sobre obras de arte, como dónde se originó un objeto y si se trataba de una pieza de edición limitada.
Es más que una lente de Google mejorada. Hablas con eso y te habla. No necesitaba hablar con Gemini de ninguna manera en particular, era tan informal como cualquier conversación. Mucho mejor que hablar con el antiguo Asistente de Google que la compañía se está eliminando rápidamente.
Ampliar imagen
Aquí hay un vistazo a parte de mi conversación con Gemini Live sobre los objetos que estaba viendo en mi apartamento.
Google también lanzó un nuevo video de YouTube para la caída de píxeles de abril de 2025 que muestra la función, y ahora hay una página dedicada en Google Store para ello.
Para comenzar, puede ir a vivir con Gemini, habilitar la cámara y comenzar a hablar. Eso es todo.
Gemini Live sigue desde el proyecto Astra de Google, revelado por primera vez el año pasado como posiblemente la característica más grande de la compañía “estamos en el futuro”, un siguiente paso experimental para las capacidades generativas de IA, más allá de su simplemente escribir o incluso hablar en un chatbot como chatgpt, Claude o gemini. Se produce a medida que las empresas de IA continúan aumentando drásticamente las habilidades de las herramientas de IA, desde la generación de videos hasta la potencia de procesamiento en bruto. Similar a Gemini Live, está la inteligencia visual de Apple, que el fabricante de iPhone lanzó en forma beta a fines del año pasado.
Mi gran conclusión es que una característica como Gemini Live tiene el potencial de cambiar la forma en que interactuamos con el mundo que nos rodea, fusionando nuestros mundos digitales y físicos simplemente sosteniendo su cámara frente a casi cualquier cosa.
Puse a Géminis en vivo en una prueba real
La primera vez que lo probé, Gemini fue sorprendentemente preciso cuando coloqué un juego muy específico coleccionable de un conejo relleno en la vista de mi cámara. La segunda vez, se lo mostré a un amigo en una galería de arte. Identificó la tortuga en una cruz (no me preguntes) e inmediatamente identificó y tradujo el Kanji justo al lado de la tortuga, dándonos a los dos escalofríos y dejándonos más que un poco asustados. En el buen sentido, creo.
Este fue el primer objeto que probé con la nueva función de Gemini Live, y reconoció impresionantemente qué era y de qué juego era (Alice de American McGee). Cada vez que le pedía a Géminis que identifique el juego del que era el lujoso, fallaba.
Pensé en cómo podría probar la función. Traté de grabarlo en la pantalla en acción, pero constantemente se desmoronó en esa tarea. ¿Y qué pasaría si saliera del camino golpeado con él? Soy un gran admirador del género de terror (películas, programas de televisión, videojuegos) y tengo innumerables coleccionables, baratijas y lo que tienes. ¿Qué tan bien le haría con cosas más oscuras, como mis coleccionables con temática de terror?
Las pruebas iniciales demostraron ser significativamente más exitosas que la anterior, a pesar de darle varias pistas. Gemini finalmente consiguió el juego, Silent Hill: el mensaje corto, pero aún no podía dar el nombre correcto para la figura, aterrizando solo en “Cherry Blossom Monster” en lugar de Sakurahead, que había adivinado correctamente varias veces antes.
Primero, permítanme decir que Géminis puede ser absolutamente increíble y ridículamente frustrante en la misma ronda de preguntas. Tenía aproximadamente 11 objetos que le estaba pidiendo a Gemini que se identificara, y a veces empeoraba cuanto más tiempo funcionara la sesión en vivo, por lo que tuve que limitar las sesiones a solo uno o dos objetos. Supongo que Gemini intentó usar información contextual de objetos previamente identificados para adivinar nuevos objetos que se ponen al frente, lo que tiene sentido, pero en última instancia, ni yo ni yo nos beneficié de esto.
A veces, Géminis estaba en punto, aterrizando fácilmente las respuestas correctas sin problemas ni confusión, pero esto tendía a suceder con objetos más recientes o populares. Por ejemplo, me sorprendió cuando inmediatamente supuso que uno de mis objetos de prueba no era solo de Destiny 2, sino que fue una edición limitada de un evento estacional del año pasado.
En otras ocasiones, Gemini estaría fuera de la marca, y necesitaría darle más pistas para entrar en el estadio de la respuesta correcta. Y a veces, parecía que Géminis estaba tomando contexto de mis sesiones en vivo anteriores para encontrar respuestas, identificando múltiples objetos como provenientes de Silent Hill cuando no lo estaban. Tengo un caso de exhibición dedicado a la serie de juegos, por lo que pude ver por qué querría sumergirse en ese territorio rápidamente.
Esta fue la más difícil de mis pruebas. Le pedí a Gemini que identifique no solo de qué juego todavía era esto (Silent Hill 2), sino qué cita icónica, dijo la persona en la parte superior de las escaleras. Géminis clavó el juego, los personajes y la mitad de la cita en la primera ronda; Se necesitaron dos conjeturas más para terminar la cita: “¿También lo ves? Para mí, siempre es así”.
Géminis puede obtener un error completo a veces. En más de una ocasión, Gemini identificó erróneamente uno de los artículos como un personaje inventado de la colina silenciosa inédita: F Juego, claramente fusionando piezas de diferentes títulos en algo que nunca fue. El otro error consistente que experimenté fue cuando Gemini producía una respuesta incorrecta, y lo corrigía e insinuaría más cerca de la respuesta, o directamente darle la respuesta, solo para que repita la respuesta incorrecta como si fuera una nueva suposición. Cuando eso sucedía, cerraría la sesión y comenzaría una nueva, que no siempre fue útil.
Un truco que encontré fue que algunas conversaciones lo hicieron mejor que otras. Si me desplazé por mi lista de conversación de Géminis, aproveché un viejo chat que había obtenido un elemento específico correcto, y entonces Volvió a vivir de nuevo desde ese chat, podría identificar los elementos sin problemas. Si bien eso no es necesariamente sorprendente, fue interesante ver que algunas conversaciones funcionaron mejor que otras, incluso si usó el mismo idioma.
Google no respondió a mis solicitudes de más información sobre cómo funciona Gemini Live.
I buscado Géminis para responder con éxito mis preguntas a veces altamente específicas, así que proporcioné muchas pistas para llegar allí. Los empujones a menudo eran útiles, pero no siempre. A continuación hay una serie de objetos que intenté que Gemini identifique y proporcione información.
Para este, solo le pregunté a Gemini qué vio. “Ok, veo un gato blanco y negro que está disfrutando del sol en un piso de madera. Le pedí a Gemini que volviera a adivinar, y recibí respuestas de “Home es donde el horror es” honor “, pero finalmente aterrizó en la respuesta correcta (solo la palabra,” horror “).
Gemini me dio cuatro personajes equivocados del juego correcto antes de identificar correctamente este icónico personaje infinito de Bioshock, Songbird.
Géminis clavó esta figura espeluznante en la primera suposición. (Víctima gemela, Silent Hill 4: la habitación)
Sin complicaciones: Géminis reconoció correctamente a Mira de Silent Hill 2, la real en control de la ciudad
Este me impresionó. Si bien Géminis podía “ver” que este era un mapa silencioso de la colina, clavó el hecho de que se trataba de una impresión de carrera limitada que era parte de un ARG que tuvo lugar el año pasado.
Gemini adoptó un enfoque muy diferente para identificar esta chaqueta de Silent Hill 2. Hizo 24 preguntas específicas basadas en la información que le di, con mi primera pista de que era de un videojuego. Sin embargo, para la 19ª pregunta, parecía que ya sabía exactamente de qué juego era por las preguntas específicas que me estaba haciendo.
Este no tardó mucho, pero Gemini originalmente sugirió que este retrato podría ser del autor y poeta estadounidense John Ashbery. Una vez que moví la cámara más cerca de la imagen y dije que era de un programa de televisión, Gemini respondió correctamente: “Esa es la dama de troncos de Twin Peaks, sosteniendo su famoso tronco”.
Esta fue fácil para Géminis. Inmediatamente reconoció esto como un mazo de tarot de edición limitada que tuvo que ser “ganada” jugando a través de un evento estacional específico en Destiny 2.