Noticias
Géminis se está complicando
La semana pasada, Google presentó Gemini 2.0. La nueva familia de modelos de IA que impulsan el chatbot del mismo nombre de Google viene con nuevas capacidades, como la capacidad de acceder directamente a información de servicios como la Búsqueda de Google y crear de forma nativa imágenes y audio para incluirlos en sus respuestas. Google dice que sus modelos recientes de IA están diseñados para la “nueva era agente” en la que estamos entrando, en la que la IA puede acceder a Internet y utilizar herramientas para hacer cosas para los usuarios.
A partir de esta semana, los suscriptores de Gemini Advanced tienen acceso para probar algunos modelos nuevos: Gemini 2.0 Flash Experimental, Gemini 2.0 Experimental Advanced y Gemini 1.5 Pro con Deep Research. Estas se unen a las opciones existentes del estándar 1.5 Pro (para “tareas complejas”) y 1.5 Flash (para “ayuda diaria”). Comprueba que los suscriptores de pago tendrían la oportunidad de probar nuevas funciones con antelación. Pero para un producto que se supone que elimina parte del trabajo de procesos complejos como la investigación en profundidad y, eventualmente, tareas de mayor importancia como reservar viajes, Gemini se está volviendo cada vez más difícil de entender y usar.
Bienvenido al compilador,
su resumen semanal de lo que sucede en Google. Paso mis días como editor de Google leyendo y escribiendo sobre lo que Google hace en Android, Pixel y más, y lo resumo aquí en esta columna. Estas son las noticias de Google que debes entender esta semana.
Un modelo para cada tarea
Los suscriptores de Gemini Advanced ahora tienen un total de cinco modelos Gemini para elegir. Las cargas de trabajo más complejas requieren más recursos, por lo que tiene sentido emplear diferentes modelos para diferentes tareas. Si un modelo Flash más simple puede responder una consulta determinada tan bien como un modelo Pro más complejo, ejecutarlo a través de Flash en lugar de Pro ahorrará un poco de potencia informática, una preocupación creciente en el espacio de la IA.
Pero un menú desplegable que permite a los usuarios elegir manualmente entre cinco modelos diferentes para cada consulta parece una forma terriblemente obtusa de administrar las diversas capacidades de Gemini. Aprender los entresijos de modelos con nombres como 1.5 destello y 1.5 Pro con investigación profunda Parece una gran pregunta.
Gemini 1.5 Pro con Deep Research, por ejemplo, es el único de los cinco que puede llevar a cabo la función Deep Research de Gemini que recopila información de docenas o incluso cientos de fuentes para crear informes detallados. Gemini 2.0 Advanced, el modelo más nuevo y generalmente mejor, todavía no puede hacer eso. Si lo pides, servirá. algo, pero no le permitirá saber que su consulta sería más adecuada para 1.5 con Deep Research.
¿No se supone que la IA simplifica nuestras vidas?
El atractivo de las interfaces de IA en lenguaje natural, en teoría, es que no es necesario saber cómo funcionan para utilizarlas. A diferencia de una aplicación más tradicional, donde necesitas aprender los matices de la interfaz de usuario y dónde encontrar varias funciones para realizar tareas complicadas, con algo como Gemini o ChatGPT, no deberías necesitar conocimientos especializados, solo un conocimiento razonablemente bien formado. consulta. Colocación en capas de un menú de modelos abstractos para elegir para cada entrada (¿Esta consulta es una ayuda diaria o una tarea compleja?) parece reñir con una de las características más valiosas de este tipo de aplicaciones: la accesibilidad.
La opción de elegir manualmente qué modelo se ejecuta en su consulta es una ventaja sensata para los suscriptores avanzados, pero no debería ser un requisito. Para que Gemini sea más fácil de usar, me gustaría ver una versión futura que decida qué modelo es mejor para su consulta de forma automática, sin supervisión manual. Tal como están las cosas, Gemini ni siquiera te avisará si has utilizado el modelo equivocado para una tarea determinada. ¿No se supone que la IA simplifica nuestras vidas?
¿Google Keep debe brillar?
Android 16 Developer Preview 2 incluye un cambio interesante: convierte a Google Keep en una aplicación del sistema, lo que significa que no puedes desinstalarlo sin acceso de root. A primera vista, esto podría parecer más un inconveniente que otra cosa, pero probablemente significa que Google tiene grandes planes para su aplicación para tomar notas, incluidas integraciones más profundas del sistema: la capacidad de iniciar la aplicación desde la pantalla de bloqueo en los teléfonos Pixel. Por ejemplo.
Estoy entusiasmado con la posibilidad. He usado Keep para tomar notas rápidas por conveniencia durante años, pero nunca me ha gustado mucho. En comparación con otras aplicaciones que he usado para tomar notas (Evernote, Obsidian, Apple Notes), Keep siempre me pareció un poco básico. Puede buscar sus notas y agregar etiquetas, pero no existe una categorización sólida; no se pueden crear carpetas y la aplicación todavía se aferra a su concepto original de notas representadas como tarjetas estilo notas adhesivas.
Pero si Keep se convierte en un foco más importante para Google, incorporando funciones como carpetas, alguna categorización de IA impulsada por Gemini y tal vez un mosaico de Configuración rápida para abrir una nueva nota en Android como lo hace Apple Notes en iOS, puedo verme usándolo. porque quiero, y no sólo porque es la aplicación para tomar notas que tengo instalada.
Mientras tanto…
El generador de vídeo Veo 2 de Google tiene un aspecto tremendamente impresionante. Google lanzó esta semana una serie de videoclips (arriba) de su último generador de video Veo 2 y, en su mayor parte, es muy difícil decir que los clips no fueron hechos por manos humanas. Veo 2 aparentemente tiene una mejor comprensión de cosas como la anatomía y la física que el Veo original, lo que le permite crear clips que tienen notablemente menos problemas de IA y menos alucinaciones. Puede registrarse en una lista de espera para probar Veo 2 usted mismo en labs.google/videofx.
Último desarrollo
Google dice que Veo 2 AI puede generar videos sin todas las alucinaciones
Cinco dedos por mano es un gran paso para la IA
El nuevo experimento Whisk de Google es una herramienta para la lluvia de ideas visual. Whisk le permite generar imágenes basadas en una “configuración”, “escena” y “estilo” definidas por el usuario. Para cada aspecto, puede cargar una imagen existente o ingresar un mensaje de texto. También tiene la opción de refinar las imágenes de salida con indicaciones adicionales. Los resultados generalmente no son de primera calidad, pero Google posiciona a Whisk más como una herramienta para generar ideas que para crear imágenes listas para usar. Puede probar Whisk ahora mismo en labs.google/fx/tools/whisk.
historia completa
El nuevo Whisk AI de Google te permite colocar imágenes como indicaciones para crear nuevas imágenes
La última creación de Google Labs es divertida
Según se informa, los verificadores de datos de Géminis están analizando temas que no conocen. Según un informe de TechCrunch, los trabajadores contratados que califican las respuestas de Gemini ya no pueden omitir las respuestas que quedan fuera de su comprensión, y según se informa, la guía de Google dice, en parte, “No debe omitir las indicaciones que requieren conocimientos especializados del dominio”. ¡Eso es bastante preocupante! Recuerde seguir verificando la información proporcionada por AI antes de actuar en consecuencia.
Último desarrollo
La nueva política de Google instruye a los verificadores de datos de Gemini a actuar fuera de su experiencia
Google puede socavar sus afirmaciones de precisión