Noticias

Google no nos está dando muchas razones para pagar por Gemini Advanced últimamente

Published

1 semana ago

9 marzo, 2025

Gemini Advanced, la versión paga del chatbot de IA de Google, cuesta $ 20 por mes. Esa tarifa de suscripción le brinda acceso a modelos AI nuevos y experimentales antes de llegar a la experiencia de Géminis estándar, además de características exclusivas como la capacidad de crear gemas, chatbots personalizados que funcionan según sus especificaciones.

Esta semana, un desmontaje de APK indicó que la función de investigación profunda de Gemini, actualmente exclusiva para los usuarios con una suscripción avanzada de Gemini, llegará a la versión gratuita de alguna manera. La investigación profunda no sería la primera característica de Gemini pagada en saltar a la experiencia no remunerada: otras características de Buzzy como Gemini Live comenzaron a pagar antes de salir gratis. Simplemente no parece que hay muchas razones para pagar por Gemini en estos días.

Bienvenido al compiladorsu resumen semanal de Goings-On. Paso mis días mientras el editor de Google leyendo y escribiendo sobre lo que Google está haciendo a través de Android, Pixel, Gemini y más, y hablo de todo aquí en esta columna. Esto es lo que ha estado en mi mente esta semana.

La investigación profunda, actualmente impulsada por el modelo Gemini 1.5 Pro y exclusivo de la suscripción avanzada de Gemini pagada, es una característica de Gemini que puede realizar investigaciones en línea y reunir informes adaptados a sus especificaciones utilizando lo que encuentra. Para ser claros, Google no ha anunciado que la investigación profunda será gratuita. Pero Android Authority publicó un desmontaje APK a principios de esta semana que sugiere que una versión “freemium” de la funcionalidad está llegando a la experiencia Base Gemini en el futuro cercano.

Android Authority pone en citas “freemium”, que se lee como el código revisado por Android Tinkerer EnsambleBug usa esa palabra. Si ese es el caso, parece que la experiencia estándar de Gemini obtendrá una versión de investigación profunda, en lugar del acceso completo a la misma característica que actualmente está disponible con Advanced. Es posible que esta versión gratuita de Deep Research se limite a crear informes de un número menor de fuentes, o que los usuarios gratuitos solo puedan usar investigaciones profundas para generar un cierto número de informes en una ventana de tiempo.

Aun así, otra característica anteriormente pagada que llega a la versión gratuita de Google Gemini, incluso en una capacidad limitada, erosiona aún más la propuesta de valor de Gemini Advanced. Varias características avanzadas de Big-Ticket han llegado a la experiencia gratuita durante el año pasado.

Las características avanzadas de Géminis tienden a gotear

Gemini Live, que apareció prominentemente en el anuncio excesivamente sentimental del Super Bowl de Google, le permite tener una interacción verbal de ida y vuelta con Gemini al estilo de una conversación. La función debutó en agosto, y estaba lo suficientemente intrigado como para comenzar una prueba avanzada de Géminis para verlo. Sin embargo, una vez que la novedad de tener una conversación simulada con mi teléfono desapareció, descubrí que no había nada en Gemini Live que valga la pena continuar mi suscripción.

Incluso si Live realmente me hubiera enganchado, nunca hubiera tenido que pagar para usarlo de todos modos: Gemini Live llegó a la experiencia gratuita de Gemini en septiembre, solo un mes después de que aterrizó en la suscripción avanzada de Gemini de $ 20 al mes.

Un gráfico que representa el Pixel 9 Pro sobre un fondo de notas adhesivas y logotipos de Géminis

Relacionado

El anuncio de Super Bowl ‘Hazfelt’ de Google es tan cínico como Schmaltzy

Es dulce, pero ¿qué está diciendo?

Google hizo una serie de funciones avanzadas de Gemini anteriormente premium gratis en las últimas semanas.

En mayo pasado, Gemini Advanced ganó la capacidad de analizar archivos cargados de varios tipos para, como lo expresó Google en ese momento, “desbloquear ideas más profundas de sus documentos y racionalizar sus flujos de trabajo”. Hasta el mes pasado, es gratis. Ahora los usuarios pagados y estándar pueden hacer preguntas de Gemini sobre PDF y documentos de Word.

Días después de que Google abrió el análisis de documentos a todos los usuarios de Gemini, hizo lo mismo para una característica aún más especializada. A partir de finales de febrero, la versión gratuita de Gemini ahora incluye la funcionalidad de asistencia de código. Code Assist realmente se lanzó en 2023 bajo el nombre Duet Ai para desarrolladores, pero finalmente se renombró bajo el paraguas de Géminis como asistencia de código. Esta nueva versión gratuita no es tan versátil como lo que obtendrá con avanzado: no hay integración con Google Cloud Services en el nivel gratuito, por ejemplo. Pero obtiene hasta 180,000 terminaciones de código por mes sin pagar una moneda de diez centavos, que el director senior de gestión de productos de Google, Ryan J. Salva, dice que es suficiente incluso para la mayoría de los “desarrolladores profesionales más dedicados de hoy”.

Una captura de pantalla que destaca la funcionalidad de información guardada de Gemini.

Más tarde esa misma semana, la función de información guardada de Gemini, que le permite dar la instancia de su cuenta de información de Gemini que recordará y aplicará en futuras interacciones, también llegó al nivel libre. Había debutado sobre la suscripción avanzada pagada unos meses antes, en noviembre.

Incluso estableciendo una investigación profunda a un lado, esto se siente como un patrón: Google presenta una nueva característica llamativa sobre la suscripción avanzada de Gemini pagada, y luego, después de un período de semanas o meses, ofrece la función (o al menos una versión) a todos, de forma gratuita. Ese no ha sido el caso con cada La función avanzada, por supuesto, y Advanced siempre ofrecerá acceso temprano a los modelos Gemini más nuevos, como el modelo experimental de pensamiento Flash Gemini 2.0 recientemente lanzado.

Para las personas que no pagan por avanzado, esto no es un problema. Si eres un usuario informal de Géminis, la versión del chatbot con el que interactúas regularmente está recogiendo nuevas funciones, y probablemente no veas muchas razones para poner en efectivo cada mes. Por otro lado, parece que muchos suscriptores avanzados están obteniendo un trato crudo; La exclusividad cronometrada de las características de nicho cada vez más solo llega hasta ahora. A menos que sea un refuerzo de IA hardcore que construya chatbots personalizados y presione los límites de las ventanas de contexto, el mayor beneficio que obtendrá pagar por Gemini Advanced es probablemente el Terabyte de Drive Storage, el plan de $ 20/mes de Google incluye.

¿Google nos necesita gastar dinero en Gemini avanzado?

El Samsung Galaxy S25 ejecutando Google Gemini

El dinero que Google está trayendo de un cuadro de usuarios apasionados que pagan $ 20 al mes para acceder a las funciones de vanguardia solo podría ser una caída en el cubo en relación con los servicios de IA como Gemini cuesta operar. Google tiene muchas planchas en el incendio y sus finanzas son un poco inescrutables para alguien como yo, pero los competidores de IA como Openai y Anthrope, que ofrecen productos comparables a Gemini en Chatgpt y Claude, actualmente están operando con pérdidas. Según los documentos revisados por el New York Times en septiembre, Operai se preparó para perder alrededor de $ 5 mil millones en 2024. El 2024 de Anthrope no fue mucho mejor, aunque esa compañía ofrece proyecciones soleadas para 2027 y más allá.

A pesar de que todas las pruebas que apuntan a la IA no son rentables como industria, la inversión corporativa en IA está por las nubes. El alfabeto matriz de Google ha revelado planes para gastar $ 75 mil millones sobre gastos de capital este año. Gran parte de ese gasto se dedicará a construir infraestructura de IA.

La principal ventaja de Google en cobrar $ 20 por mes por Advanced, una cantidad lo suficientemente alta como para perseguir a los usuarios casuales, pero aún puede alcanzar a muchos entusiastas, puede estar en la contención de nuevas características de IA intensivas en recursos para un pequeño subconjunto del grupo de usuarios de Gemini en general mientras Google reúne los datos de uso y aumenta la capacidad AI. El dinero real para los proveedores de IA radica en brindar servicio a organizaciones grandes (incluidos, en el caso de OpenAi, el gobierno federal) y responder a las llamadas de API del software de terceros que se conecta a la IA (piense en la integración de ChatGPT de Siri).

Sin embargo, para los usuarios regulares, no hay mucha ventaja en pagar por Gemini en este momento. Hay casos de borde: propietarios de pequeñas empresas que podrían beneficiarse de una característica específica que actualmente es exclusiva de Advanced, por ejemplo. Pero si eres un observador casual, mirando una característica avanzada u otra y piensa que podría ser genial jugar, hay una buena posibilidad de que tengas la oportunidad de hacerlo en el nivel libre en el futuro cercano.

Noticias

Las barreras de desarrollador se reducen a medida que OpenAI simplifica la creación de agentes de IA

Published

12 minutos ago

17 marzo, 2025

Sergio Villanueva

Operai ha lanzado recientemente un conjunto de nuevas herramientas de desarrollador destinadas a facilitar la creación de agentes de IA que puedan realizar tareas complejas de forma autónoma. Anunciada la semana pasada, la actualización presenta una API de respuestas, un SDK de agentes de código abierto y herramientas incorporadas para la búsqueda web, la búsqueda de archivos y el control de la computadora, todos diseñados para optimizar cómo interactúan los sistemas de IA con información y aplicaciones del mundo real.

Operai describe a estos agentes como “sistemas que realizan de forma independiente las tareas en nombre de los usuarios”, lo que significa que pueden llevar a cabo procesos de varios pasos, como investigar un tema o actualizar una base de datos, con una orientación humana mínima. El objetivo de la compañía es reducir la barrera para que los desarrolladores y las empresas implementen poderosos asistentes impulsados por la IA, ampliando así la accesibilidad a las capacidades avanzadas de IA.

Respuestas API: Simplificar las interacciones del agente

En el corazón del anuncio de Operai se encuentra la nueva API de respuestas, que sirve como una interfaz unificada para construir agentes de IA. Esta API combina las habilidades de conversación de la API de finalización de chat de Openai con la funcionalidad de uso de herramientas de su API de asistentes anteriores. En términos prácticos, esto significa que una sola llamada API ahora puede manejar tareas complejas y de varios pasos que podrían implicar recurrir a varias herramientas o fuentes de conocimiento.

Operai dice que la API de respuestas fue construida para simplificar el desarrollo de agentes al reducir la necesidad de código personalizado y impermeabilizar. “La API de respuestas está diseñada para desarrolladores que desean combinar fácilmente los modelos Operai y las herramientas incorporadas en sus aplicaciones, sin la complejidad de integrar múltiples API o proveedores externos”. La compañía explicó en su publicación de blog de anuncios. Anteriormente, los desarrolladores a menudo tenían que orquestar múltiples llamadas de API y elaborar indicaciones elaboradas para que un agente de IA hiciera algo útil, lo que era desafiante y lento. Con la nueva API, un agente puede, por ejemplo, mantener una conversación con un usuario, la información de búsqueda a través de la búsqueda web, luego escribir un resumen, todo dentro de un flujo de trabajo.

En particular, la API de respuestas está disponible para todos los desarrolladores sin costo adicional más allá de las tarifas de uso estándar. También es compatible con retroceso: OpenAI confirmó que continuará apoyando su popular API de finalización de chat para casos de uso simples, mientras que la API de asistentes más antiguos se eliminará a mediados de 2026 a medida que sus características se doblen en la API de respuestas.

Agentes de código abierto SDK optimizaciones de flujo de trabajo Orquestación

El lanzamiento también incluye el SDK de los Agentes, un conjunto de herramientas para administrar los flujos de trabajo de uno o incluso múltiples agentes de IA interactuantes. En un movimiento notable, OpenAI ha realizado este código abierto SDK, permitiendo a los desarrolladores y empresas inspeccionar el código e incluso integrar modelos no openi en sus sistemas de agentes. Esta flexibilidad significa que una empresa podría coordinar un agente que utiliza el GPT-4 de OpenAI junto con otro agente impulsado por un modelo de IA diferente, todo dentro del mismo marco.

El SDK de los agentes se centra en la orquestación de flujo de trabajo, esencialmente, hacer un seguimiento de lo que está haciendo un agente y cómo entrega las tareas. Proporciona mecanismos incorporados para cosas como:

Agentes configurables: Configuración de agentes de IA con roles predefinidos o instrucciones para tareas específicas.
Transferencias inteligentes: Pasar tareas entre múltiples agentes o procesos basados en el contexto (por ejemplo, un agente que recopila datos, luego otro agente que lo analiza).
Guardacas por seguridad: Asegurar que el agente permanezca dentro de ciertos límites, con herramientas de validación de entrada y moderación de contenido para evitar salidas no deseadas.
Rastreo y observabilidad: Herramientas para monitorear y depurar las acciones de un agente paso a paso, lo que ayuda a los desarrolladores a comprender las decisiones y mejorar el rendimiento.

Según OpenAI, este conjunto de herramientas puede simplificar casos de uso complejos, como bots de atención al cliente, asistentes de investigación de varios pasos, flujos de trabajo de generación de contenido, agentes de revisión de código o automatización de prospección de ventas. Al emitir abierta el SDK, OpenAI también está alentando las contribuciones y la adopción de la comunidad en entornos empresariales, donde la transparencia y la capacidad de los componentes de autohospedas a menudo son importantes. Los primeros usuarios, incluidas compañías como Coinbase y Box, ya han experimentado con el SDK de los agentes para construir herramientas de investigación y extracción de datos con IA.

Las herramientas incorporadas mejoran la funcionalidad de IA

Para hacer que los agentes de IA fuera de casa fuera de la caja, la API de respuestas de OpenAI viene con tres herramientas incorporadas que conectan la IA con datos y acciones externas. Estas herramientas expanden significativamente lo que puede hacer un agente, yendo más allá de la generación de texto.

Las herramientas incorporadas disponibles en el lanzamiento son:

Búsqueda web: Permite que un agente de IA realice búsquedas web en tiempo real y recupere información actualizada, completa con fuentes citadas. Esto significa que un agente puede responder preguntas utilizando las últimas noticias o hechos de Internet, y proporcionar las referencias de transparencia. Esta herramienta es útil para agentes de construcción como asistentes de investigación, guías de compras o planificadores de viajes que necesitan información en vivo.
Búsqueda de archivos: Permite que un agente revise rápidamente a través de grandes colecciones de documentos o datos que un desarrollador ha proporcionado, para encontrar información relevante. Esto es esencialmente una herramienta de consulta de base de conocimiento privado: un agente podría usarlo para responder preguntas de atención al cliente buscando documentos de políticas o ayudar en la investigación legal al recuperar pasajes de una biblioteca de archivos. Esta herramienta se puede implementar en escenarios como bots de servicio al cliente o asistentes internos de la compañía que necesitan hacer referencia a información patentada.
Uso de la computadora: Una nueva capacidad (actualmente en la vista previa de la investigación) que permite que un agente de IA realice acciones en una computadora como si fuera un usuario humano que operaba la máquina. Impulsada por el modelo de agente de uso informático (CUA) de OpenAI, esta herramienta traduce las intenciones de la IA en acciones de teclado y mouse para navegar en software, sitios web u otras interfaces digitales. En esencia, permite la automatización de tareas que no tienen una API fácil, por ejemplo, ingresar datos en un sistema heredado, hacer clic en una aplicación web para probar o verificar información sobre una interfaz gráfica.

Al integrar estas herramientas, los agentes de IA no solo pueden pensar en un problema, sino también actuar, ya sea para buscar información, recuperar datos específicos o manipular un entorno digital. Esto extiende en gran medida la funcionalidad de un agente y la hace mucho más útil para las aplicaciones del mundo real.

Operai imagina que los desarrolladores combinarán estas herramientas según sea necesario; Por ejemplo, un agente podría usar la búsqueda web para recopilar información pública y búsqueda de archivos para extraer datos internos, luego usar ese conocimiento combinado para redactar un informe o ejecutar una tarea. Todo esto puede orquestarse a través de la API de respuestas de manera unificada, en lugar de requerir servicios separados o integración manual.

Implicaciones más amplias para la adopción y accesibilidad de la IA

Los analistas dicen que este lanzamiento podría acelerar la adopción de agentes de IA en todas las industrias al reducir los obstáculos técnicos. Para las empresas, el atractivo de estas nuevas herramientas es la capacidad de automatizar y escalar procesos sin un desarrollo personalizado extenso.

Las tareas de rutina, como la recuperación de información, el procesamiento de formularios o la entrada de datos de la aplicación cruzada, que podrían haber requerido una codificación significativa o múltiples sistemas de software, ahora pueden ser manejados potencialmente por agentes de IA utilizando los bloques de construcción de OpenAI. Las herramientas de búsqueda incorporadas, por ejemplo, permiten a las empresas enchufar IA en sus bases de datos de conocimiento o en la web casi al instante, y la herramienta de uso de computadora ofrece una forma de interactuar con aplicaciones heredadas que no tienen API. Mientras tanto, la naturaleza de código abierto de los agentes SDK le da a las empresas más control, lo que les permite integrar a estos agentes de IA en su infraestructura existente e incluso usar diferentes modelos de IA según sea necesario.

El movimiento de Operai es parte de una carrera más amplia para empoderar a los desarrolladores con capacidades de construcción de agentes. Las empresas tecnológicas y las nuevas empresas competitivas han estado implementando sus propias plataformas de agentes de IA, y el conjunto de herramientas integral de OpenAI puede ayudarlo a destacarse. De hecho, el momento se produce en medio de un aumento de interés en los agentes autónomos de IA a nivel mundial; por ejemplo, la startup china Monica recientemente llamó la atención con su agente Manus, alegando que podría superar al propio agente prototipo de Openii en ciertas tareas. Mediante las partes clave abiertas de su plataforma y ofreciendo herramientas incorporadas, OpenAi parece estar respondiendo a la presión competitiva al tiempo que fomenta una adopción más amplia de IA.

Desde el punto de vista de la accesibilidad, estas herramientas podrían democratizar quién puede construir sistemas de IA avanzados. Las empresas más pequeñas e incluso los desarrolladores individuales ahora pueden encontrar que es posible crear un asistente o flujo de trabajo impulsado por la IA sin necesidad de un gran equipo de investigación. El enfoque integrado (donde una llamada API puede manejar múltiples pasos) y la disponibilidad de ejemplos en la documentación de OpenAI reduce la barrera de entrada para los recién llegados. Operai también proporciona una interfaz de observabilidad para que los desarrolladores rastreen e inspeccionen lo que el agente está haciendo, lo cual es crucial para depurar y generar confianza en las salidas de IA. Se espera que este enfoque en la usabilidad y la seguridad (con barandillas y monitoreo) aliente a más empresas a experimentar con los agentes de IA, sabiendo que tienen supervisión y control.

Los agentes de IA podrían volverse tan comunes y esenciales como tener presencia en Internet. Las últimas herramientas de Openai, al hacer que el desarrollo de agentes sea más accesible, podría ayudar a convertir esa visión en realidad al permitir que una comunidad mucho más amplia de desarrolladores y organizaciones construya sus propios agentes.

Noticias

Chatgpt puede ayudar a escribir un ensayo. Los científicos quieren que comience a doblar la ropa

Published

3 horas ago

17 marzo, 2025

Sergio Villanueva

STANFORD, California. – La inteligencia artificial puede encontrarle una receta o generar una imagen, pero no puede colgar una imagen en una pared o cocinar su cena.

Chelsea Finn quiere que eso cambie. Finn, ingeniero e investigador de la Universidad de Stanford, cree que la IA puede estar en la cúspide de impulsar una nueva era en robótica.

“A largo plazo queremos desarrollar un software que permita a los robots operar de manera inteligente en cualquier situación”, dice ella.

Una compañía que cofundó ya ha demostrado un robot AI de uso general que puede doblar la ropa, entre otras tareas. Otros investigadores han demostrado el potencial de IA para mejorar la capacidad de los robots para hacer todo, desde clasificación de paquetes hasta carreras de drones. Y Google acaba de dar a conocer

Un robot con IA que podría empacar un almuerzo.

Pero la comunidad de investigación se divide sobre si las herramientas generativas de IA pueden transformar la robótica de la forma en que han transformado algún trabajo en línea. Los robots requieren datos del mundo real y enfrentan problemas mucho más difíciles que los chatbots.

“Los robots no se convertirán de repente en este sueño de ciencia ficción de la noche a la mañana”, dice Ken Goldberg, profesor de UC Berkeley. “Es realmente importante que la gente entienda eso, porque todavía no estamos allí”.

Sueños y decepción

Hay menos partes de la ciencia e ingeniería que tienen una mayor brecha entre la expectativa y la realidad que la robótica. La misma palabra “robot” fue acuñado por Karel čapek, un escritor de Czeck que, en la década de 1920, escribió una obra que imaginaba seres humanos que podían llevar a cabo cualquier tarea que su dueño ordenara.

En realidad, los robots han tenido muchos problemas para hacer trabajos triviales. Las máquinas están en su mejor momento cuando realizan movimientos altamente repetitivos en un entorno cuidadosamente controlado, por ejemplo, en una línea de ensamblaje automotriz dentro de una fábrica, pero el mundo está lleno de obstáculos inesperados y objetos poco comunes.

En el Laboratorio de Finn en la Universidad de Stanford, el estudiante graduado Moo Jin Kim demuestra cómo los robots con AI al menos tienen el potencial de solucionar algunos de esos problemas. Kim ha estado desarrollando un programa llamado “OpenVLA

“Que significa visión, lenguaje, acción.

“Es un paso en la dirección de ChatGPT para la robótica, pero todavía hay mucho trabajo por hacer”, dice.

Moo Jin Kim establece un robot a IA en la Universidad de Stanford.

El robot en sí parece bastante poco notable, solo un par de brazos mecánicos con pinzas. Lo que lo hace diferente es lo que hay dentro. Los robots regulares deben estar cuidadosamente programados. Un ingeniero tiene que escribir instrucciones detalladas para cada tarea. Pero este robot funciona con una red neuronal de IA enseñable. La red neuronal opera cómo los científicos creen que el cerebro humano podría funcionar: los “nodos” matemáticos en la red tienen miles de millones de conexiones entre sí de una manera similar a la forma en que las neuronas en el cerebro están conectadas. “Programación” de este tipo de red se trata simplemente de reforzar las conexiones que importan y debilitar las que no lo hacen.

En la práctica, esto significa que Kim puede entrenar al modelo OpenVLA cómo hacer un montón de tareas diferentes, simplemente mostrándolo.

Se unen al robot un par de joysticks que controlan cada brazo. Para entrenarlo, un operador humano usa los joysticks para “titiriteros” al robot, ya que hace una tarea deseada.

“Básicamente, me gusta la tarea que quieras que hagas, sigues haciéndolo una y otra vez como 50 veces o 100 veces”, dice.

Esa repetición es todo lo que se requiere. Las conexiones entre nodos en la red neuronal de IA del robot se refuerzan cada vez que se muestra la acción. Pronto puede repetir la tarea sin el titiritero.

Para demostrar, Kim saca una bandeja de diferentes tipos de mezcla de senderos. Ya lo ha enseñado a recoger. Ahora quiero parte de la mezcla que tiene M&M y nueces verdes, y todo lo que tengo que hacer es preguntar.

“Saca algunos verdes con las nueces en el tazón”, escribo. Muy lentamente, los brazos del robot se ponen en acción.

En una feed de video, Openvla coloca una estrella sobre el contenedor correcto. Eso significa que la primera parte del modelo, que tiene que tomar mi texto e interpretar su significado visualmente, ha funcionado correctamente.

No siempre, dice Kim. “Esa es la parte en la que aguantamos la respiración”.

Luego, lentamente, vacilante, se extiende con su garra, toma la primicia y obtiene la mezcla de senderos.

“¡Parece que está funcionando!” dice Kim con entusiasmo.

Es una cucharada muy pequeña. Pero una cucharada en la dirección correcta.

Cualquier cosa bots

El investigador de Stanford, Chelsea Finn, ha cofundado una empresa en San Francisco llamada inteligencia física

que busca llevar este enfoque de entrenamiento al siguiente nivel.

Ella imagina un mundo en el que los robots pueden adaptarse rápidamente para hacer trabajos simples, como hacer un sándwich o reabastecer en los estantes de comestibles. Contrariamente al pensamiento actual sobre robótica, sospecha que la mejor manera de llegar allí podría ser capacitar a un solo modelo para hacer muchas tareas diferentes.

“De hecho, pensamos que tratar de desarrollar sistemas generalistas tendrá más éxito que tratar de desarrollar un sistema que haga una cosa muy, muy bien”, dice ella.

La inteligencia física ha desarrollado una red neuronal de IA que puede doblar la ropa, recoger granos de café y ensamblar una caja de cartón, aunque la red neuronal que le permite hacer todas esas cosas es demasiado poderosa para estar físicamente en el robot mismo.

“En ese caso, teníamos una estación de trabajo que estaba en el apartamento que calculaba las acciones y luego las envía a través de la red al robot”, dice ella.

Pero el siguiente paso, compilar datos de capacitación para su programa Robot AI, es una tarea mucho más difícil que simplemente recopilar texto de Internet para entrenar un chatbot.

“Esto es realmente difícil”, reconoce Finn. “No tenemos un Internet abierto de datos de robots, por lo que a menudo se trata de recopilar los datos nosotros mismos sobre los robots”.

Aún así, Finn cree que es factible. Además de los entrenadores humanos, los robots también pueden intentar repetidamente hacer tareas por su cuenta y rápidamente desarrollar su base de conocimiento, dice ella.

Dilema de datos

Pero Ken Goldberg de Berkley es más escéptico de que la brecha del mundo real se pueda unir rápidamente. Los chatbots de IA han mejorado enormemente en los últimos años porque han tenido una gran cantidad de datos para aprender. De hecho, han recogido casi todo el Internet para entrenar a sí mismos cómo escribir oraciones y dibujar imágenes.

Ken Goldberg, cofundador de Ambi Robotics y profesor en UC Berkeley.

Simplemente construir los datos del mundo real de un mundo de Internet para robots va a ir mucho más lentamente. “A este ritmo actual, tomaremos 100,000 años obtener tantos datos”, dice.

“Diría que estos modelos no van a funcionar de la manera en que están siendo entrenados hoy”, está de acuerdo Pulkit Agrawal, un investigador de robótica en el MIT.

Agrawal es un defensor de la simulación: poner la red neuronal de IA que ejecuta el robot en un mundo virtual y permite que repita tareas una y otra vez.

“El poder de la simulación es que podemos recopilar cantidades muy grandes de datos”, dice. “Por ejemplo, en tres horas de simulación podemos recopilar 100 días de datos”.

Ese enfoque funcionó bien para los investigadores en Suiza que recientemente entrenaron un dron

Cómo competir colocando su cerebro con IA en un simulador y pasando a través de un curso preestablecido una y otra vez. Cuando entró en el mundo real, pudo volar el curso más rápido y mejor que un oponente humano hábil, al menos parte del tiempo.

Pero la simulación tiene sus inconvenientes. El dron funcionó bastante bien para un curso interior. Pero no podía manejar nada que no estaba simulado (viento, lluvia o luz solar, podría arrojar el dron del curso.

Y volar y caminar son tareas relativamente simples para simular. Goldberg dice que realmente recoger objetos o realizar otras tareas manuales que los humanos encuentran que son completamente sencillos son mucho más difíciles de replicar en una computadora. “Básicamente, no hay un simulador que pueda modelar con precisión la manipulación”, dice.

Agarrando el problema

Algunos investigadores piensan que incluso si el problema de los datos puede superarse, los problemas más profundos pueden darle a los robots de IA.

“En mi opinión, la pregunta no es, ¿tenemos suficientes datos … es más lo que es el encuadre del problema”, dice Matthew Johnson-Roberson, investigador de la Universidad Carnegie Mellon en Pittsburgh.

Johnson-Roberson dice que a pesar de todas las increíbles habilidades que muestran los chatbots, la tarea que se les pide que hagan es relativamente simple: mira lo que un usuario humano tipos y luego intenta predecir las próximas palabras que el usuario quiere ver. Los robots tendrán que hacer mucho más que simplemente componer una oración.

“La siguiente mejor predicción de palabras funciona muy bien y es un problema muy simple porque solo está prediciendo la próxima palabra”, dice. Moverse a través del espacio y el tiempo para ejecutar una tarea es un conjunto mucho más grande de variables para que una red neuronal intente procesar.

“No está claro en este momento que puedo tomar 20 horas de imágenes de Go-Pro y producir algo sensato con respecto a cómo un robot se mueve en el mundo”, dice.

Johnson-Roberson dice que cree que se debe hacer una investigación más fundamental sobre cómo las redes neuronales pueden procesar mejor el espacio y el tiempo. Y advierte que el campo debe tener cuidado porque la robótica ha sido quemada antes, por la carrera para construir autos autónomos.

“Tanta capital se apresuró tan rápido”, dice. “Incentivó a las personas para hacer promesas en una línea de tiempo que no podrían cumplir”. Gran parte de la capital dejó el campo, y todavía hay problemas fundamentales para los autos sin conductor que permanecen sin resolver.

Aún así, incluso los escépticos creen que la robótica será cambiada para siempre por AI. Goldberg ha cofundado una compañía de clasificación de paquetes llamada Ambi Robotics que lanzó un nuevo sistema impulsado por la IA conocido como Prime-1 a principios de este año. Utiliza IA para identificar los mejores puntos para que un brazo robótico recoja un paquete. Una vez que tiene el punto de selección establecido por la IA, el brazo, que está controlado por una programación más convencional, hace el agarre.

El nuevo sistema ha reducido drásticamente la cantidad de veces que se eliminan los paquetes, dice. Pero él agrega con una sonrisa: “Si pones esto frente a una pila de ropa, no va a saber qué hacer con eso”.

De vuelta en Stanford, Chelsea Finn dice que está de acuerdo en que las expectativas deben mantenerse bajo control.

“Creo que todavía hay un largo camino para que la tecnología vaya”, dice ella. Tampoco espera que los robots universales reemplacen por completo el trabajo humano, especialmente por tareas complejas.

Pero en un mundo con poblaciones de envejecimiento y escasez de mano de obra proyectada, cree que los robots propulsados por IA podrían cerrar parte de la brecha.

“Estoy imaginando que esto realmente será algo que aumente a las personas y ayude a las personas”, dice ella.

Noticias

¿Puede el Pixel 9 hacer lo que la IA de iPhone no puede?

Published

4 horas ago

17 marzo, 2025

Sergio Villanueva

Soy un usuario de iPhone desde hace mucho tiempo que también está interesado en experiencias de IA como ChatGPT. Hasta la semana pasada, estaba bien con que Apple estuviera detrás de rivales con sus características de inteligencia de Apple. También estaba de acuerdo con esperar a que Apple despliegue sus funciones de IA en Europa.

Pero resulta que la función de inteligencia de Apple que más esperaba, la Siri más inteligente, es Vaporware. De repente, la brecha entre Apple y sus rivales es increíblemente grande.

El paso en falso de AI de Apple es fácilmente el balón suelto más grande de la tecnología de IA desde que ChatGPT se volvió viral a fines de 2022. Las descripción general de la IA de búsqueda de Google, recomendando el pegamento en la pizza, parece una falla menor en comparación. Ojalá Siri Ai pudiera cometer tales errores.

No mencioné a Google accidentalmente. Géminis es una gran victoria para la compañía a la luz del desastre de inteligencia de Apple. Dado el plomo masivo de Google, Gemini siempre fue el producto superior. Pero Apple entregó una visión en WWDC 2024 que ni siquiera Google podría coincidir.

Todas las soluciones generativas de software de IA están llegando a un lugar donde la IA se comporta cada vez más como un asistente personal, donde los agentes de IA hacen cosas en su nombre. Eso fue lo que Apple dijo que Siri haría en iOS 18. Después de la semana pasada, no está claro si tendremos que esperar hasta iOS 19, iOS 20 o más tarde para ese tipo de funcionalidad Siri avanzada en la inteligencia de Apple.

Es por eso que estoy de acuerdo con la toma de John Gruber que Google tiene una oportunidad masiva y potencialmente única de humillar a Apple Intelligence en E/S 2025 en mayo sin mencionar nunca a Apple, el iPhone o la inteligencia de Apple por su nombre. También debería hacerlo totalmente.

Te he dicho durante años cómo el iPhone era esencialmente la Estrella del Norte de Google al diseñar el Pixel. Google a menudo criticaba el iPhone de Apple solo para repetir la misma jugada cuando se trataba de píxeles de próxima generación.

Pero Google ha encontrado lentamente su identidad, y la adición de Géminis ciertamente hace que los teléfonos Pixel sean más convincentes que nunca. Escribí en agosto pasado que el Pixel 9 es la mejor arma de Google contra Apple Intelligence, una granja María contra los iPhones de IA que se acercaban.

Características de Google Gemini disponibles en Pixel 9, Pixel Watch 3 y Pixel Buds Pro 2 en agosto de 2024. Imagen Fuente: Google

Google subió el lanzamiento de Pixel 9 por dos meses para vencer a Apple Intelligence al mercado. Le expliqué cómo la serie Pixel 9 aprovechó un error de cálculo de hardware de Big Apple. Apple Intelligence nos trajo la mayor fragmentación en la historia de iOS, al menos en papel. Los teléfonos como los modelos no profesionales del iPhone 15 no fueron buenos para la IA de Apple.

Esta fragmentación niveló el campo de juego para Google. El Pixel 9 tuvo una gran oportunidad de impresionar a los compradores con características de IA antes de que llegara Apple Intelligence Iphones.

Después de la semana pasada, está claro que Google es el gran ganador cuando se trata de funciones de IA incorporadas en teléfonos. La fragmentación de iOS ni siquiera importa dado que Apple Intelligence, ya que ahora está en iPhone, significa poco para los usuarios de iPhone 15 Pro y iPhone 16. Mientras tanto, el Pixel 9 tiene características de IA incorporadas mucho mejores que Google sigue perfeccionando.

Espero que E/S 2025 se concentre en gran medida en los planes de IA de próxima generación de Google. Eso es lo que sucedió el año pasado y el año anterior. AI es en gran medida la charla de la ciudad en tecnología. Géminis podría ser mucho mejor que la inteligencia de Apple, pero todavía no es la primera IA que viene a la mente. Ese rol todavía está reservado para ChatGPT, mi software Genai en este momento.

Google bien podría alcanzar los problemas de IA de Apple durante la presentación, y Gruber tuvo la mejor manera para que Google lo hiciera. La compañía podría replicar las demostraciones inteligentes de Siri de Apple de WWDC 2024, pero hacerlo con el software Gemini en los teléfonos Pixel 9. Aquí está la cita completa de Gruber:

Lo que haría si trabajara en Google es preparar una demostración en vivo de Google Gemini en un teléfono de píxeles haciendo exactamente lo que Apple mostró en el anuncio del año pasado en WWDC, y luego nuevamente en el comercial de televisión Bella Ramsey que Apple extrajo de YouTube. Algo como esto:

Presentador: Esta es una demostración en vivo, en mi Pixel 9. Necesito recoger a mi madre en el aeropuerto y me envió un correo electrónico con su información de vuelo. [Invokes Gemini on phone in hand…] Géminis, ¿cuándo aterriza el vuelo de mi madre?

GEMINI: El vuelo de tu madre llega a tiempo y llega a la OFS a las 11:30.

Presentador: No siempre recuerdo agregar cosas a mi calendario, por lo que me encanta que Géminis pueda ayudarme a realizar un seguimiento de los planes que he hecho en una conversación casual, como esta reserva de almuerzo que mi madre mencionó en un mensaje de texto. [Invokes Gemini…] ¿Cuál es nuestro plan de almuerzo?

GEMINI: Almorzarás en la barra de agua a las 12:30.

Presentador: ¿Cuánto tiempo nos llevará llegar desde el aeropuerto?

Gemini presenta una ventana emergente de Google Maps Directions que muestra que tomará 21 minutos.

Luego, haga otra demostración en vivo con la “¿Cuál es el nombre del tipo con el que tuve una reunión hace un par de meses en Cafe Grenel?” Ejemplo del comercial de inteligencia de Apple de Apple de Apple. Exactamente las mismas demos, pero reales: en vivo y en el escenario. Estas serían grandes demostraciones incluso si Apple nunca hubiera prometido entregarlas. Pero dado que Apple les prometió para este año, y ahora los ha retrasado hasta “el próximo año”, son devastadores si Google puede mostrarles que realmente trabajan en la línea original de Apple.

¿Puede Géminis hacer todo eso? El modelo actual puede proporcionar al menos parcialmente un comportamiento similar a lo que Apple imaginó para Siri. Géminis puede interactuar con su pantalla y decirle qué hay en ella (círculo para buscar). La IA también está integrada en aplicaciones de Google incorporadas en teléfonos píxeles, como Gmail, mensajes, calendario, mapas y fotos.

Además, Google acaba de anunciar más características de personalización que llegaron a Gemini, comenzando con la capacidad de la IA para ver sus datos de búsqueda de Google.

Personalización de Géminis: Géminis puede explorar su historial de búsqueda de Google si lo permite. Fuente de la imagen: Google

Me imagino que cualquier novela de IA que Google muestre en I/O 2025 llevaría a Gemini al siguiente nivel, especialmente si Android XR obtiene un tiempo suficiente en el show. Ese es el sistema operativo AI/AR de Google para gafas inteligentes y computadoras espaciales. Necesita que Gemini sea más personal y actúe como un verdadero asistente antes de poder lanzar gafas inteligentes con funcionalidad de IA avanzada.

Con todo eso en mente, Google puede y debe destruir la inteligencia de Apple en el escenario en E/S. Digo eso como fanático de Apple y alguien que no abandonará el iPhone o el chatgpt a favor de los teléfonos Pixel y Géminis. Apple tiene que sentir esta pérdida y lidiar con todas las consecuencias.

Pase lo que pase, estoy seguro de que Google no fingirá demostraciones de IA en E/S. Lo hizo con las primeras demostraciones de Géminis, y todos se dieron cuenta. Ya sea que se burle de Apple o no, Google seguramente organizará demostraciones en vivo de sus funciones de Pixel AI.

Además, no estoy seguro de que Google pueda burlarse de Apple, como sugiere Gruber sin dejar muy claro que son el iPhone y la inteligencia de Apple de la que se ríen.

Finalmente, también diré que todavía espero que Smart Siri esté disponible en iPhone, iPad y Mac en el futuro, y estoy dispuesto a esperar un tiempo más.