Noticias

Los altos ejecutivos de Binance, Ferrari y OpenAi para hablar el día 2-NBC 5 Dallas-Fort Worth

Published

5 días ago

12 marzo, 2025

Esta es la cubierta de blog en vivo de CNBC Converge en vivoun evento inaugural de liderazgo de pensamiento en Singapur.

SINGAPUR – Bienvenido al blog en vivo de CNBC sobre el segundo y último día de Converge Live en Singapur, donde los líderes empresariales, los inversores y los formuladores de políticas discutirán la Guerra Comercial Global de Brewing, las perspectivas para las criptomonedas y el negocio de los deportes.

El ex primer ministro del Reino Unido, David Cameron, comenzará los procedimientos en una charla junto al fuego a partir de las 9:40 am, hora de Singapur (1:40 am, hora de Londres / 9:40 pm ET). Se espera que Cameron discuta los desafíos para los líderes políticos en 2025, los avances en la IA y la incertidumbre de la política comercial de los EE. UU.

Algunos de los otros principales oradores programados para participar en el segundo día incluyen al CEO de Ferrari, Benedetto Vigna, el CEO de Binance, Richard Teng, Oliver Jay de Operai, y el CEO de Liv Golf, Scott O’Neil.

Las sesiones siguen un día de apertura lleno de acción.

El miércoles, el multimillonario del Fondo de cobertura de EE. UU., Ray Dalio, advirtió que los crecientes problemas de deuda de Estados Unidos podrían conducir a “desarrollos impactantes”, y el presidente del Grupo de Alibaba, Joe Tsai, dijo que las personas “subestiman la importancia” de una reunión reciente entre el presidente chino Xi Jinping y los empresarios.

Mientras tanto, el viceprimer ministro de Singapur, Gan Kim Yong, dijo que muchos en Asia estaban “observando con ansiedad” el mismo día en que entraron en vigencia los aranceles del 25% del presidente de los Estados Unidos sobre el acero y el aluminio.

Echa un vistazo a un resumen completo de la cobertura del miércoles aquí.

Los humanos que no abrazan la IA serán reemplazados por aquellos que lo hacen: agarrar CEO

El cofundador y CEO de Grab, Anthony Tan, está avanzando con la incorporación de IA en su negocio, y dijo que aquellos que no adoptan la tecnología eventualmente se quedará atrás.

“Los humanos que no abrazan la IA en una empresa serán reemplazados por humanos que abrazan la IA”, dijo el empresario de Malasia a Christine Tan en Converge Live en Singapur el miércoles.

La compañía, que es el viaje y super aplicación del sudeste asiático, ha incorporado la IA en la plataforma de entrenamiento Grab Academy, mientras que Tan mismo tiene un asistente personal de codificación de IA. “No puedo codificarme a mí mismo, pero lo uso para construir mis propios proyectos, para la investigación, para Grab”, dijo.

“Si lo abrazaras, no solo te hace sobrehumano, sino que hace que tu empresa sea sobrehumana”, dijo Tan sobre la adopción de AI.

Lea la historia completa aquí.

– Sawdah Bhaimiya, Ernestine Siu, Lucy Handley

Líderes tecnológicos en el futuro de la IA: estará ‘integrado en todo’

Los líderes tecnológicos intervinieron en el futuro de la inteligencia artificial, un tema candente en Converge de CNBC Live en Singapur el miércoles.

El presidente de Alibaba, Joe Tsai, habló sobre el impacto del modelo R1 de origen abierto de Deepseek de Deepseek en enero y dijo que ha llevado a una “proliferación de aplicaciones”.

“Creo que el llamado momento profundo no se trata de si China tiene una mejor IA que los Estados Unidos, o viceversa. Realmente se trata del poder del código abierto”, dijo.

El CEO de Salesforce, Marc Benioff, cuestionó las inversiones en centros de datos debido a IA como Deepseek. “Lo que acabas de ver con Deepseek, y también con Alibaba, con su modelo Qwen es que no necesitas este tipo de tecnología. Así que creo que tiene que ser repensado. ¿Exactamente qué estás haciendo y por qué estás haciendo esto?” Dijo sobre inversiones multimillonarias en centros de datos.

Mientras tanto, Dean Carignan, IA Innovations lidera en Microsoft, dijo que la IA puede quitarle el trabajo pesado “y permitir que el humano proporcione las cosas que solo una persona puede hacer: creatividad, innovación, construcción de coaliciones, inspiración, motivación de otros”, dijo.

La confianza es una consideración clave para Cisco, según el SVP Guy Diedrich. “No obtienes acceso a los datos [for AI] A menos que se le confíe, y la forma en que se confía … es proporcionar seguridad y ser transparente “, dijo a la audiencia convergente. En una” pareja “de años, la IA estará” incrustada en todo lo que hacemos “, agregó.

Ganesha Rasiah, directora de estrategia de HP, dijo que AI “eliminarán”. “Pero no prevemos un mundo en el que hay un nivel significativamente elevado de desempleo”, dijo.

Lea la historia completa aquí.

– Dylan Butts, Lucy Handley

‘Volatilidad y conflicto’: los líderes empresariales suenan advertencias sobre los aranceles

Las tarifas comerciales del presidente de los Estados Unidos, Donald Trump, son una preocupación importante entre los líderes empresariales estadounidenses e internacionales, y los titanes de la industria advierten sobre problemas por delante.

Hablando en Converge Live en Singapur de CNBC, el fundador de Bridgewater, Ray Dalio, dijo el miércoles: “Los aranceles causarán peleas entre países … No necesariamente estoy hablando de militares. Pero piense en nosotros, Canadá, México, China … habrá luchas, y eso tendrá consecuencias”.

Las tarifas del 25% de Trump sobre las importaciones de aluminio y acero entraron en vigencia el miércoles, mientras que los mercados estadounidenses han estado en agitación sobre los aranceles esta semana.

Mientras tanto, el CEO de Salesforce, Marc Benioff, describió la reciprocidad entre países como “buenos” si se tratan de la misma manera. Si no puede poner lo que y el cómo de una manera consistente, clara y significativa, entonces podría terminar con altos niveles de volatilidad y conflicto “, dijo Benioff.

Lea la historia completa aquí.

– Lucy Handley

¿Qué pasó el día 1 de Converge Live?

El viceprimer ministro de Singapur, Gan Kim Yong, inició los procedimientos en la inaugural Converge Live de CNBC.

En un primer día lleno de acción, Gan dijo que muchos en Asia estaban “observando con ansiedad” cuando entraron en vigencia los aranceles del 25% del presidente de los Estados Unidos sobre el acero y las importaciones de aluminio. Agregó, sin embargo, que la región sigue siendo un “faro de oportunidades de crecimiento”.

El multimillonario del Fondo de cobertura de EE. UU. Ray Dalio advirtió que los crecientes problemas de deuda de Estados Unidos podrían conducir a “desarrollos impactantes”, subrayando el problema es de “importancia primordial” para la economía más grande del mundo.

El CEO de Salesforce, Marc Benioff, dijo que el gigante del software en la nube tiene la intención de invertir $ 1 mil millones adicionales en Singapur en los próximos cinco años. La inversión está diseñada para acelerar la transformación digital del país y la adopción de la oferta de IA insignia de Salesforce.

Para obtener más aspectos destacados, eche un vistazo a la extensa cobertura de CNBC del primer día del evento.

– Sam Meredith

Noticias

Las barreras de desarrollador se reducen a medida que OpenAI simplifica la creación de agentes de IA

Published

41 minutos ago

17 marzo, 2025

Sergio Villanueva

Operai ha lanzado recientemente un conjunto de nuevas herramientas de desarrollador destinadas a facilitar la creación de agentes de IA que puedan realizar tareas complejas de forma autónoma. Anunciada la semana pasada, la actualización presenta una API de respuestas, un SDK de agentes de código abierto y herramientas incorporadas para la búsqueda web, la búsqueda de archivos y el control de la computadora, todos diseñados para optimizar cómo interactúan los sistemas de IA con información y aplicaciones del mundo real.

Operai describe a estos agentes como “sistemas que realizan de forma independiente las tareas en nombre de los usuarios”, lo que significa que pueden llevar a cabo procesos de varios pasos, como investigar un tema o actualizar una base de datos, con una orientación humana mínima. El objetivo de la compañía es reducir la barrera para que los desarrolladores y las empresas implementen poderosos asistentes impulsados por la IA, ampliando así la accesibilidad a las capacidades avanzadas de IA.

Respuestas API: Simplificar las interacciones del agente

En el corazón del anuncio de Operai se encuentra la nueva API de respuestas, que sirve como una interfaz unificada para construir agentes de IA. Esta API combina las habilidades de conversación de la API de finalización de chat de Openai con la funcionalidad de uso de herramientas de su API de asistentes anteriores. En términos prácticos, esto significa que una sola llamada API ahora puede manejar tareas complejas y de varios pasos que podrían implicar recurrir a varias herramientas o fuentes de conocimiento.

Operai dice que la API de respuestas fue construida para simplificar el desarrollo de agentes al reducir la necesidad de código personalizado y impermeabilizar. “La API de respuestas está diseñada para desarrolladores que desean combinar fácilmente los modelos Operai y las herramientas incorporadas en sus aplicaciones, sin la complejidad de integrar múltiples API o proveedores externos”. La compañía explicó en su publicación de blog de anuncios. Anteriormente, los desarrolladores a menudo tenían que orquestar múltiples llamadas de API y elaborar indicaciones elaboradas para que un agente de IA hiciera algo útil, lo que era desafiante y lento. Con la nueva API, un agente puede, por ejemplo, mantener una conversación con un usuario, la información de búsqueda a través de la búsqueda web, luego escribir un resumen, todo dentro de un flujo de trabajo.

En particular, la API de respuestas está disponible para todos los desarrolladores sin costo adicional más allá de las tarifas de uso estándar. También es compatible con retroceso: OpenAI confirmó que continuará apoyando su popular API de finalización de chat para casos de uso simples, mientras que la API de asistentes más antiguos se eliminará a mediados de 2026 a medida que sus características se doblen en la API de respuestas.

Agentes de código abierto SDK optimizaciones de flujo de trabajo Orquestación

El lanzamiento también incluye el SDK de los Agentes, un conjunto de herramientas para administrar los flujos de trabajo de uno o incluso múltiples agentes de IA interactuantes. En un movimiento notable, OpenAI ha realizado este código abierto SDK, permitiendo a los desarrolladores y empresas inspeccionar el código e incluso integrar modelos no openi en sus sistemas de agentes. Esta flexibilidad significa que una empresa podría coordinar un agente que utiliza el GPT-4 de OpenAI junto con otro agente impulsado por un modelo de IA diferente, todo dentro del mismo marco.

El SDK de los agentes se centra en la orquestación de flujo de trabajo, esencialmente, hacer un seguimiento de lo que está haciendo un agente y cómo entrega las tareas. Proporciona mecanismos incorporados para cosas como:

Agentes configurables: Configuración de agentes de IA con roles predefinidos o instrucciones para tareas específicas.
Transferencias inteligentes: Pasar tareas entre múltiples agentes o procesos basados en el contexto (por ejemplo, un agente que recopila datos, luego otro agente que lo analiza).
Guardacas por seguridad: Asegurar que el agente permanezca dentro de ciertos límites, con herramientas de validación de entrada y moderación de contenido para evitar salidas no deseadas.
Rastreo y observabilidad: Herramientas para monitorear y depurar las acciones de un agente paso a paso, lo que ayuda a los desarrolladores a comprender las decisiones y mejorar el rendimiento.

Según OpenAI, este conjunto de herramientas puede simplificar casos de uso complejos, como bots de atención al cliente, asistentes de investigación de varios pasos, flujos de trabajo de generación de contenido, agentes de revisión de código o automatización de prospección de ventas. Al emitir abierta el SDK, OpenAI también está alentando las contribuciones y la adopción de la comunidad en entornos empresariales, donde la transparencia y la capacidad de los componentes de autohospedas a menudo son importantes. Los primeros usuarios, incluidas compañías como Coinbase y Box, ya han experimentado con el SDK de los agentes para construir herramientas de investigación y extracción de datos con IA.

Las herramientas incorporadas mejoran la funcionalidad de IA

Para hacer que los agentes de IA fuera de casa fuera de la caja, la API de respuestas de OpenAI viene con tres herramientas incorporadas que conectan la IA con datos y acciones externas. Estas herramientas expanden significativamente lo que puede hacer un agente, yendo más allá de la generación de texto.

Las herramientas incorporadas disponibles en el lanzamiento son:

Búsqueda web: Permite que un agente de IA realice búsquedas web en tiempo real y recupere información actualizada, completa con fuentes citadas. Esto significa que un agente puede responder preguntas utilizando las últimas noticias o hechos de Internet, y proporcionar las referencias de transparencia. Esta herramienta es útil para agentes de construcción como asistentes de investigación, guías de compras o planificadores de viajes que necesitan información en vivo.
Búsqueda de archivos: Permite que un agente revise rápidamente a través de grandes colecciones de documentos o datos que un desarrollador ha proporcionado, para encontrar información relevante. Esto es esencialmente una herramienta de consulta de base de conocimiento privado: un agente podría usarlo para responder preguntas de atención al cliente buscando documentos de políticas o ayudar en la investigación legal al recuperar pasajes de una biblioteca de archivos. Esta herramienta se puede implementar en escenarios como bots de servicio al cliente o asistentes internos de la compañía que necesitan hacer referencia a información patentada.
Uso de la computadora: Una nueva capacidad (actualmente en la vista previa de la investigación) que permite que un agente de IA realice acciones en una computadora como si fuera un usuario humano que operaba la máquina. Impulsada por el modelo de agente de uso informático (CUA) de OpenAI, esta herramienta traduce las intenciones de la IA en acciones de teclado y mouse para navegar en software, sitios web u otras interfaces digitales. En esencia, permite la automatización de tareas que no tienen una API fácil, por ejemplo, ingresar datos en un sistema heredado, hacer clic en una aplicación web para probar o verificar información sobre una interfaz gráfica.

Al integrar estas herramientas, los agentes de IA no solo pueden pensar en un problema, sino también actuar, ya sea para buscar información, recuperar datos específicos o manipular un entorno digital. Esto extiende en gran medida la funcionalidad de un agente y la hace mucho más útil para las aplicaciones del mundo real.

Operai imagina que los desarrolladores combinarán estas herramientas según sea necesario; Por ejemplo, un agente podría usar la búsqueda web para recopilar información pública y búsqueda de archivos para extraer datos internos, luego usar ese conocimiento combinado para redactar un informe o ejecutar una tarea. Todo esto puede orquestarse a través de la API de respuestas de manera unificada, en lugar de requerir servicios separados o integración manual.

Implicaciones más amplias para la adopción y accesibilidad de la IA

Los analistas dicen que este lanzamiento podría acelerar la adopción de agentes de IA en todas las industrias al reducir los obstáculos técnicos. Para las empresas, el atractivo de estas nuevas herramientas es la capacidad de automatizar y escalar procesos sin un desarrollo personalizado extenso.

Las tareas de rutina, como la recuperación de información, el procesamiento de formularios o la entrada de datos de la aplicación cruzada, que podrían haber requerido una codificación significativa o múltiples sistemas de software, ahora pueden ser manejados potencialmente por agentes de IA utilizando los bloques de construcción de OpenAI. Las herramientas de búsqueda incorporadas, por ejemplo, permiten a las empresas enchufar IA en sus bases de datos de conocimiento o en la web casi al instante, y la herramienta de uso de computadora ofrece una forma de interactuar con aplicaciones heredadas que no tienen API. Mientras tanto, la naturaleza de código abierto de los agentes SDK le da a las empresas más control, lo que les permite integrar a estos agentes de IA en su infraestructura existente e incluso usar diferentes modelos de IA según sea necesario.

El movimiento de Operai es parte de una carrera más amplia para empoderar a los desarrolladores con capacidades de construcción de agentes. Las empresas tecnológicas y las nuevas empresas competitivas han estado implementando sus propias plataformas de agentes de IA, y el conjunto de herramientas integral de OpenAI puede ayudarlo a destacarse. De hecho, el momento se produce en medio de un aumento de interés en los agentes autónomos de IA a nivel mundial; por ejemplo, la startup china Monica recientemente llamó la atención con su agente Manus, alegando que podría superar al propio agente prototipo de Openii en ciertas tareas. Mediante las partes clave abiertas de su plataforma y ofreciendo herramientas incorporadas, OpenAi parece estar respondiendo a la presión competitiva al tiempo que fomenta una adopción más amplia de IA.

Desde el punto de vista de la accesibilidad, estas herramientas podrían democratizar quién puede construir sistemas de IA avanzados. Las empresas más pequeñas e incluso los desarrolladores individuales ahora pueden encontrar que es posible crear un asistente o flujo de trabajo impulsado por la IA sin necesidad de un gran equipo de investigación. El enfoque integrado (donde una llamada API puede manejar múltiples pasos) y la disponibilidad de ejemplos en la documentación de OpenAI reduce la barrera de entrada para los recién llegados. Operai también proporciona una interfaz de observabilidad para que los desarrolladores rastreen e inspeccionen lo que el agente está haciendo, lo cual es crucial para depurar y generar confianza en las salidas de IA. Se espera que este enfoque en la usabilidad y la seguridad (con barandillas y monitoreo) aliente a más empresas a experimentar con los agentes de IA, sabiendo que tienen supervisión y control.

Los agentes de IA podrían volverse tan comunes y esenciales como tener presencia en Internet. Las últimas herramientas de Openai, al hacer que el desarrollo de agentes sea más accesible, podría ayudar a convertir esa visión en realidad al permitir que una comunidad mucho más amplia de desarrolladores y organizaciones construya sus propios agentes.

Noticias

Chatgpt puede ayudar a escribir un ensayo. Los científicos quieren que comience a doblar la ropa

Published

4 horas ago

17 marzo, 2025

Sergio Villanueva

STANFORD, California. – La inteligencia artificial puede encontrarle una receta o generar una imagen, pero no puede colgar una imagen en una pared o cocinar su cena.

Chelsea Finn quiere que eso cambie. Finn, ingeniero e investigador de la Universidad de Stanford, cree que la IA puede estar en la cúspide de impulsar una nueva era en robótica.

“A largo plazo queremos desarrollar un software que permita a los robots operar de manera inteligente en cualquier situación”, dice ella.

Una compañía que cofundó ya ha demostrado un robot AI de uso general que puede doblar la ropa, entre otras tareas. Otros investigadores han demostrado el potencial de IA para mejorar la capacidad de los robots para hacer todo, desde clasificación de paquetes hasta carreras de drones. Y Google acaba de dar a conocer

Un robot con IA que podría empacar un almuerzo.

Pero la comunidad de investigación se divide sobre si las herramientas generativas de IA pueden transformar la robótica de la forma en que han transformado algún trabajo en línea. Los robots requieren datos del mundo real y enfrentan problemas mucho más difíciles que los chatbots.

“Los robots no se convertirán de repente en este sueño de ciencia ficción de la noche a la mañana”, dice Ken Goldberg, profesor de UC Berkeley. “Es realmente importante que la gente entienda eso, porque todavía no estamos allí”.

Sueños y decepción

Hay menos partes de la ciencia e ingeniería que tienen una mayor brecha entre la expectativa y la realidad que la robótica. La misma palabra “robot” fue acuñado por Karel čapek, un escritor de Czeck que, en la década de 1920, escribió una obra que imaginaba seres humanos que podían llevar a cabo cualquier tarea que su dueño ordenara.

En realidad, los robots han tenido muchos problemas para hacer trabajos triviales. Las máquinas están en su mejor momento cuando realizan movimientos altamente repetitivos en un entorno cuidadosamente controlado, por ejemplo, en una línea de ensamblaje automotriz dentro de una fábrica, pero el mundo está lleno de obstáculos inesperados y objetos poco comunes.

En el Laboratorio de Finn en la Universidad de Stanford, el estudiante graduado Moo Jin Kim demuestra cómo los robots con AI al menos tienen el potencial de solucionar algunos de esos problemas. Kim ha estado desarrollando un programa llamado “OpenVLA

“Que significa visión, lenguaje, acción.

“Es un paso en la dirección de ChatGPT para la robótica, pero todavía hay mucho trabajo por hacer”, dice.

Moo Jin Kim establece un robot a IA en la Universidad de Stanford.

El robot en sí parece bastante poco notable, solo un par de brazos mecánicos con pinzas. Lo que lo hace diferente es lo que hay dentro. Los robots regulares deben estar cuidadosamente programados. Un ingeniero tiene que escribir instrucciones detalladas para cada tarea. Pero este robot funciona con una red neuronal de IA enseñable. La red neuronal opera cómo los científicos creen que el cerebro humano podría funcionar: los “nodos” matemáticos en la red tienen miles de millones de conexiones entre sí de una manera similar a la forma en que las neuronas en el cerebro están conectadas. “Programación” de este tipo de red se trata simplemente de reforzar las conexiones que importan y debilitar las que no lo hacen.

En la práctica, esto significa que Kim puede entrenar al modelo OpenVLA cómo hacer un montón de tareas diferentes, simplemente mostrándolo.

Se unen al robot un par de joysticks que controlan cada brazo. Para entrenarlo, un operador humano usa los joysticks para “titiriteros” al robot, ya que hace una tarea deseada.

“Básicamente, me gusta la tarea que quieras que hagas, sigues haciéndolo una y otra vez como 50 veces o 100 veces”, dice.

Esa repetición es todo lo que se requiere. Las conexiones entre nodos en la red neuronal de IA del robot se refuerzan cada vez que se muestra la acción. Pronto puede repetir la tarea sin el titiritero.

Para demostrar, Kim saca una bandeja de diferentes tipos de mezcla de senderos. Ya lo ha enseñado a recoger. Ahora quiero parte de la mezcla que tiene M&M y nueces verdes, y todo lo que tengo que hacer es preguntar.

“Saca algunos verdes con las nueces en el tazón”, escribo. Muy lentamente, los brazos del robot se ponen en acción.

En una feed de video, Openvla coloca una estrella sobre el contenedor correcto. Eso significa que la primera parte del modelo, que tiene que tomar mi texto e interpretar su significado visualmente, ha funcionado correctamente.

No siempre, dice Kim. “Esa es la parte en la que aguantamos la respiración”.

Luego, lentamente, vacilante, se extiende con su garra, toma la primicia y obtiene la mezcla de senderos.

“¡Parece que está funcionando!” dice Kim con entusiasmo.

Es una cucharada muy pequeña. Pero una cucharada en la dirección correcta.

Cualquier cosa bots

El investigador de Stanford, Chelsea Finn, ha cofundado una empresa en San Francisco llamada inteligencia física

que busca llevar este enfoque de entrenamiento al siguiente nivel.

Ella imagina un mundo en el que los robots pueden adaptarse rápidamente para hacer trabajos simples, como hacer un sándwich o reabastecer en los estantes de comestibles. Contrariamente al pensamiento actual sobre robótica, sospecha que la mejor manera de llegar allí podría ser capacitar a un solo modelo para hacer muchas tareas diferentes.

“De hecho, pensamos que tratar de desarrollar sistemas generalistas tendrá más éxito que tratar de desarrollar un sistema que haga una cosa muy, muy bien”, dice ella.

La inteligencia física ha desarrollado una red neuronal de IA que puede doblar la ropa, recoger granos de café y ensamblar una caja de cartón, aunque la red neuronal que le permite hacer todas esas cosas es demasiado poderosa para estar físicamente en el robot mismo.

“En ese caso, teníamos una estación de trabajo que estaba en el apartamento que calculaba las acciones y luego las envía a través de la red al robot”, dice ella.

Pero el siguiente paso, compilar datos de capacitación para su programa Robot AI, es una tarea mucho más difícil que simplemente recopilar texto de Internet para entrenar un chatbot.

“Esto es realmente difícil”, reconoce Finn. “No tenemos un Internet abierto de datos de robots, por lo que a menudo se trata de recopilar los datos nosotros mismos sobre los robots”.

Aún así, Finn cree que es factible. Además de los entrenadores humanos, los robots también pueden intentar repetidamente hacer tareas por su cuenta y rápidamente desarrollar su base de conocimiento, dice ella.

Dilema de datos

Pero Ken Goldberg de Berkley es más escéptico de que la brecha del mundo real se pueda unir rápidamente. Los chatbots de IA han mejorado enormemente en los últimos años porque han tenido una gran cantidad de datos para aprender. De hecho, han recogido casi todo el Internet para entrenar a sí mismos cómo escribir oraciones y dibujar imágenes.

Ken Goldberg, cofundador de Ambi Robotics y profesor en UC Berkeley.

Simplemente construir los datos del mundo real de un mundo de Internet para robots va a ir mucho más lentamente. “A este ritmo actual, tomaremos 100,000 años obtener tantos datos”, dice.

“Diría que estos modelos no van a funcionar de la manera en que están siendo entrenados hoy”, está de acuerdo Pulkit Agrawal, un investigador de robótica en el MIT.

Agrawal es un defensor de la simulación: poner la red neuronal de IA que ejecuta el robot en un mundo virtual y permite que repita tareas una y otra vez.

“El poder de la simulación es que podemos recopilar cantidades muy grandes de datos”, dice. “Por ejemplo, en tres horas de simulación podemos recopilar 100 días de datos”.

Ese enfoque funcionó bien para los investigadores en Suiza que recientemente entrenaron un dron

Cómo competir colocando su cerebro con IA en un simulador y pasando a través de un curso preestablecido una y otra vez. Cuando entró en el mundo real, pudo volar el curso más rápido y mejor que un oponente humano hábil, al menos parte del tiempo.

Pero la simulación tiene sus inconvenientes. El dron funcionó bastante bien para un curso interior. Pero no podía manejar nada que no estaba simulado (viento, lluvia o luz solar, podría arrojar el dron del curso.

Y volar y caminar son tareas relativamente simples para simular. Goldberg dice que realmente recoger objetos o realizar otras tareas manuales que los humanos encuentran que son completamente sencillos son mucho más difíciles de replicar en una computadora. “Básicamente, no hay un simulador que pueda modelar con precisión la manipulación”, dice.

Agarrando el problema

Algunos investigadores piensan que incluso si el problema de los datos puede superarse, los problemas más profundos pueden darle a los robots de IA.

“En mi opinión, la pregunta no es, ¿tenemos suficientes datos … es más lo que es el encuadre del problema”, dice Matthew Johnson-Roberson, investigador de la Universidad Carnegie Mellon en Pittsburgh.

Johnson-Roberson dice que a pesar de todas las increíbles habilidades que muestran los chatbots, la tarea que se les pide que hagan es relativamente simple: mira lo que un usuario humano tipos y luego intenta predecir las próximas palabras que el usuario quiere ver. Los robots tendrán que hacer mucho más que simplemente componer una oración.

“La siguiente mejor predicción de palabras funciona muy bien y es un problema muy simple porque solo está prediciendo la próxima palabra”, dice. Moverse a través del espacio y el tiempo para ejecutar una tarea es un conjunto mucho más grande de variables para que una red neuronal intente procesar.

“No está claro en este momento que puedo tomar 20 horas de imágenes de Go-Pro y producir algo sensato con respecto a cómo un robot se mueve en el mundo”, dice.

Johnson-Roberson dice que cree que se debe hacer una investigación más fundamental sobre cómo las redes neuronales pueden procesar mejor el espacio y el tiempo. Y advierte que el campo debe tener cuidado porque la robótica ha sido quemada antes, por la carrera para construir autos autónomos.

“Tanta capital se apresuró tan rápido”, dice. “Incentivó a las personas para hacer promesas en una línea de tiempo que no podrían cumplir”. Gran parte de la capital dejó el campo, y todavía hay problemas fundamentales para los autos sin conductor que permanecen sin resolver.

Aún así, incluso los escépticos creen que la robótica será cambiada para siempre por AI. Goldberg ha cofundado una compañía de clasificación de paquetes llamada Ambi Robotics que lanzó un nuevo sistema impulsado por la IA conocido como Prime-1 a principios de este año. Utiliza IA para identificar los mejores puntos para que un brazo robótico recoja un paquete. Una vez que tiene el punto de selección establecido por la IA, el brazo, que está controlado por una programación más convencional, hace el agarre.

El nuevo sistema ha reducido drásticamente la cantidad de veces que se eliminan los paquetes, dice. Pero él agrega con una sonrisa: “Si pones esto frente a una pila de ropa, no va a saber qué hacer con eso”.

De vuelta en Stanford, Chelsea Finn dice que está de acuerdo en que las expectativas deben mantenerse bajo control.

“Creo que todavía hay un largo camino para que la tecnología vaya”, dice ella. Tampoco espera que los robots universales reemplacen por completo el trabajo humano, especialmente por tareas complejas.

Pero en un mundo con poblaciones de envejecimiento y escasez de mano de obra proyectada, cree que los robots propulsados por IA podrían cerrar parte de la brecha.

“Estoy imaginando que esto realmente será algo que aumente a las personas y ayude a las personas”, dice ella.

Noticias

¿Puede el Pixel 9 hacer lo que la IA de iPhone no puede?

Published

5 horas ago

17 marzo, 2025

Sergio Villanueva

Soy un usuario de iPhone desde hace mucho tiempo que también está interesado en experiencias de IA como ChatGPT. Hasta la semana pasada, estaba bien con que Apple estuviera detrás de rivales con sus características de inteligencia de Apple. También estaba de acuerdo con esperar a que Apple despliegue sus funciones de IA en Europa.

Pero resulta que la función de inteligencia de Apple que más esperaba, la Siri más inteligente, es Vaporware. De repente, la brecha entre Apple y sus rivales es increíblemente grande.

El paso en falso de AI de Apple es fácilmente el balón suelto más grande de la tecnología de IA desde que ChatGPT se volvió viral a fines de 2022. Las descripción general de la IA de búsqueda de Google, recomendando el pegamento en la pizza, parece una falla menor en comparación. Ojalá Siri Ai pudiera cometer tales errores.

No mencioné a Google accidentalmente. Géminis es una gran victoria para la compañía a la luz del desastre de inteligencia de Apple. Dado el plomo masivo de Google, Gemini siempre fue el producto superior. Pero Apple entregó una visión en WWDC 2024 que ni siquiera Google podría coincidir.

Todas las soluciones generativas de software de IA están llegando a un lugar donde la IA se comporta cada vez más como un asistente personal, donde los agentes de IA hacen cosas en su nombre. Eso fue lo que Apple dijo que Siri haría en iOS 18. Después de la semana pasada, no está claro si tendremos que esperar hasta iOS 19, iOS 20 o más tarde para ese tipo de funcionalidad Siri avanzada en la inteligencia de Apple.

Es por eso que estoy de acuerdo con la toma de John Gruber que Google tiene una oportunidad masiva y potencialmente única de humillar a Apple Intelligence en E/S 2025 en mayo sin mencionar nunca a Apple, el iPhone o la inteligencia de Apple por su nombre. También debería hacerlo totalmente.

Te he dicho durante años cómo el iPhone era esencialmente la Estrella del Norte de Google al diseñar el Pixel. Google a menudo criticaba el iPhone de Apple solo para repetir la misma jugada cuando se trataba de píxeles de próxima generación.

Pero Google ha encontrado lentamente su identidad, y la adición de Géminis ciertamente hace que los teléfonos Pixel sean más convincentes que nunca. Escribí en agosto pasado que el Pixel 9 es la mejor arma de Google contra Apple Intelligence, una granja María contra los iPhones de IA que se acercaban.

Características de Google Gemini disponibles en Pixel 9, Pixel Watch 3 y Pixel Buds Pro 2 en agosto de 2024. Imagen Fuente: Google

Google subió el lanzamiento de Pixel 9 por dos meses para vencer a Apple Intelligence al mercado. Le expliqué cómo la serie Pixel 9 aprovechó un error de cálculo de hardware de Big Apple. Apple Intelligence nos trajo la mayor fragmentación en la historia de iOS, al menos en papel. Los teléfonos como los modelos no profesionales del iPhone 15 no fueron buenos para la IA de Apple.

Esta fragmentación niveló el campo de juego para Google. El Pixel 9 tuvo una gran oportunidad de impresionar a los compradores con características de IA antes de que llegara Apple Intelligence Iphones.

Después de la semana pasada, está claro que Google es el gran ganador cuando se trata de funciones de IA incorporadas en teléfonos. La fragmentación de iOS ni siquiera importa dado que Apple Intelligence, ya que ahora está en iPhone, significa poco para los usuarios de iPhone 15 Pro y iPhone 16. Mientras tanto, el Pixel 9 tiene características de IA incorporadas mucho mejores que Google sigue perfeccionando.

Espero que E/S 2025 se concentre en gran medida en los planes de IA de próxima generación de Google. Eso es lo que sucedió el año pasado y el año anterior. AI es en gran medida la charla de la ciudad en tecnología. Géminis podría ser mucho mejor que la inteligencia de Apple, pero todavía no es la primera IA que viene a la mente. Ese rol todavía está reservado para ChatGPT, mi software Genai en este momento.

Google bien podría alcanzar los problemas de IA de Apple durante la presentación, y Gruber tuvo la mejor manera para que Google lo hiciera. La compañía podría replicar las demostraciones inteligentes de Siri de Apple de WWDC 2024, pero hacerlo con el software Gemini en los teléfonos Pixel 9. Aquí está la cita completa de Gruber:

Lo que haría si trabajara en Google es preparar una demostración en vivo de Google Gemini en un teléfono de píxeles haciendo exactamente lo que Apple mostró en el anuncio del año pasado en WWDC, y luego nuevamente en el comercial de televisión Bella Ramsey que Apple extrajo de YouTube. Algo como esto:

Presentador: Esta es una demostración en vivo, en mi Pixel 9. Necesito recoger a mi madre en el aeropuerto y me envió un correo electrónico con su información de vuelo. [Invokes Gemini on phone in hand…] Géminis, ¿cuándo aterriza el vuelo de mi madre?

GEMINI: El vuelo de tu madre llega a tiempo y llega a la OFS a las 11:30.

Presentador: No siempre recuerdo agregar cosas a mi calendario, por lo que me encanta que Géminis pueda ayudarme a realizar un seguimiento de los planes que he hecho en una conversación casual, como esta reserva de almuerzo que mi madre mencionó en un mensaje de texto. [Invokes Gemini…] ¿Cuál es nuestro plan de almuerzo?

GEMINI: Almorzarás en la barra de agua a las 12:30.

Presentador: ¿Cuánto tiempo nos llevará llegar desde el aeropuerto?

Gemini presenta una ventana emergente de Google Maps Directions que muestra que tomará 21 minutos.

Luego, haga otra demostración en vivo con la “¿Cuál es el nombre del tipo con el que tuve una reunión hace un par de meses en Cafe Grenel?” Ejemplo del comercial de inteligencia de Apple de Apple de Apple. Exactamente las mismas demos, pero reales: en vivo y en el escenario. Estas serían grandes demostraciones incluso si Apple nunca hubiera prometido entregarlas. Pero dado que Apple les prometió para este año, y ahora los ha retrasado hasta “el próximo año”, son devastadores si Google puede mostrarles que realmente trabajan en la línea original de Apple.

¿Puede Géminis hacer todo eso? El modelo actual puede proporcionar al menos parcialmente un comportamiento similar a lo que Apple imaginó para Siri. Géminis puede interactuar con su pantalla y decirle qué hay en ella (círculo para buscar). La IA también está integrada en aplicaciones de Google incorporadas en teléfonos píxeles, como Gmail, mensajes, calendario, mapas y fotos.

Además, Google acaba de anunciar más características de personalización que llegaron a Gemini, comenzando con la capacidad de la IA para ver sus datos de búsqueda de Google.

Personalización de Géminis: Géminis puede explorar su historial de búsqueda de Google si lo permite. Fuente de la imagen: Google

Me imagino que cualquier novela de IA que Google muestre en I/O 2025 llevaría a Gemini al siguiente nivel, especialmente si Android XR obtiene un tiempo suficiente en el show. Ese es el sistema operativo AI/AR de Google para gafas inteligentes y computadoras espaciales. Necesita que Gemini sea más personal y actúe como un verdadero asistente antes de poder lanzar gafas inteligentes con funcionalidad de IA avanzada.

Con todo eso en mente, Google puede y debe destruir la inteligencia de Apple en el escenario en E/S. Digo eso como fanático de Apple y alguien que no abandonará el iPhone o el chatgpt a favor de los teléfonos Pixel y Géminis. Apple tiene que sentir esta pérdida y lidiar con todas las consecuencias.

Pase lo que pase, estoy seguro de que Google no fingirá demostraciones de IA en E/S. Lo hizo con las primeras demostraciones de Géminis, y todos se dieron cuenta. Ya sea que se burle de Apple o no, Google seguramente organizará demostraciones en vivo de sus funciones de Pixel AI.

Además, no estoy seguro de que Google pueda burlarse de Apple, como sugiere Gruber sin dejar muy claro que son el iPhone y la inteligencia de Apple de la que se ríen.

Finalmente, también diré que todavía espero que Smart Siri esté disponible en iPhone, iPad y Mac en el futuro, y estoy dispuesto a esperar un tiempo más.