Connect with us

Noticias

El agente chino de IA Manus es una llamada de atención a las empresas tecnológicas estadounidenses

Published

on

Los modelos modernos de idiomas grandes son realmente buenos en muchas tareas, como codificación, redacción de ensayos, traducción e investigación. Pero todavía hay muchas tareas básicas, especialmente en el reino del “Asistente Personal”, en los que los AIS más altamente capacitados del mundo permanecen desesperados.

No puedes preguntarle a Chatgpt o Claude “Pídeme un burrito de Chipotle” y obtenga uno, y mucho menos “Reserve un tren de Nueva York a Filadelfia”. Operai y Anthrope ofrecen AIS que pueden ver su pantalla, mover su cursor y hacer algunas cosas en su computadora como si fueran una persona (a través de sus funciones de “operador” y “uso de computadora”, respectivamente).

Regístrese aquí para explorar los grandes y complicados problemas que enfrenta el mundo y las formas más eficientes de resolverlos. Enviado dos veces por semana.

Que tales “agentes de IA” a veces funcionen, más o menos, se trata de lo más fuerte que puedes decir para ellos en este momento. (Divulgación: Vox Media es uno de los varios editores que ha firmado acuerdos de asociación con OpenAI. Uno de los primeros inversores de Anthrope es James McClave, cuya fundación BEMC ayuda a financiar el futuro perfecto. Nuestro informe sigue siendo editorialmente independiente).

Esta semana, China lanzó un competidor: el agente de IA Manus. Produjo una tormenta de nieve de publicaciones y testimonios brillantes de influencers altamente seleccionados, junto con algunas impresionantes demostraciones del sitio web.

Manus es solo por invitación (y aunque presenté una solicitud para la herramienta, no se ha otorgado), por lo que es difícil saber desde el exterior cuán representativos son estos ejemplos altamente seleccionados. Sin embargo, después de unos días de fervor de Manus, la burbuja apareció un poco y algunas críticas más moderadas comenzaron a salir.

Manus, sostiene el creciente consenso, es peor que la investigación profunda de Openai en las tareas de investigación; Pero mejor que el uso del operador o la computadora en las tareas del asistente personal. Es un paso adelante hacia algo importante, AIS que puede tomar medidas más allá de la ventana de chatbot, pero no es un avance impactante fuera de la nada.

Quizás lo más importante es que la utilidad de Manus para usted estará muy limitada si no confía en una empresa china de la que nunca ha oído hablar con su información de pago para que pueda reservar cosas en su nombre. Y probablemente no deberías.

Cuando escribí por primera vez sobre los riesgos de los poderosos sistemas de IA que desplazan o destruyen la humanidad, una pregunta muy razonable fue esta: ¿cómo podría una IA actuar contra la humanidad, cuando realmente no lo hacen? acto ¿en absoluto?

Este razonamiento es correcto, en lo que respecta a la tecnología actual. Claude o Chatgpt, que solo responden a las indicaciones del usuario y no actúan de forma independiente en el mundo, no pueden ejecutar en un plan a largo plazo; Todo lo que hacen es en respuesta a un aviso, y casi toda esa acción tiene lugar dentro de la ventana de chat.

Pero la IA nunca iba a permanecer como una herramienta puramente receptiva simplemente porque hay mucho potencial para obtener ganancias en los agentes. Las personas han estado tratando de crear AIS que se construyen con modelos de idiomas, pero que toman decisiones de forma independiente, para que las personas puedan relacionarse con ellos más como un empleado o un asistente que como un chatbot.

En general, esto funciona creando una pequeña jerarquía interna de modelos de idiomas, como una pequeña compañía de IA. Uno de los modelos se solicita cuidadosamente y, en algunos casos, ajustado a hacer una planificación a gran escala. Se le ocurre un plan a largo plazo, que delega a otros modelos de idiomas. Varios subgententes verifican sus resultados y los enfoques de cambio cuando un subagente falla o informa problemas.

El concepto es simple, y Manus está lejos de ser el primero en probarlo. Quizás recuerde que el año pasado tuvimos a Devin, que fue comercializado como empleado de ingeniería de software junior. Era un agente de IA con el que interactuó a través de la holgura para dar tareas, y que luego funcionaría para lograr sin más información humana, excepto, idealmente, del tipo que un empleado humano podría necesitar ocasionalmente.

Los incentivos económicos para construir algo como Manus o Devin son abrumadores. Las compañías tecnológicas pagan a los ingenieros de software junior hasta $ 100,000 al año o más. Una IA que en realidad podría proporcionar ese valor sería asombrosamente rentable. Agentes de viajes, desarrolladores del plan de estudios, asistentes personales: todos estos son trabajos bastante bien pagados, y un agente de IA podría, en principio, poder hacer el trabajo a una fracción del costo, sin necesidad de descansos, beneficios o vacaciones.

Pero Devin resultó ser sobrevalorado, y no funcionó lo suficientemente bien para el mercado al que apuntaba. Es demasiado pronto para decir si Manus representa un avance suficiente para tener un poder de permanencia comercial real, o si, como Devin, su alcance excederá su alcance.

Diré que parece que Manus funciona mejor que cualquier cosa que haya venido antes. Pero trabajar mejor no es suficiente: para confiar en una IA para gastar su dinero o planificar sus vacaciones, necesitará una confiabilidad extremadamente alta. Mientras Manus permanezca muy limitado en disponibilidad, es difícil decir si podrá ofrecer eso. Mi mejor suposición es que los agentes de IA que funcionan sin problemas todavía están a uno o dos años de distancia, pero a solo un año o dos.

Manus no es solo el último y mejor intento de un agente de IA.

También es el producto de una empresa china, y gran parte de la cobertura se ha mantenido en el ángulo chino. Manus es claramente una prueba de que las empresas chinas no solo imitan lo que se está construyendo aquí en Estados Unidos, ya que a menudo han sido acusados ​​de hacer, sino mejorarlo.

Esa conclusión no debería ser impactante para cualquiera que sea consciente del intenso interés de China en la IA. También plantea preguntas sobre si seremos reflexivos sobre la exportación de todos nuestros datos personales y financieros a empresas chinas que no son responsables significativamente ante los reguladores de los Estados Unidos o la ley estadounidense.

La instalación de Manus en su computadora le da mucho acceso a su computadora: es difícil para mí descubrir los límites exactos en su acceso o la seguridad de su Sandbox cuando no puedo instalarlo yo mismo.

Una cosa que hemos aprendido en los debates de privacidad digital es que muchas personas harán esto sin pensar en las implicaciones si sienten que Manus les ofrece suficiente conveniencia. Y como la pelea de Tiktok dejó en claro, una vez que millones de estadounidenses aman una aplicación, el gobierno enfrentará una fuerte batalla cuesta arriba al tratar de restringirla u obligarlo a seguir las reglas de privacidad de los datos.

Pero también hay razones claras por las que Manus salió de una empresa china y no de, por ejemplo, meta, y son las mismas razones por las que podríamos preferir usar agentes de IA de Meta. Meta está sujeto a la ley de responsabilidad estadounidense. Si su agente comete un error y gasta todo su dinero en el alojamiento del sitio web, o si roba su bitcoin o carga sus fotos privadas, Meta probablemente será responsable. Por todas estas razones, Meta (y sus competidores estadounidenses) están siendo cautelosos en este ámbito.

Creo que la precaución es apropiada, incluso porque puede ser insuficiente. Construir agentes que actúan de forma independiente en Internet es un gran problema, uno que plantea grandes preguntas de seguridad, y me gustaría que tengamos un marco legal sólido sobre lo que pueden hacer y quién es en última instancia responsable.

Pero lo peor de todos los mundos posibles es un estado de incertidumbre que castiga la precaución y alienta a todos a administrar agentes que no tienen responsabilidad en absoluto. Tenemos uno o dos años para descubrir cómo hacerlo mejor. Esperemos que Manus nos impulse a trabajar no solo en la construcción de esos agentes, sino también en construir el marco legal que los mantendrá a salvo.

Una versión de esta historia apareció originalmente en el Futuro perfecto hoja informativa. ¡Regístrese aquí!

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Las barreras de desarrollador se reducen a medida que OpenAI simplifica la creación de agentes de IA

Published

on

Operai ha lanzado recientemente un conjunto de nuevas herramientas de desarrollador destinadas a facilitar la creación de agentes de IA que puedan realizar tareas complejas de forma autónoma. Anunciada la semana pasada, la actualización presenta una API de respuestas, un SDK de agentes de código abierto y herramientas incorporadas para la búsqueda web, la búsqueda de archivos y el control de la computadora, todos diseñados para optimizar cómo interactúan los sistemas de IA con información y aplicaciones del mundo real.

Operai describe a estos agentes como “sistemas que realizan de forma independiente las tareas en nombre de los usuarios”, lo que significa que pueden llevar a cabo procesos de varios pasos, como investigar un tema o actualizar una base de datos, con una orientación humana mínima. El objetivo de la compañía es reducir la barrera para que los desarrolladores y las empresas implementen poderosos asistentes impulsados ​​por la IA, ampliando así la accesibilidad a las capacidades avanzadas de IA.

Respuestas API: Simplificar las interacciones del agente

En el corazón del anuncio de Operai se encuentra la nueva API de respuestas, que sirve como una interfaz unificada para construir agentes de IA. Esta API combina las habilidades de conversación de la API de finalización de chat de Openai con la funcionalidad de uso de herramientas de su API de asistentes anteriores. En términos prácticos, esto significa que una sola llamada API ahora puede manejar tareas complejas y de varios pasos que podrían implicar recurrir a varias herramientas o fuentes de conocimiento.

Operai dice que la API de respuestas fue construida para simplificar el desarrollo de agentes al reducir la necesidad de código personalizado y impermeabilizar. “La API de respuestas está diseñada para desarrolladores que desean combinar fácilmente los modelos Operai y las herramientas incorporadas en sus aplicaciones, sin la complejidad de integrar múltiples API o proveedores externos”. La compañía explicó en su publicación de blog de anuncios. Anteriormente, los desarrolladores a menudo tenían que orquestar múltiples llamadas de API y elaborar indicaciones elaboradas para que un agente de IA hiciera algo útil, lo que era desafiante y lento. Con la nueva API, un agente puede, por ejemplo, mantener una conversación con un usuario, la información de búsqueda a través de la búsqueda web, luego escribir un resumen, todo dentro de un flujo de trabajo.

En particular, la API de respuestas está disponible para todos los desarrolladores sin costo adicional más allá de las tarifas de uso estándar. También es compatible con retroceso: OpenAI confirmó que continuará apoyando su popular API de finalización de chat para casos de uso simples, mientras que la API de asistentes más antiguos se eliminará a mediados de 2026 a medida que sus características se doblen en la API de respuestas.

Agentes de código abierto SDK optimizaciones de flujo de trabajo Orquestación

El lanzamiento también incluye el SDK de los Agentes, un conjunto de herramientas para administrar los flujos de trabajo de uno o incluso múltiples agentes de IA interactuantes. En un movimiento notable, OpenAI ha realizado este código abierto SDK, permitiendo a los desarrolladores y empresas inspeccionar el código e incluso integrar modelos no openi en sus sistemas de agentes. Esta flexibilidad significa que una empresa podría coordinar un agente que utiliza el GPT-4 de OpenAI junto con otro agente impulsado por un modelo de IA diferente, todo dentro del mismo marco.

El SDK de los agentes se centra en la orquestación de flujo de trabajo, esencialmente, hacer un seguimiento de lo que está haciendo un agente y cómo entrega las tareas. Proporciona mecanismos incorporados para cosas como:

  • Agentes configurables: Configuración de agentes de IA con roles predefinidos o instrucciones para tareas específicas.
  • Transferencias inteligentes: Pasar tareas entre múltiples agentes o procesos basados ​​en el contexto (por ejemplo, un agente que recopila datos, luego otro agente que lo analiza).
  • Guardacas por seguridad: Asegurar que el agente permanezca dentro de ciertos límites, con herramientas de validación de entrada y moderación de contenido para evitar salidas no deseadas.
  • Rastreo y observabilidad: Herramientas para monitorear y depurar las acciones de un agente paso a paso, lo que ayuda a los desarrolladores a comprender las decisiones y mejorar el rendimiento.

Según OpenAI, este conjunto de herramientas puede simplificar casos de uso complejos, como bots de atención al cliente, asistentes de investigación de varios pasos, flujos de trabajo de generación de contenido, agentes de revisión de código o automatización de prospección de ventas. Al emitir abierta el SDK, OpenAI también está alentando las contribuciones y la adopción de la comunidad en entornos empresariales, donde la transparencia y la capacidad de los componentes de autohospedas a menudo son importantes. Los primeros usuarios, incluidas compañías como Coinbase y Box, ya han experimentado con el SDK de los agentes para construir herramientas de investigación y extracción de datos con IA.

Las herramientas incorporadas mejoran la funcionalidad de IA

Para hacer que los agentes de IA fuera de casa fuera de la caja, la API de respuestas de OpenAI viene con tres herramientas incorporadas que conectan la IA con datos y acciones externas. Estas herramientas expanden significativamente lo que puede hacer un agente, yendo más allá de la generación de texto.

Las herramientas incorporadas disponibles en el lanzamiento son:

  • Búsqueda web: Permite que un agente de IA realice búsquedas web en tiempo real y recupere información actualizada, completa con fuentes citadas. Esto significa que un agente puede responder preguntas utilizando las últimas noticias o hechos de Internet, y proporcionar las referencias de transparencia. Esta herramienta es útil para agentes de construcción como asistentes de investigación, guías de compras o planificadores de viajes que necesitan información en vivo.
  • Búsqueda de archivos: Permite que un agente revise rápidamente a través de grandes colecciones de documentos o datos que un desarrollador ha proporcionado, para encontrar información relevante. Esto es esencialmente una herramienta de consulta de base de conocimiento privado: un agente podría usarlo para responder preguntas de atención al cliente buscando documentos de políticas o ayudar en la investigación legal al recuperar pasajes de una biblioteca de archivos. Esta herramienta se puede implementar en escenarios como bots de servicio al cliente o asistentes internos de la compañía que necesitan hacer referencia a información patentada.
  • Uso de la computadora: Una nueva capacidad (actualmente en la vista previa de la investigación) que permite que un agente de IA realice acciones en una computadora como si fuera un usuario humano que operaba la máquina. Impulsada por el modelo de agente de uso informático (CUA) de OpenAI, esta herramienta traduce las intenciones de la IA en acciones de teclado y mouse para navegar en software, sitios web u otras interfaces digitales. En esencia, permite la automatización de tareas que no tienen una API fácil, por ejemplo, ingresar datos en un sistema heredado, hacer clic en una aplicación web para probar o verificar información sobre una interfaz gráfica.

Al integrar estas herramientas, los agentes de IA no solo pueden pensar en un problema, sino también actuar, ya sea para buscar información, recuperar datos específicos o manipular un entorno digital. Esto extiende en gran medida la funcionalidad de un agente y la hace mucho más útil para las aplicaciones del mundo real.

Operai imagina que los desarrolladores combinarán estas herramientas según sea necesario; Por ejemplo, un agente podría usar la búsqueda web para recopilar información pública y búsqueda de archivos para extraer datos internos, luego usar ese conocimiento combinado para redactar un informe o ejecutar una tarea. Todo esto puede orquestarse a través de la API de respuestas de manera unificada, en lugar de requerir servicios separados o integración manual.

Implicaciones más amplias para la adopción y accesibilidad de la IA

Los analistas dicen que este lanzamiento podría acelerar la adopción de agentes de IA en todas las industrias al reducir los obstáculos técnicos. Para las empresas, el atractivo de estas nuevas herramientas es la capacidad de automatizar y escalar procesos sin un desarrollo personalizado extenso.

Las tareas de rutina, como la recuperación de información, el procesamiento de formularios o la entrada de datos de la aplicación cruzada, que podrían haber requerido una codificación significativa o múltiples sistemas de software, ahora pueden ser manejados potencialmente por agentes de IA utilizando los bloques de construcción de OpenAI. Las herramientas de búsqueda incorporadas, por ejemplo, permiten a las empresas enchufar IA en sus bases de datos de conocimiento o en la web casi al instante, y la herramienta de uso de computadora ofrece una forma de interactuar con aplicaciones heredadas que no tienen API. Mientras tanto, la naturaleza de código abierto de los agentes SDK le da a las empresas más control, lo que les permite integrar a estos agentes de IA en su infraestructura existente e incluso usar diferentes modelos de IA según sea necesario.

El movimiento de Operai es parte de una carrera más amplia para empoderar a los desarrolladores con capacidades de construcción de agentes. Las empresas tecnológicas y las nuevas empresas competitivas han estado implementando sus propias plataformas de agentes de IA, y el conjunto de herramientas integral de OpenAI puede ayudarlo a destacarse. De hecho, el momento se produce en medio de un aumento de interés en los agentes autónomos de IA a nivel mundial; por ejemplo, la startup china Monica recientemente llamó la atención con su agente Manus, alegando que podría superar al propio agente prototipo de Openii en ciertas tareas. Mediante las partes clave abiertas de su plataforma y ofreciendo herramientas incorporadas, OpenAi parece estar respondiendo a la presión competitiva al tiempo que fomenta una adopción más amplia de IA.

Desde el punto de vista de la accesibilidad, estas herramientas podrían democratizar quién puede construir sistemas de IA avanzados. Las empresas más pequeñas e incluso los desarrolladores individuales ahora pueden encontrar que es posible crear un asistente o flujo de trabajo impulsado por la IA sin necesidad de un gran equipo de investigación. El enfoque integrado (donde una llamada API puede manejar múltiples pasos) y la disponibilidad de ejemplos en la documentación de OpenAI reduce la barrera de entrada para los recién llegados. Operai también proporciona una interfaz de observabilidad para que los desarrolladores rastreen e inspeccionen lo que el agente está haciendo, lo cual es crucial para depurar y generar confianza en las salidas de IA. Se espera que este enfoque en la usabilidad y la seguridad (con barandillas y monitoreo) aliente a más empresas a experimentar con los agentes de IA, sabiendo que tienen supervisión y control.

Los agentes de IA podrían volverse tan comunes y esenciales como tener presencia en Internet. Las últimas herramientas de Openai, al hacer que el desarrollo de agentes sea más accesible, podría ayudar a convertir esa visión en realidad al permitir que una comunidad mucho más amplia de desarrolladores y organizaciones construya sus propios agentes.

Continue Reading

Noticias

Chatgpt puede ayudar a escribir un ensayo. Los científicos quieren que comience a doblar la ropa

Published

on

STANFORD, California. – La inteligencia artificial puede encontrarle una receta o generar una imagen, pero no puede colgar una imagen en una pared o cocinar su cena.

Chelsea Finn quiere que eso cambie. Finn, ingeniero e investigador de la Universidad de Stanford, cree que la IA puede estar en la cúspide de impulsar una nueva era en robótica.

“A largo plazo queremos desarrollar un software que permita a los robots operar de manera inteligente en cualquier situación”, dice ella.

Una compañía que cofundó ya ha demostrado un robot AI de uso general que puede doblar la ropa, entre otras tareas. Otros investigadores han demostrado el potencial de IA para mejorar la capacidad de los robots para hacer todo, desde clasificación de paquetes hasta carreras de drones. Y Google acaba de dar a conocer

Un robot con IA que podría empacar un almuerzo.

Pero la comunidad de investigación se divide sobre si las herramientas generativas de IA pueden transformar la robótica de la forma en que han transformado algún trabajo en línea. Los robots requieren datos del mundo real y enfrentan problemas mucho más difíciles que los chatbots.

“Los robots no se convertirán de repente en este sueño de ciencia ficción de la noche a la mañana”, dice Ken Goldberg, profesor de UC Berkeley. “Es realmente importante que la gente entienda eso, porque todavía no estamos allí”.

Sueños y decepción

Hay menos partes de la ciencia e ingeniería que tienen una mayor brecha entre la expectativa y la realidad que la robótica. La misma palabra “robot” fue acuñado por Karel čapek, un escritor de Czeck que, en la década de 1920, escribió una obra que imaginaba seres humanos que podían llevar a cabo cualquier tarea que su dueño ordenara.

En realidad, los robots han tenido muchos problemas para hacer trabajos triviales. Las máquinas están en su mejor momento cuando realizan movimientos altamente repetitivos en un entorno cuidadosamente controlado, por ejemplo, en una línea de ensamblaje automotriz dentro de una fábrica, pero el mundo está lleno de obstáculos inesperados y objetos poco comunes.

En el Laboratorio de Finn en la Universidad de Stanford, el estudiante graduado Moo Jin Kim demuestra cómo los robots con AI al menos tienen el potencial de solucionar algunos de esos problemas. Kim ha estado desarrollando un programa llamado “OpenVLA

“Que significa visión, lenguaje, acción.

“Es un paso en la dirección de ChatGPT para la robótica, pero todavía hay mucho trabajo por hacer”, dice.

Moo Jin Kim establece un robot a IA en la Universidad de Stanford.

/

El robot en sí parece bastante poco notable, solo un par de brazos mecánicos con pinzas. Lo que lo hace diferente es lo que hay dentro. Los robots regulares deben estar cuidadosamente programados. Un ingeniero tiene que escribir instrucciones detalladas para cada tarea. Pero este robot funciona con una red neuronal de IA enseñable. La red neuronal opera cómo los científicos creen que el cerebro humano podría funcionar: los “nodos” matemáticos en la red tienen miles de millones de conexiones entre sí de una manera similar a la forma en que las neuronas en el cerebro están conectadas. “Programación” de este tipo de red se trata simplemente de reforzar las conexiones que importan y debilitar las que no lo hacen.

En la práctica, esto significa que Kim puede entrenar al modelo OpenVLA cómo hacer un montón de tareas diferentes, simplemente mostrándolo.

Se unen al robot un par de joysticks que controlan cada brazo. Para entrenarlo, un operador humano usa los joysticks para “titiriteros” al robot, ya que hace una tarea deseada.

“Básicamente, me gusta la tarea que quieras que hagas, sigues haciéndolo una y otra vez como 50 veces o 100 veces”, dice.

Esa repetición es todo lo que se requiere. Las conexiones entre nodos en la red neuronal de IA del robot se refuerzan cada vez que se muestra la acción. Pronto puede repetir la tarea sin el titiritero.

Para demostrar, Kim saca una bandeja de diferentes tipos de mezcla de senderos. Ya lo ha enseñado a recoger. Ahora quiero parte de la mezcla que tiene M&M y nueces verdes, y todo lo que tengo que hacer es preguntar.

“Saca algunos verdes con las nueces en el tazón”, escribo. Muy lentamente, los brazos del robot se ponen en acción.

En una feed de video, Openvla coloca una estrella sobre el contenedor correcto. Eso significa que la primera parte del modelo, que tiene que tomar mi texto e interpretar su significado visualmente, ha funcionado correctamente.

No siempre, dice Kim. “Esa es la parte en la que aguantamos la respiración”.

Luego, lentamente, vacilante, se extiende con su garra, toma la primicia y obtiene la mezcla de senderos.

“¡Parece que está funcionando!” dice Kim con entusiasmo.

Es una cucharada muy pequeña. Pero una cucharada en la dirección correcta.

Cualquier cosa bots

El investigador de Stanford, Chelsea Finn, ha cofundado una empresa en San Francisco llamada inteligencia física

que busca llevar este enfoque de entrenamiento al siguiente nivel.

Ella imagina un mundo en el que los robots pueden adaptarse rápidamente para hacer trabajos simples, como hacer un sándwich o reabastecer en los estantes de comestibles. Contrariamente al pensamiento actual sobre robótica, sospecha que la mejor manera de llegar allí podría ser capacitar a un solo modelo para hacer muchas tareas diferentes.

“De hecho, pensamos que tratar de desarrollar sistemas generalistas tendrá más éxito que tratar de desarrollar un sistema que haga una cosa muy, muy bien”, dice ella.

La inteligencia física ha desarrollado una red neuronal de IA que puede doblar la ropa, recoger granos de café y ensamblar una caja de cartón, aunque la red neuronal que le permite hacer todas esas cosas es demasiado poderosa para estar físicamente en el robot mismo.

“En ese caso, teníamos una estación de trabajo que estaba en el apartamento que calculaba las acciones y luego las envía a través de la red al robot”, dice ella.

Pero el siguiente paso, compilar datos de capacitación para su programa Robot AI, es una tarea mucho más difícil que simplemente recopilar texto de Internet para entrenar un chatbot.

“Esto es realmente difícil”, reconoce Finn. “No tenemos un Internet abierto de datos de robots, por lo que a menudo se trata de recopilar los datos nosotros mismos sobre los robots”.

Aún así, Finn cree que es factible. Además de los entrenadores humanos, los robots también pueden intentar repetidamente hacer tareas por su cuenta y rápidamente desarrollar su base de conocimiento, dice ella.

Dilema de datos

Pero Ken Goldberg de Berkley es más escéptico de que la brecha del mundo real se pueda unir rápidamente. Los chatbots de IA han mejorado enormemente en los últimos años porque han tenido una gran cantidad de datos para aprender. De hecho, han recogido casi todo el Internet para entrenar a sí mismos cómo escribir oraciones y dibujar imágenes.

Ken Goldberg, cofundador de Ambi Robotics y profesor en UC Berkeley.

Ken Goldberg, cofundador de Ambi Robotics y profesor en UC Berkeley.

Niall David Cytryn / Ambi Robotics

Robótica de Ambi

Simplemente construir los datos del mundo real de un mundo de Internet para robots va a ir mucho más lentamente. “A este ritmo actual, tomaremos 100,000 años obtener tantos datos”, dice.

“Diría que estos modelos no van a funcionar de la manera en que están siendo entrenados hoy”, está de acuerdo Pulkit Agrawal, un investigador de robótica en el MIT.

Agrawal es un defensor de la simulación: poner la red neuronal de IA que ejecuta el robot en un mundo virtual y permite que repita tareas una y otra vez.

“El poder de la simulación es que podemos recopilar cantidades muy grandes de datos”, dice. “Por ejemplo, en tres horas de simulación podemos recopilar 100 días de datos”.

Ese enfoque funcionó bien para los investigadores en Suiza que recientemente entrenaron un dron

Cómo competir colocando su cerebro con IA en un simulador y pasando a través de un curso preestablecido una y otra vez. Cuando entró en el mundo real, pudo volar el curso más rápido y mejor que un oponente humano hábil, al menos parte del tiempo.

Pero la simulación tiene sus inconvenientes. El dron funcionó bastante bien para un curso interior. Pero no podía manejar nada que no estaba simulado (viento, lluvia o luz solar, podría arrojar el dron del curso.

Y volar y caminar son tareas relativamente simples para simular. Goldberg dice que realmente recoger objetos o realizar otras tareas manuales que los humanos encuentran que son completamente sencillos son mucho más difíciles de replicar en una computadora. “Básicamente, no hay un simulador que pueda modelar con precisión la manipulación”, dice.

Agarrando el problema

Algunos investigadores piensan que incluso si el problema de los datos puede superarse, los problemas más profundos pueden darle a los robots de IA.

“En mi opinión, la pregunta no es, ¿tenemos suficientes datos … es más lo que es el encuadre del problema”, dice Matthew Johnson-Roberson, investigador de la Universidad Carnegie Mellon en Pittsburgh.

Johnson-Roberson dice que a pesar de todas las increíbles habilidades que muestran los chatbots, la tarea que se les pide que hagan es relativamente simple: mira lo que un usuario humano tipos y luego intenta predecir las próximas palabras que el usuario quiere ver. Los robots tendrán que hacer mucho más que simplemente componer una oración.

“La siguiente mejor predicción de palabras funciona muy bien y es un problema muy simple porque solo está prediciendo la próxima palabra”, dice. Moverse a través del espacio y el tiempo para ejecutar una tarea es un conjunto mucho más grande de variables para que una red neuronal intente procesar.

“No está claro en este momento que puedo tomar 20 horas de imágenes de Go-Pro y producir algo sensato con respecto a cómo un robot se mueve en el mundo”, dice.

Johnson-Roberson dice que cree que se debe hacer una investigación más fundamental sobre cómo las redes neuronales pueden procesar mejor el espacio y el tiempo. Y advierte que el campo debe tener cuidado porque la robótica ha sido quemada antes, por la carrera para construir autos autónomos.

“Tanta capital se apresuró tan rápido”, dice. “Incentivó a las personas para hacer promesas en una línea de tiempo que no podrían cumplir”. Gran parte de la capital dejó el campo, y todavía hay problemas fundamentales para los autos sin conductor que permanecen sin resolver.

Aún así, incluso los escépticos creen que la robótica será cambiada para siempre por AI. Goldberg ha cofundado una compañía de clasificación de paquetes llamada Ambi Robotics que lanzó un nuevo sistema impulsado por la IA conocido como Prime-1 a principios de este año. Utiliza IA para identificar los mejores puntos para que un brazo robótico recoja un paquete. Una vez que tiene el punto de selección establecido por la IA, el brazo, que está controlado por una programación más convencional, hace el agarre.

El nuevo sistema ha reducido drásticamente la cantidad de veces que se eliminan los paquetes, dice. Pero él agrega con una sonrisa: “Si pones esto frente a una pila de ropa, no va a saber qué hacer con eso”.

De vuelta en Stanford, Chelsea Finn dice que está de acuerdo en que las expectativas deben mantenerse bajo control.

“Creo que todavía hay un largo camino para que la tecnología vaya”, dice ella. Tampoco espera que los robots universales reemplacen por completo el trabajo humano, especialmente por tareas complejas.

Pero en un mundo con poblaciones de envejecimiento y escasez de mano de obra proyectada, cree que los robots propulsados ​​por IA podrían cerrar parte de la brecha.

“Estoy imaginando que esto realmente será algo que aumente a las personas y ayude a las personas”, dice ella.

Copyright 2025 NPR

Continue Reading

Noticias

¿Puede el Pixel 9 hacer lo que la IA de iPhone no puede?

Published

on

Soy un usuario de iPhone desde hace mucho tiempo que también está interesado en experiencias de IA como ChatGPT. Hasta la semana pasada, estaba bien con que Apple estuviera detrás de rivales con sus características de inteligencia de Apple. También estaba de acuerdo con esperar a que Apple despliegue sus funciones de IA en Europa.

Pero resulta que la función de inteligencia de Apple que más esperaba, la Siri más inteligente, es Vaporware. De repente, la brecha entre Apple y sus rivales es increíblemente grande.

El paso en falso de AI de Apple es fácilmente el balón suelto más grande de la tecnología de IA desde que ChatGPT se volvió viral a fines de 2022. Las descripción general de la IA de búsqueda de Google, recomendando el pegamento en la pizza, parece una falla menor en comparación. Ojalá Siri Ai pudiera cometer tales errores.

No mencioné a Google accidentalmente. Géminis es una gran victoria para la compañía a la luz del desastre de inteligencia de Apple. Dado el plomo masivo de Google, Gemini siempre fue el producto superior. Pero Apple entregó una visión en WWDC 2024 que ni siquiera Google podría coincidir.

Todas las soluciones generativas de software de IA están llegando a un lugar donde la IA se comporta cada vez más como un asistente personal, donde los agentes de IA hacen cosas en su nombre. Eso fue lo que Apple dijo que Siri haría en iOS 18. Después de la semana pasada, no está claro si tendremos que esperar hasta iOS 19, iOS 20 o más tarde para ese tipo de funcionalidad Siri avanzada en la inteligencia de Apple.

Es por eso que estoy de acuerdo con la toma de John Gruber que Google tiene una oportunidad masiva y potencialmente única de humillar a Apple Intelligence en E/S 2025 en mayo sin mencionar nunca a Apple, el iPhone o la inteligencia de Apple por su nombre. También debería hacerlo totalmente.

Te he dicho durante años cómo el iPhone era esencialmente la Estrella del Norte de Google al diseñar el Pixel. Google a menudo criticaba el iPhone de Apple solo para repetir la misma jugada cuando se trataba de píxeles de próxima generación.

Pero Google ha encontrado lentamente su identidad, y la adición de Géminis ciertamente hace que los teléfonos Pixel sean más convincentes que nunca. Escribí en agosto pasado que el Pixel 9 es la mejor arma de Google contra Apple Intelligence, una granja María contra los iPhones de IA que se acercaban.

Características de Google Gemini disponibles en Pixel 9, Pixel Watch 3 y Pixel Buds Pro 2 en agosto de 2024. Imagen Fuente: Google

Google subió el lanzamiento de Pixel 9 por dos meses para vencer a Apple Intelligence al mercado. Le expliqué cómo la serie Pixel 9 aprovechó un error de cálculo de hardware de Big Apple. Apple Intelligence nos trajo la mayor fragmentación en la historia de iOS, al menos en papel. Los teléfonos como los modelos no profesionales del iPhone 15 no fueron buenos para la IA de Apple.

Esta fragmentación niveló el campo de juego para Google. El Pixel 9 tuvo una gran oportunidad de impresionar a los compradores con características de IA antes de que llegara Apple Intelligence Iphones.

Después de la semana pasada, está claro que Google es el gran ganador cuando se trata de funciones de IA incorporadas en teléfonos. La fragmentación de iOS ni siquiera importa dado que Apple Intelligence, ya que ahora está en iPhone, significa poco para los usuarios de iPhone 15 Pro y iPhone 16. Mientras tanto, el Pixel 9 tiene características de IA incorporadas mucho mejores que Google sigue perfeccionando.

Espero que E/S 2025 se concentre en gran medida en los planes de IA de próxima generación de Google. Eso es lo que sucedió el año pasado y el año anterior. AI es en gran medida la charla de la ciudad en tecnología. Géminis podría ser mucho mejor que la inteligencia de Apple, pero todavía no es la primera IA que viene a la mente. Ese rol todavía está reservado para ChatGPT, mi software Genai en este momento.

Google bien podría alcanzar los problemas de IA de Apple durante la presentación, y Gruber tuvo la mejor manera para que Google lo hiciera. La compañía podría replicar las demostraciones inteligentes de Siri de Apple de WWDC 2024, pero hacerlo con el software Gemini en los teléfonos Pixel 9. Aquí está la cita completa de Gruber:

Lo que haría si trabajara en Google es preparar una demostración en vivo de Google Gemini en un teléfono de píxeles haciendo exactamente lo que Apple mostró en el anuncio del año pasado en WWDC, y luego nuevamente en el comercial de televisión Bella Ramsey que Apple extrajo de YouTube. Algo como esto:

Presentador: Esta es una demostración en vivo, en mi Pixel 9. Necesito recoger a mi madre en el aeropuerto y me envió un correo electrónico con su información de vuelo. [Invokes Gemini on phone in hand…] Géminis, ¿cuándo aterriza el vuelo de mi madre?

GEMINI: El vuelo de tu madre llega a tiempo y llega a la OFS a las 11:30.

Presentador: No siempre recuerdo agregar cosas a mi calendario, por lo que me encanta que Géminis pueda ayudarme a realizar un seguimiento de los planes que he hecho en una conversación casual, como esta reserva de almuerzo que mi madre mencionó en un mensaje de texto. [Invokes Gemini…] ¿Cuál es nuestro plan de almuerzo?

GEMINI: Almorzarás en la barra de agua a las 12:30.

Presentador: ¿Cuánto tiempo nos llevará llegar desde el aeropuerto?

Gemini presenta una ventana emergente de Google Maps Directions que muestra que tomará 21 minutos.

Luego, haga otra demostración en vivo con la “¿Cuál es el nombre del tipo con el que tuve una reunión hace un par de meses en Cafe Grenel?” Ejemplo del comercial de inteligencia de Apple de Apple de Apple. Exactamente las mismas demos, pero reales: en vivo y en el escenario. Estas serían grandes demostraciones incluso si Apple nunca hubiera prometido entregarlas. Pero dado que Apple les prometió para este año, y ahora los ha retrasado hasta “el próximo año”, son devastadores si Google puede mostrarles que realmente trabajan en la línea original de Apple.

¿Puede Géminis hacer todo eso? El modelo actual puede proporcionar al menos parcialmente un comportamiento similar a lo que Apple imaginó para Siri. Géminis puede interactuar con su pantalla y decirle qué hay en ella (círculo para buscar). La IA también está integrada en aplicaciones de Google incorporadas en teléfonos píxeles, como Gmail, mensajes, calendario, mapas y fotos.

Además, Google acaba de anunciar más características de personalización que llegaron a Gemini, comenzando con la capacidad de la IA para ver sus datos de búsqueda de Google.

Personalización de Géminis: Géminis puede explorar su historial de búsqueda de Google si lo permite.
Personalización de Géminis: Géminis puede explorar su historial de búsqueda de Google si lo permite. Fuente de la imagen: Google

Me imagino que cualquier novela de IA que Google muestre en I/O 2025 llevaría a Gemini al siguiente nivel, especialmente si Android XR obtiene un tiempo suficiente en el show. Ese es el sistema operativo AI/AR de Google para gafas inteligentes y computadoras espaciales. Necesita que Gemini sea más personal y actúe como un verdadero asistente antes de poder lanzar gafas inteligentes con funcionalidad de IA avanzada.

Con todo eso en mente, Google puede y debe destruir la inteligencia de Apple en el escenario en E/S. Digo eso como fanático de Apple y alguien que no abandonará el iPhone o el chatgpt a favor de los teléfonos Pixel y Géminis. Apple tiene que sentir esta pérdida y lidiar con todas las consecuencias.

Pase lo que pase, estoy seguro de que Google no fingirá demostraciones de IA en E/S. Lo hizo con las primeras demostraciones de Géminis, y todos se dieron cuenta. Ya sea que se burle de Apple o no, Google seguramente organizará demostraciones en vivo de sus funciones de Pixel AI.

Además, no estoy seguro de que Google pueda burlarse de Apple, como sugiere Gruber sin dejar muy claro que son el iPhone y la inteligencia de Apple de la que se ríen.

Finalmente, también diré que todavía espero que Smart Siri esté disponible en iPhone, iPad y Mac en el futuro, y estoy dispuesto a esperar un tiempo más.

Continue Reading

Trending