Noticias

El agente de operadores de Openai me ayudó a moverme, pero yo también tuve que ayudarlo

Published

on

Operai me dio una semana para probar su nuevo agente de IA, operador, un sistema que puede hacer tareas de forma independiente por Internet.

El operador es lo más parecido que he visto en la visión de la industria tecnológica de los agentes de IA, sistemas que pueden automatizar las partes aburridas de la vida, liberándonos para hacer las cosas que realmente amamos. Sin embargo, a juzgar por mi experiencia con el agente de Operai, los sistemas de IA verdaderamente “autónomos” todavía están fuera de alcance.

Operai capacitó un nuevo modelo para el operador de energía, que combina la comprensión visual de GPT-4O con las capacidades de razonamiento de O1.

Ese modelo parece funcionar bien para tareas básicas; Vi los botones de hacer clic en el operador, navegar los menús en los sitios web y completar formularios. La IA ocasionalmente tuvo éxito en tomar acciones de forma independiente, y funciona mucho más rápido que los agentes basados ​​en la web que he visto de Anthrope y Google.

Pero durante mi juicio, me encontré ayudando al agente de Openai más de lo que me gustaría. Se sentía como si estuviera entrenando al operador a través de cada problema, mientras que quería sacar ciertas tareas de mi plato por completo.

Con demasiada frecuencia durante mi prueba, tuve que responder varias preguntas, otorgar permisos, completar información personal y ayudar al agente cuando se atascó.

En términos del automóvil, el operador es como conducir un automóvil con control de crucero, ocasionalmente quitando el pie de los pedales y dejando que el automóvil conduzca en sí mismo, pero está lejos de ser automático en todo el mundo.

De hecho, Openai dice que las pausas frecuentes del operador son por diseño.

El operador de alimentación de IA, al igual que los chatbots de IA que impulsan como el chatgpt de OpenAi, no puede trabajar de manera confiable de forma independiente por largos períodos de tiempo, y es propenso al mismo tipo de alucinante. Debido a eso, Operai no quiere darle al sistema demasiada potencia de toma de decisiones o información confidencial del usuario. Tal vez esa sea una opción segura de OpenAI, pero reduce la practicidad del operador.

Dicho esto, el primer agente de Openai es una prueba de concepto impresionante, e interfaz, para una IA que puede usar el extremo frontal de cualquier sitio web. Pero para crear sistemas de IA verdaderamente independientes, las compañías tecnológicas necesitarán construir modelos de IA más confiables que no requieran tanta dirección.

Un poco también ‘manos’

Mi prueba de operador coincidió con la semana en que estaba mudando apartamentos, por lo que tuve ayuda del agente de OpenAI para mover la logística.

Le pedí al operador que me ayudara a comprar un nuevo permiso de estacionamiento. El agente de Operai me dijo: “Claro”, luego abrió una ventana a su navegador en la pantalla de mi PC.

Luego, el operador realizó una búsqueda de un permiso de estacionamiento de San Francisco en el navegador, me llevó al sitio web correcto de la ciudad e incluso a la página correcta.

El operador aún le permite usar el resto de su computadora mientras funciona, algo que no se puede decir para el Proyecto Mariner de Google. Esto se debe a que el agente de OpenAI no está realmente trabajando en la computadora, sino en la nube en alguna parte.

La interfaz del operador (crédito: Maxwell Zeff/OpenAI)

Para mi permiso de estacionamiento, tuve que otorgar permiso al operador para comenzar diferentes procesos demasiadas veces. También se detuvo para pedirme que completara formularios con información personal, como mi nombre, número de teléfono y dirección de correo electrónico. A veces, el operador también se perdió, obligándome a tomar el control del navegador y volver a poner al agente en el camino.

En otra prueba, le pedí al operador que me hiciera una reserva en un restaurante griego. Para su crédito, el operador me encontró un buen lugar en mi área con precios razonables. Pero tuve que responder más de media docena de preguntas durante todo el flujo.

Algunos pasos para hacer una reserva con el operador (crédito: Maxwell Zeff/OpenAi)

Si tiene que intervenir seis o más veces solo para reservar una reserva a través de un agente de IA, ¿en qué momento es más fácil hacerlo usted mismo? Esa es una pregunta que me hice mucho mientras probaba al operador.

Agente como plataforma

En algunas de mis pruebas, me encontré con sitios web que bloquearon al operador por cualquier razón. Por ejemplo, intenté reservar a un electricista usando TaskRabbit, pero el agente de OpenAi me dijo que se encontró con un error y pregunté si podría usar un servicio alternativo. Expedia, Reddit y YouTube también impidieron que el agente de IA accediera a sus plataformas.

Sin embargo, otros servicios están adoptando al operador con los brazos abiertos. Instacart, Uber y eBay colaboraron con OpenAI para el lanzamiento del operador, lo que permite al agente navegar en sus sitios web en nombre de los humanos.

Estas empresas se están preparando para un futuro en el que un agente de IA facilita un subconjunto de interacciones del usuario.

“Los clientes están utilizando Instacart a través de una variedad de diferentes puntos de entrada”, dijo Daniel Danker, director de productos de Instacart, en una entrevista con TechCrunch. “Vemos al operador como, potencialmente, otro de esos puntos de entrada”.

Dejar que el agente de Openi use el sitio web de Instacart en nombre de una persona parece que separaría a Instacart de sus clientes. Sin embargo, Danker dice que Instacart quiere conocer a los clientes donde sea que estén.

“Realmente somos optimistas sobre nuestra creencia, similar a OpenAI, que los sistemas de agente tendrán un gran impacto en cómo los consumidores interactúan con las propiedades digitales”, dijo el director de IA de eBay, Nitzan Mekel-Bobrov, en una entrevista con TechCrunch.

Incluso si los agentes de IA aumentan en la popularidad, Mekel-Bobrov dice que espera que los usuarios siempre vengan al sitio web de Ebay, señalando que “los destinos en línea no van a ninguna parte”.

Problemas de confianza

Tuve algunos problemas de confianza al operador después de que alucinó varias veces, y casi me costó varios cientos de dólares.

Por ejemplo, le pedí al agente que me encontrara un estacionamiento cerca de mi nuevo apartamento. Terminó sugiriendo dos garajes que dijo que tomarían solo unos minutos caminar.

Alucinación sobre las distancias de estacionamiento (Crédito: Maxwell Zeff/Openai)

Además de estar fuera de mi rango de precios, los garajes estaban realmente lejos de mi apartamento. Uno estaba a 20 minutos a pie, y el otro estaba a 30 minutos a pie. Resulta que el operador había puesto en la dirección incorrecta.

Esta es exactamente la razón por la cual Operai no le da a su agente su número de tarjeta de crédito, contraseñas o acceso al correo electrónico. Si Operai no me dejara intervenir aquí, el operador habría desperdiciado cientos de dólares en un lugar de estacionamiento que no necesitaba.

Las alucinaciones como esta son un obstáculo clave para agentes autónomos realmente útiles, que pueden quitar las tareas molestas de su plato. Nadie confiará en los agentes si son propensos a cometer errores básicos, especialmente errores con consecuencias del mundo real.

Con el operador, OpenAi parece haber creado algunas herramientas impresionantes para permitir que AI Systems navegue por la web. Pero estas herramientas no equivalerán mucho hasta que la IA de la base sea hacer lo que los usuarios le pidan que haga. Hasta entonces, los humanos estarán atrapados ayudando a agentes, no al revés. Y eso derrota el punto.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version