Noticias

Conozca al Operador de OpenAI, un agente de IA que navega por la web por usted

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


OpenAI ha presentado Operador, su primer agente de IA semiautónomo, que está diseñado para “operar” un navegador web de forma muy parecida a como lo haría una persona, en su nombre. El agente utiliza el cursor para señalar y hacer clic, escribe por su cuenta, navega por la web y realiza acciones en varios sitios web, como realizar reservas en restaurantes a través de OpenTable y preparar pedidos en Instacart y DoorDash. Eso es en lugar de limitarse a la interfaz ChatGPT o la interfaz de programación de aplicaciones (API) de OpenAI.

“Este producto es el comienzo de nuestro paso hacia los agentes”, dijo el director ejecutivo y cofundador Sam Altman en una demostración transmitida en vivo en el canal de YouTube de la compañía hoy a la 1 p. m., hora del Este.

El presidente y cofundador de OpenAI, Greg Brockman, escribió en X: “2025 es el año de los agentes”.

La vista previa, ahora disponible para los suscriptores de pago en EE. UU. del plan ChatGPT Pro de OpenAI ($200 por mes), tiene como objetivo demostrar el potencial de la IA agente mientras recopila comentarios críticos para perfeccionar sus capacidades.

Sin embargo, el operador no se hace cargo de su navegador web. En su lugar, visita un sitio web nuevo e independiente, operator.chatgpt.com, y se enfrenta a un cuadro de entrada similar a ChatGPT.

Al escribir una solicitud en este cuadro, “búsqueme entradas para el juego de Los Lakers de Los Ángeles esta noche”, el Operador abrirá un navegador virtual separado que se ejecuta en la nube en servidores OpenAI. Luego, el agente puede ejecutar tareas como completar formularios, gestionar reservas en línea, incluso reservar entradas para eventos deportivos y conciertos, y navegar por otros flujos de trabajo comunes. El usuario observa cómo el cursor se mueve solo en el navegador basado en la nube en tiempo real. Si el agente encuentra un problema, se detendrá y enviará un mensaje al usuario a través de un mensaje de texto, similar a las respuestas de ChatGPT.

Además, debajo del navegador virtual, el usuario verá sugerencias de acciones que el Operador puede realizar en su nombre.

Sin embargo, el usuario puede tomar el control en cualquier momento, de forma similar a los sistemas de conducción semiautónoma de los automóviles modernos. El operador también solicita al usuario que ingrese sus propias credenciales de pago cuando llega a una pantalla de compra en otro sitio web. Finalmente, los usuarios pueden guardar flujos de trabajo particulares que deseen utilizar en el futuro e iniciarlos nuevamente.

El operador funciona con lo que OpenAI llama tecnología de agente que utiliza computadoras (CUA), una nueva variante de GPT-4o entrenada específicamente para usar computadoras.

Uniendo IA y GUI

Operador se distingue de otras herramientas de automatización al imitar la interacción humana con interfaces gráficas de usuario (GUI).

En lugar de depender de API especializadas, el sistema aprovecha capturas de pantalla para obtener información visual y utiliza acciones virtuales de mouse y teclado para completar tareas.

El modelo CUA subyacente combina las capacidades de visión de GPT-4o con el aprendizaje por refuerzo, lo que permite al agente percibir, razonar y actuar en la pantalla.

Este enfoque permite al Operador manejar diversas tareas, incluida la navegación de comercio electrónico, la planificación de viajes e incluso tareas repetitivas como crear listas de reproducción o administrar listas de compras. Puntos de referencia notables ilustran su eficacia:

Tasa de éxito del 87% en WebVoyageruna prueba de navegación web en vivo

Tasa de éxito del 58,1% en WebArenaque simula escenarios de gestión de contenido y comercio electrónico del mundo real

Pero ya existe una dura competencia: ayer, la empresa tecnológica china ByteDance (la empresa matriz de TikTok) lanzó su propio agente de inteligencia artificial para controlar los navegadores web y realizar acciones en los de un usuario. beneficio. Llamado UI-TARS, es totalmente de código abierto y cuenta con un rendimiento de referencia igualmente impresionante (aunque no parece haber sido comparado directamente en los mismos puntos de referencia). Eso significa que el Operador de OpenAI tendrá que ser significativamente mejor o más confiable para justificar el costo relativamente alto ($200/mes) de acceder a él a través de suscripciones ChatGPT Pro.

Ya se está probando en casos de uso de navegación web empresarial

OpenAI se está asociando con varias empresas para garantizar que Operador satisfaga las necesidades del mundo real. Empresas como Instacart, DoorDash y Etsy ya están probando la tecnología para casos de uso que van desde la entrega de comestibles hasta las compras personalizadas.

Brett Keller, director ejecutivo de Priceline, destacó su utilidad para la planificación de viajes y lo calificó como “un paso importante para hacer que los viajes sean más fluidos y personalizados”.

Para aplicaciones del sector público, la ciudad de Stockton está explorando formas de utilizar Operador para simplificar la participación cívica. Jamil Niazi, director de tecnología de la información de la ciudad, destacó el potencial de la IA para facilitar a los residentes la inscripción en servicios.

Sin embargo, existen limitaciones. La publicación tecnológica Every obtuvo una vista previa, la estuvo probando durante la semana pasada y descubrió que:

“Una de las peculiaridades del diseño de Operador es que no utiliza su navegador. En cambio, utiliza un navegador en uno de los centros de datos de OpenAI que puede observar e interactuar de forma remota. La ventaja de esta decisión de diseño es que puede utilizar Operador en cualquier lugar y momento, por ejemplo, en cualquier dispositivo móvil.

“La desventaja es que muchos sitios como Reddit ya bloquean la navegación de los agentes de IA, por lo que el Operador no puede acceder a ellos. En este modo de vista previa de la investigación, OpenAI también bloquea el acceso del Operador a ciertos sitios que consumen muchos recursos como Figma o sitios de propiedad de la competencia como YouTube por razones legales o de rendimiento.

Medidas de seguridad

Dada su capacidad para actuar en nombre de los usuarios, Operador ha sido desarrollado con sólidas características de seguridad:

control de usuario: El operador solicita confirmación para acciones sensibles, como realizar compras o enviar correos electrónicos.

Modo de reloj: Garantiza la supervisión del usuario para tareas críticas, particularmente en sitios sensibles como el correo electrónico o plataformas financieras.

Prevención de mal uso: El sistema está capacitado para rechazar solicitudes dañinas e incluye salvaguardas contra ataques adversarios, como mensajes maliciosos integrados en sitios web.

OpenAI también ha incorporado funciones para proteger la privacidad del usuario, incluidas opciones para borrar los datos de navegación y optar por no compartir datos para mejorar el modelo.

Próximamente la edición empresarial

OpenAI prevé un papel más amplio para el operador tanto en entornos individuales como empresariales. Con el tiempo, la compañía planea ampliar el acceso a los usuarios Plus, Team y Enterprise, y eventualmente integrar Operador en ChatGPT.

También hay planes para hacer que la tecnología CUA subyacente esté disponible a través de una API, lo que permitirá a los desarrolladores crear agentes personalizados que utilicen computadoras.

A pesar de su potencial, Operador sigue siendo un trabajo en progreso. OpenAI ha sido transparente sobre sus limitaciones, como dificultades con interfaces complejas o flujos de trabajo desconocidos. Los comentarios tempranos de los usuarios desempeñarán un papel fundamental en la mejora de la precisión, confiabilidad y seguridad del sistema.

A medida que OpenAI perfecciona a Operador a través del uso en el mundo real, busca transformar la IA de una herramienta pasiva a un participante activo en el ecosistema digital. Ya sea simplificando las tareas cotidianas o innovando los flujos de trabajo empresariales, OpenAI está posicionando a Operador como el siguiente paso para hacer que la IA sea accesible, práctica y segura.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version