Noticias

El surgimiento de los agentes de uso del navegador: por qué el poder de Convergence está superando al operador de OpenAi

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Está surgiendo una nueva ola de agentes de uso del navegador con IA, prometiendo transformar cómo las empresas interactúan con la web. Estos agentes pueden navegar de forma autónoma sitios web, recuperar información e incluso transacciones completas, pero las pruebas tempranas revelan brechas significativas entre la promesa y el rendimiento.

Si bien los ejemplos de consumo ofrecidos por el nuevo operador de agentes de uso de navegador de Openai, como pedir pizza o comprar boletos de juego, han tomado los titulares, la pregunta es sobre dónde están los principales casos de uso del desarrollador y empresa. “Lo que no sabemos es cuál será la aplicación asesina”, dijo Sam Witteveen, cofundador de Red Dragon, una compañía que desarrolla aplicaciones de agentes de IA. “Supongo que serán cosas que solo toman tiempo en la web que realmente no disfrutas”. Esto incluye cosas como ir a la web y buscar el precio más barato de un producto o reservar los mejores alojamientos de hotel. Lo más probable es que se use en combinación con otras herramientas como Deep Research, donde las empresas pueden hacer una investigación aún más sofisticada más Ejecución de tareas alrededor de la web.

Las empresas deben evaluar cuidadosamente el panorama en rápida evolución, ya que los jugadores y las nuevas empresas establecidas adoptan diferentes enfoques para resolver el desafío de navegación autónomo.

Jugadores clave en el paisaje del agente de uso del navegador

El campo se ha llenado rápidamente tanto con las principales compañías tecnológicas como con las nuevas empresas innovadoras:

El operador y el proxy son los más avanzados, en términos de ser amigable para el consumidor y listos para usar. Muchos de los otros parecen estar posicionándose más para el uso de desarrolladores o empresas. Por ejemplo, el uso del navegador, una inicio de combinador Y que permite a los usuarios personalizar los modelos utilizados con el agente. Esto le brinda más control sobre cómo funciona el agente, incluido el uso de un modelo de su máquina local. Pero definitivamente es más involucrado.

Los otros enumerados anteriormente proporcionan un grado variable de funcionalidad e interacción con los recursos locales de la máquina. Decidí que ni siquiera probé los II-Tars de Bytedance por ahora, porque solicitó acceso de nivel inferior a las funciones de seguridad y privacidad de mi máquina (si lo pruebo, definitivamente usaré una computadora secundaria).

La prueba revela desafíos de razonamiento

Por lo tanto, los más fáciles de probar son el proxy del operador y convergencia de Openai. En nuestras pruebas, los resultados resaltaron cómo las capacidades de razonamiento pueden importar más que las características de automatización en bruto. El operador, en particular, era más erróneo.

Por ejemplo, les pedí a los agentes que encontraran y resumieran las cinco historias más populares de VentureBeat. Fue una tarea ambigua, porque VentureBeat no tiene una sección “más popular” en sí. El operador luchó con esto. Primero cayó en un bucle de desplazamiento infinito mientras buscaba historias ‘más populares’, que requieren intervención manual. En otro intento, encontró un artículo de tres años titulado “Las cinco principales historias de la semana”. En contraste, el poder demostró un mejor razonamiento al identificar las cinco historias más visibles en la página de inicio como un proxy práctico de popularidad, y dio resúmenes precisos.

La distinción se hizo aún más clara en las tareas del mundo real. Le pedí a los agentes que reservaran una reserva en un restaurante romántico para el mediodía en Napa, California. El operador se acercó a la tarea linealmente: encontrar primero un restaurante romántico y luego verificar la disponibilidad al mediodía. Cuando no había mesas disponibles, llegó a un callejón sin salida. Proxy mostró un razonamiento más sofisticado al comenzar con OpenTable para encontrar restaurantes que eran románticos y disponibles en el momento deseado. Incluso regresó con un restaurante con calificación ligeramente mejor.

Incluso las tareas aparentemente simples revelaron diferencias importantes. Al buscar un “precio Yubikey 5C NFC” en Amazon, el proxy rápidamente encontró el artículo más fácilmente que el operador.

Operai no ha divulgado mucho sobre las tecnologías que utiliza para capacitar a su agente de operadores, aparte de decir que ha capacitado a su modelo en tareas de uso del navegador. Sin embargo, la convergencia ha proporcionado más detalles: su agente usa algo llamado búsqueda de árbol generativo para “aprovechar los modelos del mundo web que predicen el estado de la web después de que se haya tomado una acción propuesta. Estos se generan de manera recursiva para producir un árbol de futuros posibles que se buscan para seleccionar la próxima acción óptima, según lo clasificado por nuestros modelos de valor. Nuestros modelos del mundo web también se pueden utilizar para entrenar a los agentes en situaciones hipotéticas sin generar muchos datos costosos “. (Más aquí).

Los puntos de referencia pueden ser inútiles por ahora

En el papel, estas herramientas aparecen estrechamente emparejadas. El proxy de Convergence logra un 88% en el Benchmark de WebVoyager, que evalúa a los agentes web en 643 tareas del mundo real en 15 sitios web populares como Amazon y Booking.com. El operador de OpenAI obtiene un 87%, mientras que el uso del navegador dice que alcanza el 89%, pero solo después de cambiar ligeramente la base de código webVoyager, admitió: “Según nuestras necesidades”.

Sin embargo, estos puntajes de referencia realmente deben tomarse con un grano de sal, ya que pueden ser jugados. La verdadera prueba viene en uso práctico para casos del mundo real. Es muy temprano, el espacio está cambiando tan rápidamente y estos productos están cambiando casi a diario. Los resultados dependerán más de los trabajos específicos que está tratando de hacer, y es posible que desee confiar en las vibraciones que obtiene mientras usa los diferentes productos.

Implicaciones empresariales

Las implicaciones para la automatización empresarial son significativas. Como Witteveen señala en nuestra conversación de videos podcast sobre esto, donde hacemos una profundidad de inmersión en esta tendencia de uso del navegador, muchas compañías están pagando actualmente a los asistentes virtuales, operados por personas reales, para manejar la investigación web básica y las tareas de recopilación de datos. Estos agentes de uso del navegador podrían cambiar drásticamente esa ecuación.

“Si AI se toma esto”, señala Witteveen, “ese será algunos de los primeros frutos bajos de las personas que pierden sus trabajos. Va a aparecer en algunos de estos tipos de cosas “.

Esto podría alimentar la tendencia de automatización de procesos robóticos (RPA), donde el uso del navegador se obtiene como otra herramienta para que las empresas automaticen más tareas. Y como se mencionó anteriormente, los casos de usos más poderosos serán cuando un agente se use con otras herramientas, incluidas cosas como Deep Research, donde un agente basado en LLM usa una herramienta de búsqueda más El navegador solía hacer trabajos más sofisticados.

Innovación de la conducción de la dinámica de costos

Otro factor clave que impulsa el desarrollo rápido es la disponibilidad de potentes modelos de razonamiento de código abierto como Deepseek-R1. Esto permite a las empresas que construyen estos agentes de uso del navegador competir de manera efectiva con jugadores más grandes aprovechando estos modelos en lugar de construir los suyos.

La presión de precios ya es evidente. Si bien OpenAI requiere una suscripción de ChatGPT Pro mensual de $ 200 para acceder al operador, Convergence ofrece un uso gratuito limitado (hasta cinco usos por día) y un plan ilimitado de $ 20/mes. Esta dinámica competitiva debe acelerar la adopción empresarial, aunque todavía están surgiendo casos de uso claros.

Desafíos de seguridad e integración

Quedan varios obstáculos antes de la adopción generalizada de la empresa. Algunos sitios web bloquean activamente la navegación automatizada, mientras que otros requieren verificación Captcha. Si bien Operai y Convergence tienen herramientas que pueden superar los Captchas, permiten a los usuarios hacerse cargo de la tarea para llenarlos, en lugar de hacerlo directamente, ya que el objetivo de Captchas es asegurarse de que un humano esté en el otro extremo. Herramientas como la UI-TARS de Bytedance solicitan un acceso profundo al sistema, lo que plantea preocupaciones de seguridad para la implementación empresarial.

Además, el enfoque de la cooperación del sitio web varía. Operai ha trabajado con socios específicos como Instacart, Priceline, Doordash y Etsy, mientras que otros intentan navegar en cualquier sitio web. Esta inconsistencia podría afectar la confiabilidad para los casos de uso empresarial. Y, por supuesto, cada vez que un agente llega a un sitio que requiere detalles de inicio de sesión, que retrasarán las cosas, ya que los agentes le entregarán las cosas para completar esos detalles.

Mirando hacia el futuro

Para las empresas que evalúan estas herramientas, el enfoque debe estar en casos de uso específicos en los que la interacción web autónoma podría proporcionar un valor claro, ya sea en investigación, servicio al cliente o automatización de procesos. La tecnología está progresando rápidamente, pero el éxito dependerá de las capacidades de correspondencia con las necesidades comerciales concretas.

A medida que este espacio evoluciona, espere ver más características centradas en la empresa y agentes potencialmente especializados para industrias o tareas específicas. La carrera entre jugadores establecidos y nuevas empresas innovadoras debe impulsar el avance técnico y los precios competitivos, lo que hace que 2025 sea un año crucial para la adopción de agentes de uso de navegadores empresariales.

Para obtener más detalles sobre estas tendencias y resultados de pruebas, consulte la conversación de video completa entre Sam Witteveen y yo.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version