Noticias
El operador aún no vale su suscripción ChatGPT Pro de $ 200 por mes: he aquí por qué
Esta semana, OpenAI presenta una vista previa de la investigación llamada Operador. Inicialmente quería hacer una prueba práctica, pero una vez que descubrí que necesitas una cuenta Pro (que cuesta $200 por mes), decidí ver las diversas demostraciones de OpenAI, compartirlas contigo y luego compartir mis pensamientos. Altman dijo que los usuarios del plan Plus de $20 por mes eventualmente podrían usar Operador.
El operador es un agente de IA. Básicamente, simula los clics del teclado y el mouse en un navegador, lee la pantalla y realiza acciones.
Además: ¿Tienes un misterio genealógico? Cómo utilicé la IA para resolver un rompecabezas familiar
Tengo una trayectoria bastante larga en la creación de este tipo de aplicaciones, utilizando principalmente programación algorítmica junto con un poco de aprendizaje automático para identificar la ubicación de ciertas imágenes en la pantalla.
Mi proyecto más reciente fue una herramienta de publicación automática que haría mis publicaciones en las redes sociales por mí. Sí, hay una gran cantidad de servicios de suscripción que harán eso por usted, pero decidí ver qué se necesitaría para crear el mío propio.
Mi código utilizó una combinación de DOM (modelo de objetos de documento) para páginas de servicios de redes sociales individuales, junto con reconocedores de imágenes que podían encontrar botones (como los botones + o Publicar). Utilicé la herramienta que construí durante aproximadamente un año, pero me encontré con un problema muy molesto.
Aproximadamente cada dos semanas, uno de los seis sitios por los que navegaba hacía un pequeño cambio en la interfaz de la pantalla, lo que procedía a descifrar mi código. Entonces, cada dos semanas, en lugar de publicar mis publicaciones en las redes sociales normalmente, tenía que dedicar algunas horas a arreglar lo que se había roto.
El hecho de que la web cambie constantemente (por ejemplo, un botón azul “Publicar” podría convertirse en un botón rojo “Publicar/Suscribirse con un 30% de descuento” durante una promoción) podría sacar a la IA de su juego.
Agente que usa computadora
El modelo que utiliza OpenAI se llama CUA o agente de uso informático. Este modelo dicta cómo el Operador habla con los sitios web por los que se supone que debe navegar.
En su video de introducción, Sam Altman y los miembros del equipo OpenAI, Yash Kumar, Casey Chu y Reiichiro Nakano, explicaron que Operador no usa API y no trabaja con texto extraído del DOM. En cambio, está “viendo” una página web real en un navegador en vivo que se ejecuta en la nube, leyendo el contexto directamente en la pantalla.
Además: Cómo ChatGPT escaneó 170.000 líneas de código en segundos, ahorrándome horas de trabajo
Tenían muy claro que el mecanismo de control de las páginas web era la simulación del mouse y el teclado, y la entrada que lee la IA es la representación visual de la página web real que vemos como humanos.
El equipo de OpenAI dijo que Operador funcionará como un ser humano usando un navegador web: buscará, hará clic y visitará sitios web. Pero hay una contradicción que aún no he descubierto del todo: OpenAI se ha asociado con varios sitios (Instacart, DoorDash, Etsy, OpenTable, Tripadvisor, AP, Priceline, StubHub, Thumbtack, Target, Uber y más).
¿Qué hacen estas asociaciones por el Operador? ¿Son acuerdos de afiliados en los que OpenAI obtiene una comisión por las ventas? ¿Tienen un acuerdo para informar al Operador si el formato del sitio web ha cambiado? ¿OpenAI realizó modelos adicionales para esos sitios? ¿Tiene algún nivel de acceso API a los datos que esos sitios muestran en la web?
Hasta que comprendamos mejor esas respuestas, no sabremos realmente el alcance de lo que puede hacer el Operador. Todas las demostraciones mostradas se realizaron utilizando sitios con los que la compañía se ha asociado, por lo que no está claro, por ejemplo, si podría ingresar a ZDNET y construir una lista de mis últimos 10 artículos y enviármela por correo electrónico usando Gmail.
También: Cómo utilizar ChatGPT
En este momento, tengo la impresión de que Operador es bastante superficial en lo que puede lograr. Esta demostración, por ejemplo, pudo buscar una receta en un sitio y luego completar un carrito de compras de Instacart con la lista de ingredientes.
Había demostraciones que mostraban cómo hacer una reserva en un restaurante, comprar entradas para un partido de baloncesto, etc. Cada uno de estos fueron uno o dos procesos de sitio donde los datos se encontraron en un sitio y luego se aplicaron a otro.
Barandillas y privacidad
OpenAI parece haber considerado seriamente las cuestiones de privacidad y barreras de seguridad. Por ejemplo, una demostración mostraba la reserva de cuatro entradas de baloncesto por un total de más de 1.000 dólares. Es poco probable que alguno de nosotros se sienta cómodo dejando que la IA siga adelante y gaste esa cantidad de dinero en nuestro nombre sin supervisión.
El operador sabe cuándo hacer una pausa y solicitar la intervención humana. O al menos, se supone que así sea. Todavía está en versión beta, por lo que es posible que se vuelva loco, simplemente porque no está del todo terminado.
También: La mejor IA para codificar
Pero la idea clave es simple: cuando las operaciones en un sitio web están a punto de volverse sensibles (iniciar sesión, gastar dinero, hacer reservas, pagar, etc.), el Operador le pide a su humano que confirme la operación.
Además, el usuario humano puede tomar el control de la ventana del navegador basado en la nube. Según OpenAI, cuando el humano controla el navegador, actúa como una sesión privada y nada de lo que ocurre mientras el humano tiene el control se retroalimenta a la IA.
También puede optar por no permitir que las interacciones de su sitio web se utilicen como datos de entrenamiento para la IA.
Instrucciones personalizadas específicas del sitio
El operador le permite crear instrucciones personalizadas específicas del sitio, sitio por sitio.
En el ejemplo anterior, extraído del vídeo a continuación, el demostrador quiere asegurarse de que las reservas en Priceline sean totalmente reembolsables y tengan un desayuno gratis. Al colocar esa instrucción personalizada en las preferencias del sitio web, el agente de IA siempre lo tendrá en cuenta al realizar una tarea en Priceline.
Además, Operador le permitirá guardar una tarea para que pueda volver a ejecutarla o programarla más tarde.
Si tiene una actividad regular que le gustaría que Operador hiciera por usted, esta es una manera rápida de asegurarse de que pueda volver a ejecutar su trabajo cuando lo desee.
Pasos de bebé
Para mí, el operador es como pequeños pasos en este momento. Por ejemplo, me encantaría decirle a una IA que revise mi bandeja de entrada, busque todos los comunicados de prensa y los asigne a una etiqueta (estoy usando Gmail). O busque todos los comunicados de prensa relacionados con la IA y asígneles una etiqueta, mientras que el resto de los comunicados de prensa reciben otra.
Esta es una tarea compleja y que requiere un tiempo de ejecución bastante largo (tengo 51.000 piezas de marketing en mi pestaña Promociones). Como tal, está mucho más allá del alcance de lo que puede hacer el Operador.
También: Pasé horas probando las tareas de ChatGPT y su negativa a seguir instrucciones fue un poco aterradora.
¿Pero algún día? Tal vez.
También estoy tratando de evitar la interpretación de terror y ciencia ficción de todo esto. Hay una pequeña parte de mi cerebro gritando: “¿Están dejando que la IA navegue por Internet? ¿Están locos?”.
Y sí, herramientas como Operador (e incluso todas las IA que se entrenan en Internet en su conjunto) probablemente estén abriendo puertas a algunas cosas realmente malas, especialmente si alguna vez creamos IA sensibles. Pero por ahora, es un ejercicio interesante ver qué tan bien una IA logra leer una receta y pedir los ingredientes de Instacart.
¿Qué opinas? Cuando el precio baje al rango de $20 por mes, ¿ve tareas que podría asignar al Operador? ¿Te preocupa? Háganos saber su opinión en los comentarios a continuación.
Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrate de suscribirte a mi boletín de actualización semanal y sígueme en Twitter/X en @DavidGewirtzen Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.