Noticias

¿Para qué son los ‘agentes’ de AI como el operador de OpenAI?

Published

1 año ago

25 enero, 2025

Photo-ilustración: inteligente; Foto: Getty Images

Tratar de analizar todos los rumores sobre los planes de OpenAi para el futuro es la locura: de hecho, parece estar impulsando a un número de personas no insignificante de personas locas. Parte de esto es una consecuencia natural de su proyecto: los nuevos modelos de IA hacen cosas que no eran posibles anteriormente en el software, y puede ser difícil juzgar si un nuevo avance se encuentra en la categoría de “truco genial” o “desarrollo consecuente que cambiará todas nuestras vidas para siempre “. También es una consecuencia de la mensajería de la compañía, que oscila en sustancia y tono, apoyándose y lejos de los rumores y teorías más sensacionales sobre la compañía. En un momento, el CEO Sam Altman está publicando acertijos sobre no estar seguro de si su compañía ha logrado o no inteligencia general artificial, o AGI, que marcará el comienzo de una era de aceleración hacia una superinteligencia aterradora o… “importa mucho menos” de lo que la gente espera. El siguiente, Altman y su personal insisten en que la exageración se está saliendo de control y que estamos “temprano” en un nuevo “paradigma”, con mucho trabajo que hacer en el camino a … en algún lugar.

Como estrategia de comunicación, esto claramente ha sido efectivo, o al menos no se ha metido en el camino. Cantidades masivas de capital se están alineando detrás de OpenAi, en forma de inversión directa y, más recientemente, un proyecto de infraestructura conjunta con la imprima del presidente Trump. (Altman en Trump en 2016: “Una amenaza inaceptable para Estados Unidos”; Altman en Trump esta semana: “Increíble para el país en muchos sentidos”.) Se basa en una división que es natural para una empresa dirigida por investigaciones como OpenAi y,, Creo que, cultivado por la compañía, entre el trabajo en la “frontera”, articulada en términos de puntos de referencia especializados, capacitación prometedora y métodos de inferencia, “modelos de razonamiento” y las posibilidades teóricas con consecuencias inherentemente impredecibles, y los productos reales de la compañía, que todos pueden probar y cuáles tienen cientos de millones de personas. Es la antigua categoría que domina la cobertura de OpenAI durante el último año, y especialmente en los últimos meses: puntos de referencia caídos; especulación sobre posibles rutas para AGI y ASI; necesidades de infraestructura; y el quizás exclusivamente perspectiva atractiva, a los inversores, de la automatización laboral masiva. Mientras tanto, aunque la compañía ha estado realizando actualizaciones frecuentes de sus modelos y productos, la experiencia de usuario convencional de OpenAI ha mejorado, en contraste con el lanzamiento repentino e impactante del CHATGPT en 2022, incrementalmente.

El jueves, Openai intentó recuperar sus vibraciones y su línea de productos con el lanzamiento del operador, “un agente que puede ir a la web para realizar tareas para usted”:

Se puede pedir al operador que maneje una amplia variedad de tareas repetitivas de navegador, como completar formularios, ordenar comestibles e incluso crear memes. La capacidad de usar las mismas interfaces y herramientas con las que los humanos interactúan a diario amplían la utilidad de la IA, ayudando a las personas a ahorrar tiempo en las tareas cotidianas mientras abren nuevas oportunidades de participación para las empresas.

Operai publicó una demostración más larga en un video:

Esto es similar a la función de “uso de computadora” de Anthrope en Claude, que se anunció el año pasado. Es un paso temprano para OpenAI en la categoría vagamente definida de “agentes” de IA, que están destinados a llevar a cabo tareas de varios pasos en nombre de los usuarios. Los agentes, y los modelos de agente subyacentes, son la obsesión de la industria del momento, en gran parte porque representan un paso hacia el argumento de venta intoxicante para la IA empleados. Primero viene el software que lee su pantalla y le reserva un hotel. Luego viene el software que hace todo el trabajo. Esa es la idea de billones de dólares.

OpenAi, como Anthrope, está claramente en camino a administrar alguno Tareas basadas en el navegador para usuarios. Pero la realidad desordenada de la Web, combinada con las crecientes apuestas del software que puede hacer compras o iniciar la comunicación en nombre de un usuario, recuerda la carrera para construir autos autónomos. En ese caso, el rápido progreso temprano fomentó una falsa sensación de inminencia, seguido de un proceso más largo de lo esperado de ejercicio de casos de borde, planchando errores y años de pruebas, con una implementación más amplia todavía TBD. En la forma temprana, según los evaluadores, la vista previa del operador es interesante de ver: ¡ejecuta su pantalla! ¡Es hacer clic y escribir! – pero también no es confiable, lento y fácil de confundir. Casey Newton en plataforma:

Mi experiencia más frustrante con el operador fue la primera: tratar de pedir comestibles. “Ayúdame a comprar comestibles en Instacart”, le dije, esperando que me haga algunas preguntas básicas. ¿Dónde vivo? ¿De qué tienda normalmente compro comestibles? ¿Qué tipo de comestibles quiero?

No me preguntó nada de eso. En su lugar, el operador abrió Instacart en la pestaña del navegador y comienza a buscar leche en tiendas de comestibles ubicadas en Des Moines, Iowa.

En ese momento, le dije al operador que comprara comestibles en mi supermercado local en San Francisco. Luego, el operador intentó ingresar la dirección de mi tienda de comestibles local como mi dirección de entrega.

Después de un intercambio surrealista en el que intenté explicar cómo usar una computadora en una computadora, el operador solicitó ayuda. “Parece que la ubicación todavía está configurada en Des Moines, y no pude acceder a la tienda”, me dijo. “¿Tiene alguna sugerencia o preferencia específica para establecer la ubicación en San Francisco para encontrar la tienda?”

Mucho dinero y talento se centran en hacer que este tipo de cosas funcionen realmente, y las grandes empresas de IA están proyectando la confianza. Sin embargo, al igual que con los autos autónomos, una pieza de software de roaming libre que habita su identidad, o incluso tiene su tarjeta de crédito, tiene que funcionar, o al menos no falla catastróficamente, básicamente todo el tiempo. No vale la pena tener un asistente que necesita más ayuda de lo que proporciona; Un asistente que se atornilla es una responsabilidad. Si comprar comestibles a través de una interfaz simplificada es engañosamente complicada, ¿qué no?

Si (o qué tan rápido) las herramientas como esta se vuelven más viables, como herramientas y como productos, es un conjunto de preguntas. Pero, ¿qué sucede si características como esta funcionan? y estar ampliamente disponible: ¿si los cientos de miles de millones de dólares que se canalizan a IA logran su propósito?

En los ejemplos de video de OpenAi, el operador interactúa con la computadora de una manera en su mayoría indistinguible de una persona (de movimiento lento, fácilmente confundido), haciendo clic para reservar un restaurante en óptimas, compras de comestibles y entradas para conciertos de navegación. Actualmente, el operador es una prueba limitada, disponible para usuarios profesionales que pagan $ 200 al mes. Pero digamos que millones de usuarios son Capaz de implementar agentes para explorar la web o usar aplicaciones, o, en un sentido más general, interactuar con empresas o personas. El mundo que los rodea no se quedará quieto. Esto es fácil de entender a escala personal. Hablar con el asistente humano de alguien no es lo mismo que hablar con esa persona, incluso si aún obtienes lo que necesitas de ellos. Del mismo modo, rebotar en un árbol telefónico es diferente de hablar con un humano, incluso si aún eventualmente obtiene la información que está buscando. Estás haciendo transacciones, pero no estás recibiendo atención.

No es mucho más difícil pensar en una escala corporativa, donde la atención también es importante, pero también medida y monetizada. Si OpenTable, un negocio con una larga historia de intentos de lucha de automatizar y jugar sus sistemas con bots, comenzó a darse cuenta de que muchos de sus usuarios estaban reservando mesas usando agentes, ¿respondería con hostilidad? En el marco estrecho de la línea de productos de Operai, el operador es una demostración temprana de nuevas capacidades. En el contexto más amplio de la web a su alrededor, la web con la que necesitará manipular e interactuar, sus precursores más claros son herramientas para disparar, escalar, ejecutar métricas y spam. Debido a que se ejecuta a través de un navegador identificable como el de OpenAI, el operador ya tiene problemas relacionados, según el probador Dan Shipper:

La desventaja es que muchos sitios como Reddit ya bloquean los agentes de IA para navegar para que el operador no pueda acceder a ellos. En este modo de vista previa de la investigación, el operador también está bloqueado por OpenAI para acceder a ciertos sitios intensivos en recursos como Figma o sitios propiedad de la competencia como YouTube por su rendimiento o razones legales.

Otros usuarios tempranos encontraron problemas similares:

Estaba tratando de obtener algunos precios de eBay a través del operador porque siempre estoy buscando formas de mejorar mi software con IA. Para mi decepción, eBay ya lo marcó con la detección anti-bots, lo que resultó en que GPT rápidamente se optara y respondiera que no podía continuar …

Este bloqueo no es una respuesta a la llegada de los “agentes”, exactamente: es el resultado de medidas anteriores que los sitios web han tomado contra las empresas que raspan los datos de capacitación de IA. La Web ya está teniendo una respuesta inmune bastante fuerte a las empresas de IA. ¿Cómo podrían responder a la bote de su usuarios?

Pero las reacciones más cálidas también serían complicadas. Un socio de comercio electrónico más susceptible podría estar bien con sus clientes que usan agentes para realizar compras, pero aún encontraría el estado de cosas resultante extraño, como mínimo. La compañía podría preguntar OpenAi: ¿Por qué no hacemos esto más directamente? Si desea que sus usuarios puedan solicitar productos a través de su chatbot, ¿por qué no dejamos que su software navegue por nuestros listados de productos de una manera menos propensa a errores y derrochadores? ¿Quizás podamos construir una API? ¿Por qué no trabajar juntos, por lo que su producto realmente funciona y no nos queda atrás?

Ya puede pedir algo de Amazon a través de Alexa, no porque tenga capacidades avanzadas de AI de agente para navegar por la plataforma como una persona, sino porque Amazon hizo alojamientos especiales y creó herramientas especiales, invisibles para los usuarios, para conectar un producto con otro. Es un software que habla con el software, no los humanos que hablan con el software que fingen ser humanos para usar software.

El resultado ideal de Openai sería un grupo de otras empresas apresurándose a ayuda Sus productos funcionan, para integrarse lo más profundamente posible con ChatGPT, y tratar de anticipar y eliminar las formas en que los “agentes” frágiles podrían fallar desde su parte (en otras palabras, llevar la Web a algo más parecido a su propio Sandbox ). Dejando de lado el discurso de los empleados de la IA, así es como la compañía podría convertir su chatbot en una herramienta más versátil, una “aplicación de todo” o una interfaz de chat para el resto de la web. (En 2023, intentaron hacer esto abriendo una tienda de aplicaciones, que anunciaron con un tono similar, menos el énfasis en la palabra “agente”. No se dio cuenta.) Hay dos formas en que Operai podría obtener influencia Haz que esto suceda. Una es que los clientes lo exigen: usan ChatGPT, trabajos de operador y quieren que el resto del mundo trabaje con el operador, incluso si otras empresas desconfían de OpenAi. Esta es la manera difícil, y el estado actual del operador sugiere que, incluso si es posible, sería un camino largo y lleno de baches. El otro La forma es más simple y más atractiva, al menos para OpenAi: declare su éxito con anticipación, insista en que los agentes capaces son un mero cuestión de tiempo y escala, y sugieren que todos se pongan en línea ahora en lugar de más tarde para lograr lo inevitable juntos, haciendo así. Tu tarea real más fácil, y lograr capacidades de agente verdaderamente amplias algo menos importantes. Una historia similar ha convencido a los inversores, sin mencionar la nueva administración. ¿Funcionará en todos los demás?

Noticias de Inteligencia Artificial

Noticias

¿Para qué son los ‘agentes’ de AI como el operador de OpenAI?

Leave a Reply

Leave a Reply

Trending

Leave a Reply Cancelar respuesta

Leave a Reply

Trending

Leave a Reply