Connect with us

Noticias

¿Para qué son los ‘agentes’ de AI como el operador de OpenAI?

Published

on

Photo-ilustración: inteligente; Foto: Getty Images

Tratar de analizar todos los rumores sobre los planes de OpenAi para el futuro es la locura: de hecho, parece estar impulsando a un número de personas no insignificante de personas locas. Parte de esto es una consecuencia natural de su proyecto: los nuevos modelos de IA hacen cosas que no eran posibles anteriormente en el software, y puede ser difícil juzgar si un nuevo avance se encuentra en la categoría de “truco genial” o “desarrollo consecuente que cambiará todas nuestras vidas para siempre “. También es una consecuencia de la mensajería de la compañía, que oscila en sustancia y tono, apoyándose y lejos de los rumores y teorías más sensacionales sobre la compañía. En un momento, el CEO Sam Altman está publicando acertijos sobre no estar seguro de si su compañía ha logrado o no inteligencia general artificial, o AGI, que marcará el comienzo de una era de aceleración hacia una superinteligencia aterradora o… “importa mucho menos” de lo que la gente espera. El siguiente, Altman y su personal insisten en que la exageración se está saliendo de control y que estamos “temprano” en un nuevo “paradigma”, con mucho trabajo que hacer en el camino a … en algún lugar.

Como estrategia de comunicación, esto claramente ha sido efectivo, o al menos no se ha metido en el camino. Cantidades masivas de capital se están alineando detrás de OpenAi, en forma de inversión directa y, más recientemente, un proyecto de infraestructura conjunta con la imprima del presidente Trump. (Altman en Trump en 2016: “Una amenaza inaceptable para Estados Unidos”; Altman en Trump esta semana: “Increíble para el país en muchos sentidos”.) Se basa en una división que es natural para una empresa dirigida por investigaciones como OpenAi y,, Creo que, cultivado por la compañía, entre el trabajo en la “frontera”, articulada en términos de puntos de referencia especializados, capacitación prometedora y métodos de inferencia, “modelos de razonamiento” y las posibilidades teóricas con consecuencias inherentemente impredecibles, y los productos reales de la compañía, que todos pueden probar y cuáles tienen cientos de millones de personas. Es la antigua categoría que domina la cobertura de OpenAI durante el último año, y especialmente en los últimos meses: puntos de referencia caídos; especulación sobre posibles rutas para AGI y ASI; necesidades de infraestructura; y el quizás exclusivamente perspectiva atractiva, a los inversores, de la automatización laboral masiva. Mientras tanto, aunque la compañía ha estado realizando actualizaciones frecuentes de sus modelos y productos, la experiencia de usuario convencional de OpenAI ha mejorado, en contraste con el lanzamiento repentino e impactante del CHATGPT en 2022, incrementalmente.

El jueves, Openai intentó recuperar sus vibraciones y su línea de productos con el lanzamiento del operador, “un agente que puede ir a la web para realizar tareas para usted”:

Se puede pedir al operador que maneje una amplia variedad de tareas repetitivas de navegador, como completar formularios, ordenar comestibles e incluso crear memes. La capacidad de usar las mismas interfaces y herramientas con las que los humanos interactúan a diario amplían la utilidad de la IA, ayudando a las personas a ahorrar tiempo en las tareas cotidianas mientras abren nuevas oportunidades de participación para las empresas.

Operai publicó una demostración más larga en un video:

Esto es similar a la función de “uso de computadora” de Anthrope en Claude, que se anunció el año pasado. Es un paso temprano para OpenAI en la categoría vagamente definida de “agentes” de IA, que están destinados a llevar a cabo tareas de varios pasos en nombre de los usuarios. Los agentes, y los modelos de agente subyacentes, son la obsesión de la industria del momento, en gran parte porque representan un paso hacia el argumento de venta intoxicante para la IA empleados. Primero viene el software que lee su pantalla y le reserva un hotel. Luego viene el software que hace todo el trabajo. Esa es la idea de billones de dólares.

OpenAi, como Anthrope, está claramente en camino a administrar alguno Tareas basadas en el navegador para usuarios. Pero la realidad desordenada de la Web, combinada con las crecientes apuestas del software que puede hacer compras o iniciar la comunicación en nombre de un usuario, recuerda la carrera para construir autos autónomos. En ese caso, el rápido progreso temprano fomentó una falsa sensación de inminencia, seguido de un proceso más largo de lo esperado de ejercicio de casos de borde, planchando errores y años de pruebas, con una implementación más amplia todavía TBD. En la forma temprana, según los evaluadores, la vista previa del operador es interesante de ver: ¡ejecuta su pantalla! ¡Es hacer clic y escribir! – pero también no es confiable, lento y fácil de confundir. Casey Newton en plataforma:

Mi experiencia más frustrante con el operador fue la primera: tratar de pedir comestibles. “Ayúdame a comprar comestibles en Instacart”, le dije, esperando que me haga algunas preguntas básicas. ¿Dónde vivo? ¿De qué tienda normalmente compro comestibles? ¿Qué tipo de comestibles quiero?

No me preguntó nada de eso. En su lugar, el operador abrió Instacart en la pestaña del navegador y comienza a buscar leche en tiendas de comestibles ubicadas en Des Moines, Iowa.

En ese momento, le dije al operador que comprara comestibles en mi supermercado local en San Francisco. Luego, el operador intentó ingresar la dirección de mi tienda de comestibles local como mi dirección de entrega.

Después de un intercambio surrealista en el que intenté explicar cómo usar una computadora en una computadora, el operador solicitó ayuda. “Parece que la ubicación todavía está configurada en Des Moines, y no pude acceder a la tienda”, me dijo. “¿Tiene alguna sugerencia o preferencia específica para establecer la ubicación en San Francisco para encontrar la tienda?”

Mucho dinero y talento se centran en hacer que este tipo de cosas funcionen realmente, y las grandes empresas de IA están proyectando la confianza. Sin embargo, al igual que con los autos autónomos, una pieza de software de roaming libre que habita su identidad, o incluso tiene su tarjeta de crédito, tiene que funcionar, o al menos no falla catastróficamente, básicamente todo el tiempo. No vale la pena tener un asistente que necesita más ayuda de lo que proporciona; Un asistente que se atornilla es una responsabilidad. Si comprar comestibles a través de una interfaz simplificada es engañosamente complicada, ¿qué no?

Si (o qué tan rápido) las herramientas como esta se vuelven más viables, como herramientas y como productos, es un conjunto de preguntas. Pero, ¿qué sucede si características como esta funcionan? y estar ampliamente disponible: ¿si los cientos de miles de millones de dólares que se canalizan a IA logran su propósito?

En los ejemplos de video de OpenAi, el operador interactúa con la computadora de una manera en su mayoría indistinguible de una persona (de movimiento lento, fácilmente confundido), haciendo clic para reservar un restaurante en óptimas, compras de comestibles y entradas para conciertos de navegación. Actualmente, el operador es una prueba limitada, disponible para usuarios profesionales que pagan $ 200 al mes. Pero digamos que millones de usuarios son Capaz de implementar agentes para explorar la web o usar aplicaciones, o, en un sentido más general, interactuar con empresas o personas. El mundo que los rodea no se quedará quieto. Esto es fácil de entender a escala personal. Hablar con el asistente humano de alguien no es lo mismo que hablar con esa persona, incluso si aún obtienes lo que necesitas de ellos. Del mismo modo, rebotar en un árbol telefónico es diferente de hablar con un humano, incluso si aún eventualmente obtiene la información que está buscando. Estás haciendo transacciones, pero no estás recibiendo atención.

No es mucho más difícil pensar en una escala corporativa, donde la atención también es importante, pero también medida y monetizada. Si OpenTable, un negocio con una larga historia de intentos de lucha de automatizar y jugar sus sistemas con bots, comenzó a darse cuenta de que muchos de sus usuarios estaban reservando mesas usando agentes, ¿respondería con hostilidad? En el marco estrecho de la línea de productos de Operai, el operador es una demostración temprana de nuevas capacidades. En el contexto más amplio de la web a su alrededor, la web con la que necesitará manipular e interactuar, sus precursores más claros son herramientas para disparar, escalar, ejecutar métricas y spam. Debido a que se ejecuta a través de un navegador identificable como el de OpenAI, el operador ya tiene problemas relacionados, según el probador Dan Shipper:

La desventaja es que muchos sitios como Reddit ya bloquean los agentes de IA para navegar para que el operador no pueda acceder a ellos. En este modo de vista previa de la investigación, el operador también está bloqueado por OpenAI para acceder a ciertos sitios intensivos en recursos como Figma o sitios propiedad de la competencia como YouTube por su rendimiento o razones legales.

Otros usuarios tempranos encontraron problemas similares:

Estaba tratando de obtener algunos precios de eBay a través del operador porque siempre estoy buscando formas de mejorar mi software con IA. Para mi decepción, eBay ya lo marcó con la detección anti-bots, lo que resultó en que GPT rápidamente se optara y respondiera que no podía continuar …

Este bloqueo no es una respuesta a la llegada de los “agentes”, exactamente: es el resultado de medidas anteriores que los sitios web han tomado contra las empresas que raspan los datos de capacitación de IA. La Web ya está teniendo una respuesta inmune bastante fuerte a las empresas de IA. ¿Cómo podrían responder a la bote de su usuarios?

Pero las reacciones más cálidas también serían complicadas. Un socio de comercio electrónico más susceptible podría estar bien con sus clientes que usan agentes para realizar compras, pero aún encontraría el estado de cosas resultante extraño, como mínimo. La compañía podría preguntar OpenAi: ¿Por qué no hacemos esto más directamente? Si desea que sus usuarios puedan solicitar productos a través de su chatbot, ¿por qué no dejamos que su software navegue por nuestros listados de productos de una manera menos propensa a errores y derrochadores? ¿Quizás podamos construir una API? ¿Por qué no trabajar juntos, por lo que su producto realmente funciona y no nos queda atrás?

Ya puede pedir algo de Amazon a través de Alexa, no porque tenga capacidades avanzadas de AI de agente para navegar por la plataforma como una persona, sino porque Amazon hizo alojamientos especiales y creó herramientas especiales, invisibles para los usuarios, para conectar un producto con otro. Es un software que habla con el software, no los humanos que hablan con el software que fingen ser humanos para usar software.

El resultado ideal de Openai sería un grupo de otras empresas apresurándose a ayuda Sus productos funcionan, para integrarse lo más profundamente posible con ChatGPT, y tratar de anticipar y eliminar las formas en que los “agentes” frágiles podrían fallar desde su parte (en otras palabras, llevar la Web a algo más parecido a su propio Sandbox ). Dejando de lado el discurso de los empleados de la IA, así es como la compañía podría convertir su chatbot en una herramienta más versátil, una “aplicación de todo” o una interfaz de chat para el resto de la web. (En 2023, intentaron hacer esto abriendo una tienda de aplicaciones, que anunciaron con un tono similar, menos el énfasis en la palabra “agente”. No se dio cuenta.) Hay dos formas en que Operai podría obtener influencia Haz que esto suceda. Una es que los clientes lo exigen: usan ChatGPT, trabajos de operador y quieren que el resto del mundo trabaje con el operador, incluso si otras empresas desconfían de OpenAi. Esta es la manera difícil, y el estado actual del operador sugiere que, incluso si es posible, sería un camino largo y lleno de baches. El otro La forma es más simple y más atractiva, al menos para OpenAi: declare su éxito con anticipación, insista en que los agentes capaces son un mero cuestión de tiempo y escala, y sugieren que todos se pongan en línea ahora en lugar de más tarde para lograr lo inevitable juntos, haciendo así. Tu tarea real más fácil, y lograr capacidades de agente verdaderamente amplias algo menos importantes. Una historia similar ha convencido a los inversores, sin mencionar la nueva administración. ¿Funcionará en todos los demás?

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

¿Qué modelo de chatgpt es el mejor? Una guía sobre qué modelo usar y cuándo.

Published

on

Chatgpt no es un monolito.

Desde que Operai lanzó por primera vez el Buzzy Chatbot en 2022, ha implementado lo que parece un nuevo modelo cada pocos meses, utilizando una panoplia confusa de nombres.

Varios competidores de Operai tienen populares Alternativas de chatgptcomo Claude, Géminis y perplejidad. Pero los modelos de Openai se encuentran entre los más reconocibles de la industria. Algunos son buenos para tareas cuantitativas, como la codificación. Otros son mejores para hacer una lluvia de ideas sobre nuevas ideas.

Si está buscando una guía sobre qué modelo usar y cuándo, está en el lugar correcto.

GPT-4 y GPT-4O

Openai lanzó por primera vez GPT-4 en 2023 como su modelo de lenguaje grande. El CEO Sam Altman dijo en un podcast de abril que la modelo tomó “cientos de personas, casi todo el esfuerzo de Openi” para construir.

Desde entonces, ha actualizado su modelo insignia a GPT-4O, que lanzó por primera vez el año pasado. Es tan inteligente como GPT-4, que es capaz de acumular el SAT, el GRE y pasar la barra, pero es significativamente más rápido y mejora sus “capacidades entre el texto, la voz y la visión”, dice Openii. El “O” significa Omni.

4O puede traducir rápidamente el habla y ayudar con el álgebra lineal básica, y tiene las capacidades visuales más avanzadas.

Sus imágenes de estilo Studio Ghibli tocaron la emoción en línea. Sin embargo, también planteó preguntas de derechos de autor cuando los críticos argumentaron que Operai se está beneficiando injustamente del contenido de los artistas.

Operai dice que 4O “se destaca en las tareas cotidianas”, como hacer una lluvia de ideas, resumir, escribir correos electrónicos y revisar informes.

GPT-4.5

Altman describió a GPT-4.5 en una publicación sobre X como “el primer modelo que se siente como hablar con una persona reflexiva”.

Es el último avance en el paradigma de “aprendizaje sin supervisión” de OpenAI, que se centra en ampliar los modelos en el “conocimiento de las palabras, la intuición y la reducción de las alucinaciones”, dijo la miembro del personal técnico de Operai, Amelia Glaese, durante su presentación en febrero.

Entonces, si está teniendo una conversación difícil con un colega, GPT-4.5 podría ayudarlo a replantear esas conversaciones en un tono más profesional y tacto.

Operai dice que GPT-4.5 es “ideal para tareas creativas”, como proyectos de colaboración y lluvia de ideas.

O1 y O1-Mini

Openai lanzó una mini versión de O1, su modelo de razonamiento, en septiembre del año pasado y la versión completa en diciembre.

Los investigadores de la compañía dijeron que es el primer modelo capacitado para “pensar” antes de que responda y se adapte bien a las tareas cuantitativas, de ahí el “modelo de razonamiento” del apodo. Esa es una función de su técnica de entrenamiento, conocida como cadena de pensamiento, que alienta a los modelos a razonar a través de problemas descomponiéndolos paso a paso.

En un artículo publicado en la capacitación de seguridad del modelo, la compañía dijo que “los modelos de capacitación para incorporar una cadena de pensamiento antes de responder tienen el potencial de desbloquear beneficios sustanciales, al tiempo que aumentan los riesgos potenciales que provienen de una inteligencia aumentada”.

En un video de una presentación interna de Operai en los mejores casos de uso para O1, Joe Casson, un ingeniero de soluciones en OpenAI, demostró cómo O1-Mini podría resultar útil para analizar el máximo beneficio en una llamada cubierta, una estrategia de negociación financiera. Casson también mostró cómo la versión de vista previa de O1 podría ayudar a alguien razonar a través de cómo crear un plan de expansión de la oficina.

Operai dice que el modo Pro de O1, una “versión de O1 que utiliza más cómputo para pensar más y proporcionar respuestas aún mejores a los problemas más difíciles”, es mejor para un razonamiento complejo, como crear un algoritmo para el pronóstico financiero utilizando modelos teóricos o generar un resumen de investigación de varias páginas en tecnologías emergentes.

O3 y O3-Mini

Los modelos pequeños han estado ganando tracción en la industria durante un tiempo como una alternativa más rápida y rentable a los modelos de base más grandes. Operai lanzó su primer modelo pequeño, O3 Mini, en enero, solo semanas después de que la startup de la startup china Butterfly Effect debutó el R1 de Deepseek, que conmocionó a Silicon Valley, y los mercados, con sus precios asequibles.

Openai dijo que 03 Mini es el “modelo más rentable” en su serie de razonamiento. Está destinado a manejar preguntas complejas, y Openai dijo que es particularmente fuerte en ciencias, matemáticas y codificación.

Julian Goldie, un influencer de las redes sociales que se centra en la estrategia de SEO, dijo en una publicación sobre el medio que O3 “brilla en tareas de desarrollo rápido” y es ideal para tareas de programación básicas en HTML y CSS, funciones simples de JavaScript y la construcción de prototipos rápidos. También hay una versión “mini alta” del modelo que, según él, es mejor para la “codificación y lógica compleja”, aunque tenía algunos problemas de control.

En abril, Openai lanzó una versión completa de O3, que llama “nuestro modelo de razonamiento más poderoso que empuja la frontera a través de la codificación, matemáticas, ciencias, percepción visual y más”.

Operai dice que el O3 se usa mejor para “tareas complejas o de múltiples pasos”, como la planificación estratégica, la codificación extensa y las matemáticas avanzadas.

O4 mini

Operai lanzó otro modelo más pequeño, el O4 Mini, en abril. Dijo que está “optimizado para un razonamiento rápido y rentable”.

La compañía dijo que logra un rendimiento notable para el costo, especialmente en “Matemáticas, codificación y tareas visuales”. Fue el modelo de referencia con mejor rendimiento en el examen de matemáticas de invitación estadounidense en 2024 y 2025.

O4 Mini, y su mini versión, son excelentes para un razonamiento rápido y más sencillo. Son buenos para acelerar cualquier tarea de razonamiento cuantitativo que encuentre durante su día. Si está buscando un trabajo más profundo, opte por O3.

Scott Swingle, alumbre de DeepMind y fundador de la compañía de herramientas de desarrolladores con IA Abante AI, probó O4 con un problema de Euler, una serie de problemas computacionales desafiantes lanzados cada semana más o menos. Dijo en una publicación sobre X que O4 resolvió el problema en 2 minutos y 55 segundos, “Mucho más rápido que cualquier solucionador humano. Solo 15 personas pudieron resolverlo en menos de 30 minutos”.

Operai dice que el O4 Mini se usa mejor para “tareas técnicas rápidas”, como consultas rápidas relacionadas con STEM. Dice que también es ideal para el razonamiento visual, como extraer puntos de datos clave de un archivo CSV o proporcionar un resumen rápido de un artículo científico.