Operai ha lanzado recientemente un conjunto de nuevas herramientas de desarrollador destinadas a facilitar la creación de agentes de IA que puedan realizar tareas complejas de forma autónoma. Anunciada la semana pasada, la actualización presenta una API de respuestas, un SDK de agentes de código abierto y herramientas incorporadas para la búsqueda web, la búsqueda de archivos y el control de la computadora, todos diseñados para optimizar cómo interactúan los sistemas de IA con información y aplicaciones del mundo real.
Operai describe a estos agentes como “sistemas que realizan de forma independiente las tareas en nombre de los usuarios”, lo que significa que pueden llevar a cabo procesos de varios pasos, como investigar un tema o actualizar una base de datos, con una orientación humana mínima. El objetivo de la compañía es reducir la barrera para que los desarrolladores y las empresas implementen poderosos asistentes impulsados por la IA, ampliando así la accesibilidad a las capacidades avanzadas de IA.
Respuestas API: Simplificar las interacciones del agente
En el corazón del anuncio de Operai se encuentra la nueva API de respuestas, que sirve como una interfaz unificada para construir agentes de IA. Esta API combina las habilidades de conversación de la API de finalización de chat de Openai con la funcionalidad de uso de herramientas de su API de asistentes anteriores. En términos prácticos, esto significa que una sola llamada API ahora puede manejar tareas complejas y de varios pasos que podrían implicar recurrir a varias herramientas o fuentes de conocimiento.
Operai dice que la API de respuestas fue construida para simplificar el desarrollo de agentes al reducir la necesidad de código personalizado y impermeabilizar. “La API de respuestas está diseñada para desarrolladores que desean combinar fácilmente los modelos Operai y las herramientas incorporadas en sus aplicaciones, sin la complejidad de integrar múltiples API o proveedores externos”. La compañía explicó en su publicación de blog de anuncios. Anteriormente, los desarrolladores a menudo tenían que orquestar múltiples llamadas de API y elaborar indicaciones elaboradas para que un agente de IA hiciera algo útil, lo que era desafiante y lento. Con la nueva API, un agente puede, por ejemplo, mantener una conversación con un usuario, la información de búsqueda a través de la búsqueda web, luego escribir un resumen, todo dentro de un flujo de trabajo.
En particular, la API de respuestas está disponible para todos los desarrolladores sin costo adicional más allá de las tarifas de uso estándar. También es compatible con retroceso: OpenAI confirmó que continuará apoyando su popular API de finalización de chat para casos de uso simples, mientras que la API de asistentes más antiguos se eliminará a mediados de 2026 a medida que sus características se doblen en la API de respuestas.
Agentes de código abierto SDK optimizaciones de flujo de trabajo Orquestación
El lanzamiento también incluye el SDK de los Agentes, un conjunto de herramientas para administrar los flujos de trabajo de uno o incluso múltiples agentes de IA interactuantes. En un movimiento notable, OpenAI ha realizado este código abierto SDK, permitiendo a los desarrolladores y empresas inspeccionar el código e incluso integrar modelos no openi en sus sistemas de agentes. Esta flexibilidad significa que una empresa podría coordinar un agente que utiliza el GPT-4 de OpenAI junto con otro agente impulsado por un modelo de IA diferente, todo dentro del mismo marco.
El SDK de los agentes se centra en la orquestación de flujo de trabajo, esencialmente, hacer un seguimiento de lo que está haciendo un agente y cómo entrega las tareas. Proporciona mecanismos incorporados para cosas como:
- Agentes configurables: Configuración de agentes de IA con roles predefinidos o instrucciones para tareas específicas.
- Transferencias inteligentes: Pasar tareas entre múltiples agentes o procesos basados en el contexto (por ejemplo, un agente que recopila datos, luego otro agente que lo analiza).
- Guardacas por seguridad: Asegurar que el agente permanezca dentro de ciertos límites, con herramientas de validación de entrada y moderación de contenido para evitar salidas no deseadas.
- Rastreo y observabilidad: Herramientas para monitorear y depurar las acciones de un agente paso a paso, lo que ayuda a los desarrolladores a comprender las decisiones y mejorar el rendimiento.
Según OpenAI, este conjunto de herramientas puede simplificar casos de uso complejos, como bots de atención al cliente, asistentes de investigación de varios pasos, flujos de trabajo de generación de contenido, agentes de revisión de código o automatización de prospección de ventas. Al emitir abierta el SDK, OpenAI también está alentando las contribuciones y la adopción de la comunidad en entornos empresariales, donde la transparencia y la capacidad de los componentes de autohospedas a menudo son importantes. Los primeros usuarios, incluidas compañías como Coinbase y Box, ya han experimentado con el SDK de los agentes para construir herramientas de investigación y extracción de datos con IA.
Las herramientas incorporadas mejoran la funcionalidad de IA
Para hacer que los agentes de IA fuera de casa fuera de la caja, la API de respuestas de OpenAI viene con tres herramientas incorporadas que conectan la IA con datos y acciones externas. Estas herramientas expanden significativamente lo que puede hacer un agente, yendo más allá de la generación de texto.
Las herramientas incorporadas disponibles en el lanzamiento son:
- Búsqueda web: Permite que un agente de IA realice búsquedas web en tiempo real y recupere información actualizada, completa con fuentes citadas. Esto significa que un agente puede responder preguntas utilizando las últimas noticias o hechos de Internet, y proporcionar las referencias de transparencia. Esta herramienta es útil para agentes de construcción como asistentes de investigación, guías de compras o planificadores de viajes que necesitan información en vivo.
- Búsqueda de archivos: Permite que un agente revise rápidamente a través de grandes colecciones de documentos o datos que un desarrollador ha proporcionado, para encontrar información relevante. Esto es esencialmente una herramienta de consulta de base de conocimiento privado: un agente podría usarlo para responder preguntas de atención al cliente buscando documentos de políticas o ayudar en la investigación legal al recuperar pasajes de una biblioteca de archivos. Esta herramienta se puede implementar en escenarios como bots de servicio al cliente o asistentes internos de la compañía que necesitan hacer referencia a información patentada.
- Uso de la computadora: Una nueva capacidad (actualmente en la vista previa de la investigación) que permite que un agente de IA realice acciones en una computadora como si fuera un usuario humano que operaba la máquina. Impulsada por el modelo de agente de uso informático (CUA) de OpenAI, esta herramienta traduce las intenciones de la IA en acciones de teclado y mouse para navegar en software, sitios web u otras interfaces digitales. En esencia, permite la automatización de tareas que no tienen una API fácil, por ejemplo, ingresar datos en un sistema heredado, hacer clic en una aplicación web para probar o verificar información sobre una interfaz gráfica.
Al integrar estas herramientas, los agentes de IA no solo pueden pensar en un problema, sino también actuar, ya sea para buscar información, recuperar datos específicos o manipular un entorno digital. Esto extiende en gran medida la funcionalidad de un agente y la hace mucho más útil para las aplicaciones del mundo real.
Operai imagina que los desarrolladores combinarán estas herramientas según sea necesario; Por ejemplo, un agente podría usar la búsqueda web para recopilar información pública y búsqueda de archivos para extraer datos internos, luego usar ese conocimiento combinado para redactar un informe o ejecutar una tarea. Todo esto puede orquestarse a través de la API de respuestas de manera unificada, en lugar de requerir servicios separados o integración manual.
Implicaciones más amplias para la adopción y accesibilidad de la IA
Los analistas dicen que este lanzamiento podría acelerar la adopción de agentes de IA en todas las industrias al reducir los obstáculos técnicos. Para las empresas, el atractivo de estas nuevas herramientas es la capacidad de automatizar y escalar procesos sin un desarrollo personalizado extenso.
Las tareas de rutina, como la recuperación de información, el procesamiento de formularios o la entrada de datos de la aplicación cruzada, que podrían haber requerido una codificación significativa o múltiples sistemas de software, ahora pueden ser manejados potencialmente por agentes de IA utilizando los bloques de construcción de OpenAI. Las herramientas de búsqueda incorporadas, por ejemplo, permiten a las empresas enchufar IA en sus bases de datos de conocimiento o en la web casi al instante, y la herramienta de uso de computadora ofrece una forma de interactuar con aplicaciones heredadas que no tienen API. Mientras tanto, la naturaleza de código abierto de los agentes SDK le da a las empresas más control, lo que les permite integrar a estos agentes de IA en su infraestructura existente e incluso usar diferentes modelos de IA según sea necesario.
El movimiento de Operai es parte de una carrera más amplia para empoderar a los desarrolladores con capacidades de construcción de agentes. Las empresas tecnológicas y las nuevas empresas competitivas han estado implementando sus propias plataformas de agentes de IA, y el conjunto de herramientas integral de OpenAI puede ayudarlo a destacarse. De hecho, el momento se produce en medio de un aumento de interés en los agentes autónomos de IA a nivel mundial; por ejemplo, la startup china Monica recientemente llamó la atención con su agente Manus, alegando que podría superar al propio agente prototipo de Openii en ciertas tareas. Mediante las partes clave abiertas de su plataforma y ofreciendo herramientas incorporadas, OpenAi parece estar respondiendo a la presión competitiva al tiempo que fomenta una adopción más amplia de IA.
Desde el punto de vista de la accesibilidad, estas herramientas podrían democratizar quién puede construir sistemas de IA avanzados. Las empresas más pequeñas e incluso los desarrolladores individuales ahora pueden encontrar que es posible crear un asistente o flujo de trabajo impulsado por la IA sin necesidad de un gran equipo de investigación. El enfoque integrado (donde una llamada API puede manejar múltiples pasos) y la disponibilidad de ejemplos en la documentación de OpenAI reduce la barrera de entrada para los recién llegados. Operai también proporciona una interfaz de observabilidad para que los desarrolladores rastreen e inspeccionen lo que el agente está haciendo, lo cual es crucial para depurar y generar confianza en las salidas de IA. Se espera que este enfoque en la usabilidad y la seguridad (con barandillas y monitoreo) aliente a más empresas a experimentar con los agentes de IA, sabiendo que tienen supervisión y control.
Los agentes de IA podrían volverse tan comunes y esenciales como tener presencia en Internet. Las últimas herramientas de Openai, al hacer que el desarrollo de agentes sea más accesible, podría ayudar a convertir esa visión en realidad al permitir que una comunidad mucho más amplia de desarrolladores y organizaciones construya sus propios agentes.