Connect with us

Noticias

Anunciando las respuestas API y agente de uso de la computadora en Azure Ai Foundry

Published

on

Estamos entusiasmados de presentar dos poderosas innovaciones en Azure Ai Foundry.

Los agentes de IA están transformando las industrias automatizando los flujos de trabajo, mejorando la productividad y permitiendo la toma de decisiones inteligentes. Las empresas están aprovechando a los agentes de IA para procesar reclamos de seguro, administrar escritorios de servicios de TI, optimizar la logística de la cadena de suministro e incluso ayudar a los profesionales de la salud a analizar los registros médicos. El potencial es vasto, y estamos entusiasmados de introducir dos innovaciones poderosas en Azure Ai Foundry:

  • Respuestas API: Una potente API que permite aplicaciones con IA para recuperar información, procesar datos y tomar medidas sin problemas.
  • Agente de uso de la computadora (CUA): Un modelo AI innovador que navega por las interfaces de software, ejecuta tareas y automatiza los flujos de trabajo.

Juntas, estas capacidades capacitan a las empresas para reinventar la IA no solo como asistente, sino como una fuerza laboral digital activa. Los clientes empresariales pronto obtendrán acceso a estas innovaciones que impulsan la automatización, la eficiencia y la inteligencia a escala.

Mejora de los agentes de IA con la API de respuestas

La API de las respuestas es la clave para desbloquear la IA agente en la fundición de Azure Ai, transformando cómo las empresas aprovechan la IA para el impacto del mundo real. Es la nueva base para aprovechar las potentes herramientas incorporadas del Servicio OpenAi, que combina la simplicidad de la API de finalización de chat con las capacidades avanzadas disponibles a través de la API de asistentes y el servicio de agentes de AI Azure. La API de respuestas permite una interacción perfecta con herramientas como CUA, intérprete de código, llamadas de funciones y búsqueda de archivos, todo en una sola llamada API. Esta API permite a los sistemas de IA recuperar datos, información del proceso y tomar medidas, conectando a la corriente AI de agente con flujos de trabajo empresariales.

Cómo funcionan las respuestas API

La API de respuestas proporciona un formato de respuesta estructurado que permite a la IA interactuar con múltiples herramientas mientras mantiene el contexto a través de las interacciones. Es compatible:

  • Llamadas de herramientas en una simple llamada de API: Ahora, los desarrolladores pueden integrar sin problemas las herramientas de IA, haciendo que la ejecución sea más eficiente.
  • Uso de la computadora: Use la herramienta de uso de la computadora dentro de la API de respuestas para impulsar la automatización y ejecutar interacciones de software.
  • Búsqueda de archivos: Interactuar con los datos empresariales dinámicamente y extraer información relevante.
  • Intérprete de código: Cree y ejecute el código Python sin esfuerzo dentro de las aplicaciones con AI.
  • Funciones llamadas: Desarrollar e invocar funciones personalizadas para mejorar las capacidades de IA.
  • Encadenamiento de respuestas en conversaciones: Realice un seguimiento de las interacciones vinculando las respuestas juntas utilizando ID de respuesta únicos, asegurando la continuidad en los diálogos impulsados ​​por la IA.
  • Privacidad de datos de grado empresarial: Construido con los estándares de seguridad y cumplimiento confiables de Azure, asegurando la protección de datos para las organizaciones.

Al consolidar la recuperación, el razonamiento y la ejecución de la acción en una sola API, la API de respuestas simplifica el desarrollo del agente de IA, reduciendo la complejidad de orquestar múltiples herramientas de IA dentro de una tubería de automatización.

Esta escalabilidad lo hace bien adecuado para los casos de uso empresarial en todas las industrias, como el servicio al cliente, las operaciones de TI, las finanzas y la gestión de la cadena de suministro, donde la automatización con IA puede optimizar los flujos de trabajo y mejorar la eficiencia. Para una flexibilidad y control aún mayor, las organizaciones pueden explorar el servicio de agentes de AI Azure, que ofrece herramientas y modelos adicionales para desarrollar y escalar agentes de IA. El servicio de agente Azure AI se integra con el núcleo semántico y el autógeno, lo que permite una orquestación múltiple sin problemas para escenarios más complejos que requieren múltiples agentes que colaboren en las tareas.

Empoderar a los agentes de IA con el agente que usa la computadora

El agente de uso de la computadora (CUA) es un modelo de IA especializado en el servicio Azure OpenAI que permite a la IA interactuar con interfaces gráficas de usuario (GUI), navegar aplicaciones y automatizar tareas de varios pasos, todo a través de instrucciones de lenguaje natural. A diferencia de las herramientas de automatización tradicionales que se basan en scripts predefinidos o integraciones basadas en API, CUA puede interpretar elementos visuales, adaptarse dinámicamente y tomar medidas basadas en el contenido en pantalla.

¿Qué hace que el agente de uso de la computadora sea único?

  • Navegación de interfaz de usuario autónoma: Puede abrir aplicaciones, hacer clic en botones, completar formularios y navegar en flujos de trabajo de varias páginas.
  • Adaptación dinámica: Interpreta los cambios en la interfaz de usuario y ajusta las acciones en consecuencia, reduciendo la dependencia de los scripts rígidos de automatización.
  • Ejecución de tareas de aplicación cruzada: Opera en aplicaciones basadas en la web y de escritorio, integrando sistemas dispares sin dependencias de API.
  • Interfaz de comando del lenguaje natural: Los usuarios pueden describir una tarea en lenguaje sencillo, y el CUA determina las interacciones de interfaz de usuario correctas para ejecutar.

Con el anuncio de hoy, los desarrolladores pueden comenzar a construir capacidades de agente adicionales de inmediato con CUA. A medida que las empresas buscan implementar esta tecnología a escala, estamos evaluando la integración con Windows 365 y el escritorio virtual de Azure para permitir que la automatización de CUA se ejecute perfectamente en un entorno de host administrado en PC en la nube o máquinas virtuales (VM), asegurando un rendimiento constante mientras mantiene el cumplimiento empresarial y los estándares de seguridad.

Garantizar la automatización de IA segura y confiable

A medida que los sistemas de IA se vuelven más autónomos, garantizar la seguridad, la confiabilidad y la alineación con la intención humana es fundamental. El modelo CUA es uno de los primeros modelos de IA de agentes capaces de interactuar directamente con entornos de software, trayendo nuevos desafíos en la prevención de uso indebido, acciones no deseadas y riesgos adversos. Para abordarlos, Microsoft y OpenAI han implementado un enfoque de seguridad de varias capas que abarca el modelo, el sistema y los niveles de implementación.

El modelo CUA se desarrolla con salvaguardas para rechazar tareas dañinas, rechazar acciones no autorizadas y evitar el mal uso. A nivel del sistema, Microsoft implementa el filtrado de contenido de grado empresarial y el monitoreo de la ejecución para ayudar a detectar y prevenir violaciones de políticas. Para minimizar las acciones no deseadas, CUA está diseñado para solicitar confirmaciones del usuario antes de ejecutar tareas irreversibles y restringir acciones de alto riesgo, como transacciones financieras.

El confiable marco de IA de Microsoft garantiza aún más la observabilidad en tiempo real, la registro y la auditoría de cumplimiento para las implementaciones empresariales. Los sistemas de detección automatizados y humanos en el bucle controlan patrones de ejecución, identificando comportamientos anómalos y aplicando políticas de gobernanza. Estas salvaguardas se refinan continuamente en función de la marcha roja interna, las auditorías externas y las pruebas del mundo real para fortalecer la protección contra inyecciones inmediatas, manipulaciones adversas y acceso no autorizado. Dado el nivel de confiabilidad actual del modelo CUA, particularmente en entornos no artificiales, la supervisión humana sigue siendo muy recomendable para operaciones sensibles.

A medida que evolucionan los agentes de IA, Microsoft está comprometido con la transparencia, la seguridad y la mitigación continua de riesgos. Al combinar las salvaguardas incorporadas de CUA con las herramientas empresariales de cumplimiento y gobierno de Azure, las organizaciones pueden implementar la automatización con confianza con confianza, asegurando la adopción de IA segura y responsable a escala.

Comenzando con CUA y respuestas API

Azure Ai Foundry continúa empujando los límites de la automatización con AI. Los clientes empresariales obtendrán acceso a las respuestas API y CUA en el servicio Azure OpenAI en las próximas semanas.

Estamos emocionados de ver cómo los desarrolladores y las empresas innovan con estas nuevas capacidades.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Acabo de probar Manus vs Chatgpt con 5 indicaciones: aquí está el ganador

Published

on

Desde su lanzamiento la semana pasada, el agente de IA Manus ha ganado rápidamente tracción en línea. Desarrollado por la startup mariposa con sede en Wuhan, la comunidad de IA se ha dado cuenta, con más de 2 millones de personas en la lista de espera.

Al compararlo con Deepseek, Manus se distingue a sí mismo como lo que dice ser el primer agente general de IA del mundo, lo que lo distingue de los chatbots de IA tradicionales. En lugar de confiar en un solo modelo de lenguaje grande, como ChatGPT, Grok, Deepseek y otros sistemas de IA conversacionales, Manus opera con múltiples modelos de IA, incluidos el soneto Claude 3.5 de Anthrope y las versiones ajustadas de Alibaba’s Open-Source Qwen.

Continue Reading

Noticias

Operai pide a Trump que elimine las restricciones a la industria de la IA

Published

on

Operai ha presentado una larga propuesta al gobierno de los Estados Unidos, con el objetivo de influir en su próximo plan de acción de IA, un informe de estrategia que muchos creen que guiará la política del presidente Donald Trump sobre la tecnología de inteligencia artificial.

La propuesta de la compañía de IA más reconocible de Estados Unidos es previsiblemente controvertida, y requiere que el gobierno de los Estados Unidos enfatice la velocidad del desarrollo sobre el escrutinio regulatorio, al tiempo que advierte los peligros que plantean las empresas de IA chinas para el país.

Trump pidió que el Plan de Acción de AI fuera redactado por la Oficina de Política de Ciencia y Tecnología y se sometió a él para julio poco después de asumir su segunda residencia en la Casa Blanca. Eso sucedió en enero, cuando expulsó una orden ejecutiva relacionada con la IA que fue firmada por su predecesor Joe Biden en octubre de 2023, reemplazándola con la suya, declarando que “es la política de los Estados Unidos para mantener y mejorar el dominio global de IA de Estados Unidos”.

Operai ha perdido poco tiempo al tratar de influir en las recomendaciones en ese plan, y en su propuesta dejó en claro sus sentimientos sobre el nivel actual de regulación en la industria de la IA. Pidió que los desarrolladores de IA recibieran “la libertad de innovar en el interés nacional”, y abogó por una “asociación voluntaria entre el gobierno federal y el sector privado”, en lugar de “leyes estatales demasiado pesadas”.

Argumenta que el gobierno federal debería poder trabajar con compañías de IA de manera “puramente voluntaria y opcional”, diciendo que esto ayudará a promover la innovación y la adopción de la tecnología. Además, pidió a los EE. UU. Que cree una “estrategia de control de exportación” que cubra los sistemas de IA fabricados en Estados Unidos, que promoverán la adopción global de su tecnología de IA de cosecha propia.

Impulso por la adopción del gobierno

La compañía argumenta además en sus recomendaciones que el gobierno otorga a las agencias federales una mayor libertad para “probar y experimentar” las tecnologías de IA que utilizan “datos reales”, y también solicitó a Trump que otorgue una exención temporal que negaría la necesidad de que los proveedores de IA estén certificados bajo el programa federal de gestión de riesgos y autorización. Pidió a Trump que “modernice” el proceso que las compañías de IA deben pasar para ser aprobadas para el uso del gobierno federal, pidiendo la creación de una “ruta más rápida basada en criterios para la aprobación de las herramientas de IA”.

Openai argumenta que sus recomendaciones harán posible que las agencias del gobierno federal utilicen los nuevos sistemas de IA hasta 12 meses más rápido de lo que es posible actualmente. Sin embargo, algunos expertos de la industria han expresado su preocupación de que la adopción tan rápida de la IA por parte del gobierno podría crear problemas de seguridad y privacidad.

Al presionar más, OpenAi también le dijo al gobierno de los Estados Unidos que debería asociarse más estrechamente con las empresas del sector privado para construir sistemas de IA para uso de seguridad nacional. Explicó que el gobierno podría beneficiarse de tener sus propios modelos de IA que están capacitados en conjuntos de datos clasificados, ya que estos podrían “ajustados para ser excepcionales en las tareas de seguridad nacional”.

Operai tiene un gran interés en abrir el sector del gobierno federal para productos y servicios de IA, después de haber lanzado una versión especializada de ChatGPT, llamada ChatGPT Gov, en enero. Está diseñado para ser dirigido por agencias gubernamentales en sus propios entornos informáticos seguros, donde tienen más control sobre la seguridad y la privacidad.

‘Libertad para aprender’

Además de promover el uso gubernamental de la IA, Operai también quiere que el gobierno de los Estados Unidos facilite su propia vida al implementar una “estrategia de derechos de autor que promueva la libertad de aprender”. Pidió a Trump que desarrollara regulaciones que preservarán la capacidad de los modelos de IA estadounidenses para aprender de los materiales con derechos de autor.

“Estados Unidos tiene tantas nuevas empresas de IA, atrae tanta inversión y ha hecho tantos avances de investigación en gran medida porque la doctrina de uso justo promueve el desarrollo de IA”, declaró la compañía.

Es una solicitud controvertida, porque la compañía actualmente está luchando contra múltiples organizaciones de noticias, músicos y autores sobre reclamos de infracción de derechos de autor. El ChatGPT original que se lanzó a fines de 2022 y los modelos más poderosos que se han lanzado desde entonces están en gran medida entrenados en Internet público, que es la principal fuente de su conocimiento.

Sin embargo, los críticos de la compañía dicen que básicamente está plagiando contenido de los sitios web de noticias, de los cuales muchos están paseados por pagos. Operai ha sido golpeado con demandas por el New York Times, el Chicago Tribune, el New York Daily News y el Centro de Informes de Investigación, la sala de redacción sin fines de lucro más antigua del país. Numerosos artistas y autores también han emprendido acciones legales contra la empresa.

Si no puedes vencerlos, ¿prohibirlos?

Las recomendaciones de Openai también apuntaron a algunos de los rivales de la compañía, en particular Deepseek Ltd., el laboratorio de IA chino que desarrolló el modelo Deepseek R-1 con una fracción del costo de cualquier cosa que Operai haya desarrollado.

La compañía describió a Deepseek como “subsidiado por el estado” y “controlado por el estado”, y le pidió al gobierno que considerara prohibir sus modelos y los de otras empresas chinas de IA.

En la propuesta, Openai afirmó que el modelo R1 de Deepseek es “inseguro”, porque la ley china requiere que cumpla con ciertas demandas con respecto a los datos del usuario. Al prohibir el uso de modelos de China y otros países de “nivel 1”, Estados Unidos podría minimizar el “riesgo de robo de IP” y otros peligros, dijo.

“Mientras Estados Unidos mantiene una ventaja en la IA hoy, Deepseek muestra que nuestro liderazgo no es ancho y está reduciendo”, dijo Openii.

Foto: TechCrunch/Flickr

Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.

Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.

Únete a nuestra comunidad en YouTube

Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, ​​el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.

“TheCube es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente les apreciamos que vengan y sé que la gente aprecia el contenido que crean también ” – Andy Jassy

GRACIAS

Continue Reading

Noticias

Google DeepMind tiene como objetivo útil Robots AI útiles

Published

on

Google Deepmind ha introducido Gemini Robotics, nuevos modelos de IA diseñados para traer razonamiento avanzado y capacidades físicas a los robots.

Construido sobre la base de Gemini 2.0, los nuevos modelos representan un salto hacia la creación de robots que pueden entender e interactuar con el mundo físico de manera que anteriormente se limitaron al ámbito digital.

Los nuevos modelos, Robótica de Géminis y Géminis robótica (Razonamiento encarnado), tiene como objetivo permitir a los robots realizar una gama más amplia de tareas del mundo real combinando la visión avanzada, el lenguaje y las capacidades de acción.

https://www.youtube.com/watch?v=4mvgnmpp3c0

Gemini Robotics tiene como objetivo cerrar la brecha física digital

Hasta ahora, los modelos de IA como Gemini se han destacado en el razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, sus habilidades se han limitado en gran medida a las aplicaciones digitales.

Para que los modelos de IA realmente útiles en la vida cotidiana, deben poseer “razonamiento encarnado” (es decir, la capacidad de comprender y reaccionar ante el mundo físico, al igual que los humanos).

Gemini Robotics aborda este desafío al introducir acciones físicas Como una nueva modalidad de salida, permitiendo que el modelo controle directamente los robots. Mientras tanto, Gemini Robotics-ER mejora la comprensión espacial, lo que permite a los robotistas para integrar las capacidades de razonamiento del modelo en sus propios sistemas.

Estos modelos representan un paso fundamental hacia una nueva generación de robots útiles. Al combinar la IA avanzada con la acción física, Google Deepmind está desbloqueando el potencial de los robots para ayudar en una variedad de configuraciones del mundo real, desde hogares hasta lugares de trabajo.

Características clave de Géminis Robótica

Gemini Robotics está diseñado con tres cualidades centrales en mente: generalidad, interactividady destreza. Estos atributos aseguran que el modelo pueda adaptarse a diversas situaciones, responder a entornos dinámicos y realizar tareas complejas con precisión.

Generalidad

Gemini Robotics aprovecha las capacidades mundiales de Enderstanding de Gemini 2.0 para generalizar en situaciones novedosas. Esto significa que el modelo puede abordar las tareas que nunca antes había encontrado, adaptarse a nuevos objetos y operar en entornos desconocidos. Según Google Deepmind, Gemini Robotics duplica más que el rendimiento de los modelos de acción de la visión de última generación en los puntos de referencia de generalización.

https://www.youtube.com/watch?v=SY20X_TYWPQ

Interactividad

Para funcionar de manera efectiva en el mundo real, los robots deben interactuar sin problemas con las personas y sus alrededores. Gemini Robotics sobresale en esta área, gracias a sus capacidades avanzadas de comprensión del idioma. El modelo puede interpretar y responder a las instrucciones del lenguaje natural, monitorear su entorno para los cambios y ajustar sus acciones en consecuencia.

Por ejemplo, si un objeto se desliza del alcance de un robot o es movido por una persona, Gemini Robotics puede replantar rápidamente y continuar la tarea. Este nivel de adaptabilidad es crucial para las aplicaciones del mundo real, donde la imprevisibilidad es la norma.

https://www.youtube.com/watch?v=hyqs2oaif-i

Destreza

Muchas tareas cotidianas requieren habilidades motoras finas que tradicionalmente han sido desafiantes para los robots. Gemini Robotics, sin embargo, demuestra una destreza notable, lo que permite realizar tareas complejas y de varios pasos, como el origami plegable o empacar un refrigerio en una bolsa Ziploc.

https://www.youtube.com/watch?v=x-exzz-ciuw

Realizaciones múltiples para diversas aplicaciones

Una de las características destacadas de Gemini Robotics es su capacidad para adaptarse a diferentes tipos de robots. Si bien el modelo se capacitó principalmente utilizando datos de la plataforma robótica bi-brazo Aloha 2, también se ha probado con éxito en otras plataformas, incluidas las armas Franka utilizadas en los laboratorios académicos.

Google Deepmind también está colaborando con Apptronik para integrar la robótica de Géminis en su robot humanoide, Apollo. Esta asociación tiene como objetivo desarrollar robots capaces de completar tareas del mundo real con eficiencia y seguridad sin precedentes.

Gemini Robotics-ER es un modelo diseñado específicamente para mejorar las capacidades de razonamiento espacial. Este modelo permite a los robotistas conectar las habilidades de razonamiento avanzado de Gemini con sus controladores de bajo nivel existentes, lo que permite tareas como la detección de objetos, la percepción 3D y la manipulación precisa.

Por ejemplo, cuando se le muestra una taza de café, Gemini Robotics-ER puede determinar una comprensión de dos dedos apropiada para recogerla por el mango y planificar una trayectoria segura para abordarlo. El modelo logra una tasa de éxito 2X-3X en comparación con Gemini 2.0 en tareas de extremo a extremo, lo que lo convierte en una herramienta poderosa para los robotistas.

Priorizar la seguridad y la responsabilidad

Google Deepmind dice que la seguridad es una prioridad y posteriormente ha implementado un enfoque en capas para garantizar la seguridad física de los robots y las personas que los rodean. Esto incluye la integración de medidas de seguridad clásicas, como la evitación de colisiones y la limitación de la fuerza, con las capacidades de razonamiento avanzado de Gemini.

Para avanzar aún más en la investigación de seguridad, Google Deepmind está lanzando el conjunto de datos Asimov, un nuevo recurso para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporada. El conjunto de datos está inspirado en el de Isaac Asimov Tres leyes de robótica y tiene como objetivo ayudar a los investigadores a desarrollar robots que sean más seguros y más alineados con los valores humanos.

Google Deepmind está trabajando con un grupo selecto de probadores, incluidos robots ágiles, robots de agilidad, dinámica de Boston y herramientas encantadas, para explorar las capacidades de Gemini Robotics-Er. Google dice que estas colaboraciones ayudarán a refinar los modelos y guiarán su desarrollo hacia aplicaciones del mundo real.

Al combinar el razonamiento avanzado con la acción física, Google Deepmind está allanando el camino para un futuro donde los robots pueden ayudar a los humanos en una amplia gama de tareas, desde tareas domésticas hasta aplicaciones industriales.

Ver también: La ‘bolsa de golf’ de los robots abordará entornos peligrosos

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Echa un vistazo a AI y Big Data Expo que tendrá lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluida la Conferencia de Automatización Inteligente, Blockx, la Semana de Transformación Digital y Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web de tecnología empresarial alimentados por TechForge aquí.

Etiquetas: IA, inteligencia artificial, profunda, IA encarnada, robótica de Géminis, Google, modelos, robótica, robots

Continue Reading

Trending