Connect with us

Noticias

El agente de operadores de Openai me ayudó a moverme, pero yo también tuve que ayudarlo

Published

on

Operai me dio una semana para probar su nuevo agente de IA, operador, un sistema que puede hacer tareas de forma independiente por Internet.

El operador es lo más parecido que he visto en la visión de la industria tecnológica de los agentes de IA, sistemas que pueden automatizar las partes aburridas de la vida, liberándonos para hacer las cosas que realmente amamos. Sin embargo, a juzgar por mi experiencia con el agente de Operai, los sistemas de IA verdaderamente “autónomos” todavía están fuera de alcance.

Operai capacitó un nuevo modelo para el operador de energía, que combina la comprensión visual de GPT-4O con las capacidades de razonamiento de O1.

Ese modelo parece funcionar bien para tareas básicas; Vi los botones de hacer clic en el operador, navegar los menús en los sitios web y completar formularios. La IA ocasionalmente tuvo éxito en tomar acciones de forma independiente, y funciona mucho más rápido que los agentes basados ​​en la web que he visto de Anthrope y Google.

Pero durante mi juicio, me encontré ayudando al agente de Openai más de lo que me gustaría. Se sentía como si estuviera entrenando al operador a través de cada problema, mientras que quería sacar ciertas tareas de mi plato por completo.

Con demasiada frecuencia durante mi prueba, tuve que responder varias preguntas, otorgar permisos, completar información personal y ayudar al agente cuando se atascó.

En términos del automóvil, el operador es como conducir un automóvil con control de crucero, ocasionalmente quitando el pie de los pedales y dejando que el automóvil conduzca en sí mismo, pero está lejos de ser automático en todo el mundo.

De hecho, Openai dice que las pausas frecuentes del operador son por diseño.

El operador de alimentación de IA, al igual que los chatbots de IA que impulsan como el chatgpt de OpenAi, no puede trabajar de manera confiable de forma independiente por largos períodos de tiempo, y es propenso al mismo tipo de alucinante. Debido a eso, Operai no quiere darle al sistema demasiada potencia de toma de decisiones o información confidencial del usuario. Tal vez esa sea una opción segura de OpenAI, pero reduce la practicidad del operador.

Dicho esto, el primer agente de Openai es una prueba de concepto impresionante, e interfaz, para una IA que puede usar el extremo frontal de cualquier sitio web. Pero para crear sistemas de IA verdaderamente independientes, las compañías tecnológicas necesitarán construir modelos de IA más confiables que no requieran tanta dirección.

Un poco también ‘manos’

Mi prueba de operador coincidió con la semana en que estaba mudando apartamentos, por lo que tuve ayuda del agente de OpenAI para mover la logística.

Le pedí al operador que me ayudara a comprar un nuevo permiso de estacionamiento. El agente de Operai me dijo: “Claro”, luego abrió una ventana a su navegador en la pantalla de mi PC.

Luego, el operador realizó una búsqueda de un permiso de estacionamiento de San Francisco en el navegador, me llevó al sitio web correcto de la ciudad e incluso a la página correcta.

El operador aún le permite usar el resto de su computadora mientras funciona, algo que no se puede decir para el Proyecto Mariner de Google. Esto se debe a que el agente de OpenAI no está realmente trabajando en la computadora, sino en la nube en alguna parte.

La interfaz del operador (crédito: Maxwell Zeff/OpenAI)

Para mi permiso de estacionamiento, tuve que otorgar permiso al operador para comenzar diferentes procesos demasiadas veces. También se detuvo para pedirme que completara formularios con información personal, como mi nombre, número de teléfono y dirección de correo electrónico. A veces, el operador también se perdió, obligándome a tomar el control del navegador y volver a poner al agente en el camino.

En otra prueba, le pedí al operador que me hiciera una reserva en un restaurante griego. Para su crédito, el operador me encontró un buen lugar en mi área con precios razonables. Pero tuve que responder más de media docena de preguntas durante todo el flujo.

Algunos pasos para hacer una reserva con el operador (crédito: Maxwell Zeff/OpenAi)

Si tiene que intervenir seis o más veces solo para reservar una reserva a través de un agente de IA, ¿en qué momento es más fácil hacerlo usted mismo? Esa es una pregunta que me hice mucho mientras probaba al operador.

Agente como plataforma

En algunas de mis pruebas, me encontré con sitios web que bloquearon al operador por cualquier razón. Por ejemplo, intenté reservar a un electricista usando TaskRabbit, pero el agente de OpenAi me dijo que se encontró con un error y pregunté si podría usar un servicio alternativo. Expedia, Reddit y YouTube también impidieron que el agente de IA accediera a sus plataformas.

Sin embargo, otros servicios están adoptando al operador con los brazos abiertos. Instacart, Uber y eBay colaboraron con OpenAI para el lanzamiento del operador, lo que permite al agente navegar en sus sitios web en nombre de los humanos.

Estas empresas se están preparando para un futuro en el que un agente de IA facilita un subconjunto de interacciones del usuario.

“Los clientes están utilizando Instacart a través de una variedad de diferentes puntos de entrada”, dijo Daniel Danker, director de productos de Instacart, en una entrevista con TechCrunch. “Vemos al operador como, potencialmente, otro de esos puntos de entrada”.

Dejar que el agente de Openi use el sitio web de Instacart en nombre de una persona parece que separaría a Instacart de sus clientes. Sin embargo, Danker dice que Instacart quiere conocer a los clientes donde sea que estén.

“Realmente somos optimistas sobre nuestra creencia, similar a OpenAI, que los sistemas de agente tendrán un gran impacto en cómo los consumidores interactúan con las propiedades digitales”, dijo el director de IA de eBay, Nitzan Mekel-Bobrov, en una entrevista con TechCrunch.

Incluso si los agentes de IA aumentan en la popularidad, Mekel-Bobrov dice que espera que los usuarios siempre vengan al sitio web de Ebay, señalando que “los destinos en línea no van a ninguna parte”.

Problemas de confianza

Tuve algunos problemas de confianza al operador después de que alucinó varias veces, y casi me costó varios cientos de dólares.

Por ejemplo, le pedí al agente que me encontrara un estacionamiento cerca de mi nuevo apartamento. Terminó sugiriendo dos garajes que dijo que tomarían solo unos minutos caminar.

Alucinación sobre las distancias de estacionamiento (Crédito: Maxwell Zeff/Openai)

Además de estar fuera de mi rango de precios, los garajes estaban realmente lejos de mi apartamento. Uno estaba a 20 minutos a pie, y el otro estaba a 30 minutos a pie. Resulta que el operador había puesto en la dirección incorrecta.

Esta es exactamente la razón por la cual Operai no le da a su agente su número de tarjeta de crédito, contraseñas o acceso al correo electrónico. Si Operai no me dejara intervenir aquí, el operador habría desperdiciado cientos de dólares en un lugar de estacionamiento que no necesitaba.

Las alucinaciones como esta son un obstáculo clave para agentes autónomos realmente útiles, que pueden quitar las tareas molestas de su plato. Nadie confiará en los agentes si son propensos a cometer errores básicos, especialmente errores con consecuencias del mundo real.

Con el operador, OpenAi parece haber creado algunas herramientas impresionantes para permitir que AI Systems navegue por la web. Pero estas herramientas no equivalerán mucho hasta que la IA de la base sea hacer lo que los usuarios le pidan que haga. Hasta entonces, los humanos estarán atrapados ayudando a agentes, no al revés. Y eso derrota el punto.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Creé una presentación completa usando Gemini en Google Diaides, así es como fue

Published

on

Google Slides es una herramienta poderosa, pero crear una presentación completa puede llevar mucho tiempo. Recientemente, Google introdujo la integración de Gemini en diapositivas y todas las aplicaciones del espacio de trabajo. Ahora, solo necesita indicaciones de texto para crear presentaciones atractivas e imágenes de alta calidad para sus diapositivas. Tuve que verlo yo mismo, y decidí experimentar con Géminis y lo encargué con la construcción de una presentación completa.

En esta publicación, comparto mi viaje y revelo cómo Gemini manejó el desafío y si ofrece la promesa de presentaciones sin esfuerzo.

Relacionado

Google Gemini: Todo lo que necesita saber sobre la IA multimodal de próxima generación de Google

Google Gemini está aquí, con un enfoque completamente nuevo para la IA multimodal

Acceso a Géminis en las diapositivas de Google: requisitos

Usando Géminis en las diapositivas de Google

Antes de encender las hojas de Google en la web, repasemos los requisitos. Si bien varios modelos Gemini son gratuitos de descargar y usar, pagará más para desbloquear el asistente de IA en las aplicaciones de productividad de Google.

Debe comprar el plan avanzado de Gemini a $ 20 por mes. Después de eso, la opción Géminis aparece en Docs, Hojas, Gmail, Google Drive y Slides. Google también ofrece un mes de prueba gratuita para usuarios elegibles.

Dado que Google Slides es una solución web, puede explorar la integración de Gemini en escritorios de Windows, Mac y Chromebooks.

Explorando Géminis en las diapositivas de Google

Genere diapositivas utilizando un mensaje de texto

Después de habilitar Gemini en Google Slides, es hora de verificarlo en acción. En el siguiente ejemplo, crearé una presentación sobre los beneficios de un estilo de vida saludable. Mi objetivo es cubrir los beneficios de la nutrición, el ejercicio regular, el bienestar mental y el manejo del estrés. Siga los pasos a continuación.

  1. Inicie las diapositivas de Google en la web e inicie sesión con los detalles de su cuenta de Google. Comience con una presentación en blanco.

  2. Abra Géminis desde la esquina superior derecha y escriba un aviso.

Escribir un aviso es una parte crucial de su proceso de presentación. Dado que es un tema amplio y adaptable, sea lo más descriptivo posible. En nuestro caso, escribiré un aviso a continuación para mi diapositiva de introducción.

Genere una diapositiva con el título “Los beneficios de un estilo de vida saludable”. Agregue una definición breve de un estilo de vida saludable, enfatizando el equilibrio del bienestar físico, mental y nutricional.

Esto es lo que se le ocurrió a Géminis. Puede volver a intentarlo si no está satisfecho con los resultados y haga clic en Insertar para agregarlo.

Géminis creando diapositivas en las diapositivas de Google

Ahora, haga clic + + Para agregar una nueva diapositiva y continuar escribiendo indicaciones para generar nuevas diapositivas para su presentación.

Cree una diapositiva titulada “Nutrición: alimentar su cuerpo”. Agregue información sobre la importancia de las frutas y verduras.

Géminis creando una diapositiva nutritiva

A diferencia de Copilot en PowerPoint, no puede crear múltiples diapositivas a la vez. Debes describir cada diapositiva por separado. Por lo tanto, asegúrese de planificar el esquema de su presentación.

Después de eso, creé cuatro diapositivas nuevas utilizando las indicaciones de texto a continuación.

Cree una diapositiva titulada, “Ejercicio: moverse para un usted más saludable”. Agregue información sobre la cantidad recomendada de ejercicio por semana.

Usar Géminis para crear una presentación

Crea una diapositiva titulada, “Bienestar mental: encontrar tu paz interior”. Agregue puntos de bala en buenos hábitos de sueño.

Diapositiva de bienestar mental para diapositivas de Google

Genere una diapositiva que enumere los beneficios de un estilo de vida saludable, que incluye un aumento de la energía, un mejor estado de ánimo y un mejor sueño.

Beneficios de la diapositiva de estilo de vida saludable

Cree una diapositiva de conclusión con pasos prácticos para adoptar un estilo de vida más saludable. Incluir puntos de bala orientados a la acción.

Use Géminis para crear conclusión diapositiva

Hubo algunos casos en los que no estaba satisfecho con los resultados. Entonces, le pedí a Gemini que recreara esas diapositivas. Además, no te sorprenderá con diseños de diapositivas llamativas y animaciones. Debe agregarlos manualmente y completar su presentación.

En cualquier momento, puede escribir @Nombre del archivo Y solicite a Gemini que se refiera a un documento de su cuenta de Google Drive. Por ejemplo, si escribió una dieta vegetariana en un documento, puede pedirle a Gemini que se refiera a ella para sus diapositivas de presentación.

Estás usando diapositivas generadas por AI. La precisión puede recibir un éxito cuando se trata de temas complejos como IA, fotografía computacional, aprendizaje automático y más. Compruebe dos veces antes de compartir la presentación con otros.

Relacionado

Google Gemini: 5 maneras de usar el asistente a día a día de Google con IA

Puede hacer que muchas tareas cotidianas sean mucho más fáciles

Crear e insertar imágenes con Gemini

No tenía idea de que Géminis podía crear imágenes basadas en indicaciones de texto. Es un gran ahorro de tiempo, ya que no necesita buscar imágenes en la web para obtener imágenes adecuadas para su presentación. Generé un par de imágenes relevantes utilizando las indicaciones de texto a continuación.

Una imagen de una placa equilibrada con proteína magra, granos integrales y verduras.

Generar una imagen con Géminis

Una fotografía de primer plano de un vaso de agua con rebanadas de limón y pepino.

Cree una imagen usando Gemini en Google Diagras

Gemini le ofrece cuatro opciones de imagen para sus diapositivas. Puede verlos e insertarlos en sus diapositivas.

Géminis hizo mis diapositivas

Géminis en Google Slides abrió mis ojos al potencial de la IA en la creación de presentación. Si bien no es un reemplazo perfecto para la creatividad humana y el pensamiento estratégico, es una herramienta poderosa para racionalizar el proceso, especialmente para elaborar borradores iniciales y imágenes llamativas.

Aún así, la supervisión humana es crucial, pero si tiene plazos ajustados o desea explorar nuevas formas de crear diapositivas atractivas, pruebe a Gemini. Gemini Advanced desbloquea el asistente de IA de Google en otras aplicaciones de productividad como Google Sheets. Así es como puedes aumentar tus hojas de cálculo con Gemini.

Continue Reading

Noticias

Google Assistant Transitions a Gemini: cambios clave por delante

Published

on

Google Assistant está evolucionando a Géminis, trayendo potentes nuevas capacidades de IA pero también descontinuando algunas características favoritas. Si usa el Asistente de Google para establecer temporizadores, reproducir música o controlar su hogar inteligente, prepárese para algunas interrupciones significativas a medida que la compañía comienza a reemplazar al asistente de nueve años con su chatbot Gemini más nuevo, más potente y alimentado por IA. Este artículo describirá los cambios clave que puede esperar, ayudándole a prepararse para la transición y comprender lo que será diferente.

Gemini representa un salto gigante en la capacidad en comparación con el Asistente de Google. Podrá chatear con Gemini de manera similar a la forma en que hablas con Google Assistant ahora, pero como se basa en modelos de lenguaje grande (LLM) con AI, Gemini puede ser mucho más conversacional y útil, capaz de realizar tareas más desafiantes y capaz de adaptarle sus respuestas específicamente a usted. Google ya ha comenzado la transición a Gemini. Los teléfonos inteligentes son los primeros en cambiar y serán seguidos por altavoces inteligentes, televisores, otros dispositivos domésticos, dispositivos portátiles y automóviles en los próximos meses. Los teléfonos inteligentes, con algunas excepciones importantes, se habrán mudado a Gemini por completo a fines de 2025, ya que “el asistente clásico de Google ya no se puede acceder en la mayoría de los dispositivos móviles o disponible para nuevas descargas en tiendas de aplicaciones móviles”, según Google.

Continue Reading

Noticias

Cómo se puede mejorar la investigación profunda de Chatgpt con 8 características clave

Published

on

La herramienta de investigación profunda de Chatgpt es fantástica para profundizar en casi cualquier tema que elija, pero aún necesita algunas mejoras para ser realmente útiles. Utilizo investigaciones profundas todo el tiempo y creo que sería mucho mejor con estas características adicionales.

1

Parámetros personalizables

Cuando uso la investigación de chatgpt profunda, normalmente respondo preguntas de seguimiento para darle a la herramienta más contexto. Sin embargo, desearía poder usar parámetros personalizables en su lugar.

Imaginaría que esta característica funcione como filtros al comprar en línea. Me encantaría elegir cuántos recursos quiero que se analice ChatGPT, junto con los plazos publicados. Además, sería genial si pudiera buscar en función de diferentes palabras clave.

Los parámetros personalizables mantendrían mi investigación mucho más organizada. Siento que los resultados valdrían la pena el tiempo que lleva a ChatGPT realizar investigaciones profundas también. Hasta que esto suceda, hay al menos formas en que puede obligar a ChatGPT a usar fuentes de alta calidad.

2

Opciones de diseño de investigación

La función de investigación profunda de ChatGPT puede establecer información de múltiples maneras. Por ejemplo, utilizará tablas al comparar estadísticas u otros aspectos. En otros casos, la herramienta establecerá información en subsecciones integrales.

Si bien varias opciones de diseño son buenas, desearía que ChatGPT me permita elegir cómo quiero que presente información. A veces, veo contenido presentado en forma de oración cuando prefiero usar tablas.

A veces uso las indicaciones para pedirle a ChatGPT que presente información en mi formato preferido, pero desafortunadamente, no siempre escucha.

3

Una asignación mensual más grande

Quizás mi mayor queja con la herramienta de investigación profunda de Chatgpt es lo fácil que es usar sus créditos mensuales. Aunque esto está bien para los usuarios casuales, 10 consultas mensuales no son suficientes para las personas que regularmente necesitan realizar una investigación integral. Revisé mis consultas en dos días.

Podía entender diez consultas mensuales para usuarios gratuitos; En estos casos, en realidad creo que sería un buen valor. Sin embargo, como alguien que paga $ 20 por mes por ChatGPT, no puedo evitar sentir que no me dan el mejor servicio posible.

Quedarse sin solicitudes en chatgpt

Por lo menos, creo que 15-20 consultas mensuales son justas para un plan positivo. Aumentaría aún más estas asignaciones para suscripciones de nivel superior. Operai podría incentivar a las personas a registrarse para estos planes al hacerlo, lo que resulta en una mejor experiencia del usuario y un aumento de los ingresos.

4

Una sección separada en chatgpt

Utilizo ChatGPT para múltiples conversaciones, ya sea que esté planeando una nueva parte de mi vida o quiero trabajar a través de mis pensamientos actuales. A medida que creo más chats, la interfaz se vuelve torpe y desorganizada. Molesto, no tengo forma de diferenciar entre conversaciones y discusiones ordinarias en las que he usado investigaciones profundas.

Si bien puedo crear nuevos proyectos a través de la barra lateral, prefiero que ChatGPT organice automáticamente mis conversaciones con una investigación profunda. Esta sería una mejora efectiva para la interfaz de usuario de ChatGPT, y no sería particularmente difícil de implementar.

Incluso si la aplicación no tuviera una sección separada, un diferenciador, como un ícono, sería útil.

5

Integración con GPTS personalizados

Los GPT personalizados son la función más subestimada de ChatGPT. Me encanta lo fácil que son para obtener el tipo de respuesta exacto que estaba buscando, y hay útiles GPT personalizados para todo tipo de intereses. Pero desafortunadamente, actualmente no puede integrarlos con la función de investigación profunda.

Siento que las respuestas serían mucho más precisas si tuvieran el contexto de GPT personalizados. Esto es particularmente cierto, considerando que algunos de mis chats normales tienen múltiples temas.

GPT personalizado como asistente de programación

No sé cómo sería posible porque imagino que los dos programas entrarían en conflicto. Pero si hubiera una manera de integrar investigaciones profundas y GPT personalizados, no veo cómo cualquier otra herramienta de IA podría competir en esta área.

6

La capacidad de dividir el texto en trozos más pequeños

He comparado la investigación profunda de ChatGPT con herramientas similares, como el equivalente de Microsoft Copilot. Cuando se trata de respuestas detalladas, la investigación profunda se encuentra en la cabeza y los hombros por encima de su competencia. Pero al mismo tiempo, a veces veo enormes párrafos una vez que la investigación ha concluido.

Encontrar información de la dieta en Chatgpt Investigación profunda

La lectura de Skim en una pantalla es mucho más difícil que con un libro, y a veces pierdo los puntos clave en la investigación. Cuando esto sucede, la investigación tarda más de lo que debería. Romper el texto en trozos más pequeños sería una solución simple pero efectiva.

Si todo el texto es realmente importante, ChatGPT podría dividirlo en más subsecciones. De esa manera, podría identificar la información más esencial fácilmente.

7

La opción de excluir sitios web específicos

La información inexacta es uno de los muchos grandes problemas con ChatGPT, y lamentablemente, esto se extiende a la función de investigación profunda. Puedo examinar ciertos sitios web al investigar a través de motores de búsqueda, pero este no es el caso cuando se utiliza una investigación profunda, lo que significa que debo tener mucho cuidado para verificar los recursos.

He visto características similares en otros tipos de aplicaciones, como bloqueadores de sitios web. La forma en que veo esto, los usuarios podrían ingresar a la URL para excluir un sitio de la búsqueda. Me imagino que esto aumentaría el tiempo que lleva completar estas tareas, pero sería un gran éxito.

8

Audio

ChatGPT tiene algunas características de voz geniales, pero ninguna se aplica a una investigación profunda. Tengo que escribir indicaciones de texto y recibo respuestas escritas. Si bien normalmente estoy contento con estas búsquedas, a veces me gustaría usar audio.

Cambiar la voz del altavoz en el modo de voz en chatgpt.

Además de hablar por una investigación profunda, agradecería las respuestas escritas. Me encantaría que la herramienta me cuente sobre sus hallazgos y proporcione una transcripción más tarde. Esto sería interactivo y beneficioso para las personas que aprenden mejor a través de la escucha que la lectura.

Operai inevitablemente agregará nuevas características a la herramienta de investigación profunda de ChatGPT a su debido tiempo, y creo que debería priorizar algunas adiciones simples pero efectivas. Los parámetros personalizables conducirían a hallazgos más precisos, y tener más control sobre el diseño de información también sería bueno.

Continue Reading

Trending