Connect with us

Noticias

OpenAI Newly Released AI Product ‘Swarm’ Swiftly Brings Agentic AI Into The Real World

Published

on

In today’s column, I examine the newly announced OpenAI product called Swarm and explain how this significant unveiling brings the emerging realm of agentic AI into tangible reality.

There is increasing momentum regarding agentic AI as the future next-stretch for the advent of advances in generative AI and large language models or LLMs. Anyone interested in where AI is going ought to be up-to-speed about Swarm since it comes from OpenAI, the 600-pound gorilla or big whale when it comes to advances in generative AI.

Let’s talk about it.

This analysis of an innovative proposition is part of my ongoing Forbes.com column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here).

Agentic AI Fundamentals

Before I do the unpacking of Swarm, I want to make sure we are all on the same page about agentic AI. I’ll provide the keystones of interest. For my detailed coverage of agentic AI, see the link here.

Here’s the deal.

Imagine that you are using generative AI to plan a vacation trip. You would customarily log into your generative AI account such as making use of the widely popular ChatGPT by OpenAI. The planning of your trip would be easy-peasy due to the natural language fluency of ChatGPT. All you need to do is describe where you want to go, and then seamlessly engage in a focused dialogue about the pluses and minuses of places to stay and the transportation options available.

When it comes to booking your trip, the odds are you would have to exit generative AI and start accessing the websites of the hotels, amusement parks, airlines, and other locales to buy your tickets. Few of the major generative AI available today will take that next step on your behalf. It is up to you to perform those tasks.

This is where agents and agentic AI come into play.

In earlier days, you would undoubtedly phone a travel agent to make your bookings. Though there are still human travel agents, another avenue would be to use an AI-based agent that is based on generative AI. The AI has the interactivity that you expect with generative AI. It also has been preloaded with a series of routines or sets of tasks that underpin the efforts of a travel agent. Using everyday natural language, you interact with the agentic AI which works with you on your planning and can proceed to deal with the nitty-gritty of booking your travel plans.

As a use case, envision that there is an overall AI agent that will aid your travel planning and booking. This agentic AI might make use of other AI agents to get the full job done for you. For example, there might be an AI agent booking hotels and doing nothing other than that specific task. Another AI agent books flights. And so on.

The overarching AI travel agent app would invoke or handoff phases of the travel booking activity to the respective AI agents. Those AI agents would perform their particular tasks and then go back to the overarching AI travel agent to indicate how things went.

You could say that the AI travel agent app is orchestrating the overall planning and booking process. This is done via a network of associated AI agents that undertake specialized tasks. The AI agents communicate with each other by passing data back and forth. For example, you might have given your name and credit card info to the AI travel agent app and it passes that along to the AI agent booking the hotel and the AI agent booking your flights.

In a sense, the AI agents are collaborating with each other. I somewhat hesitate to use the word “collaborate” because that might imply a semblance of sentience and overly anthropomorphize AI. Let’s just agree that the AI agents are computationally interacting with each other during the processing of these tasks. We will be a bit generous and suggest they are being collaborative.

Those Agentic AI Advantages

The beauty of this arrangement is that if the AI agents are all based on generative AI, the setup can make use of natural language to bring all the agents together and engage them in working with you interactively. A normal computer program that isn’t based on natural language capabilities would either not interact in a natural language manner, or the collaboration between the various routines or separate apps would have to be programmatically devised.

These AI agents can also make use of tools during their processing. The AI travel agent might have a backend database that keeps track of your various trips. To access the database, the AI travel agent invokes a tool that was built to record data in the database. By using such tools, each AI agent can leverage other available programs that aren’t necessarily natural language based.

I have now introduced you to some of the key terminology associated with agentic AI, consisting of these six primary considerations:

  • (1) Orchestration. A generative AI agent will at times orchestrate the use of other AI agents and conduct them toward fulfilling a particular purpose or goal.
  • (2) Network of AI agents. Various AI agents are often considered part of a virtual network that allows them to readily access each other.
  • (3) Communicate with each other. AI agents are typically set up to communicate with each other by passing data back and forth and performing handoffs with each other to get things done.
  • (4) Collaborate with each other. AI agents work in concert or collaborate, though not quite as robustly as humans would, so we’ll loosely say the AI kind of collaborates computationally, including doing handoffs and passing data to each other.
  • (5) Autonomously perform tasks. AI agents are said to be at times autonomous in that a human does not necessarily need to be in the loop when the various tasks are being performed by the AI.
  • (6) Expressed in natural language. The beauty of AI agents that are devised or based on the use of natural language is that rather than having to laboriously write program code to get them to do things, the use of natural language can be leveraged instead.

Shifting Into The OpenAI Swarm

OpenAI recently announced and made available access to their new product known as Swarm.

I will be quoting from the OpenAI blog about Swarm as posted on October 9, 2024. For those of you interested in actively trying out Swarm, right now it is considered experimental, and you’ll need to use the code that OpenAI has made available on GitHub. If you have sufficient Python coding skills and know how to make use of the generative AI APIs or application programming interface capabilities, you should be able to quickly try out the new product.

This is a one-liner by OpenAI that describes what Swarm is:

  • “An educational framework exploring ergonomic, lightweight multi-agent orchestration.”

Swarm is essentially an experimental and educational setup to get agentic AI underway by OpenAI and provides AI developers with a means of trying out agentic AI capabilities. I suppose that the name Swarm refers to the idea that you can have a whole bunch of AI agents working together. In addition, if you think of swarms such as a swarm of bees, swarms often have some overall purpose, such as bees defending against a perceived invader.

The OpenAI blog description quoted above says that the AI agents are lightweight. This suggests that the AI agents are somewhat narrowly scoped and not heavy-duty in terms of any particular agent doing a huge amount of work entirely on its own. That is also where the multi-agent aspects come to the fore. You are presumably going to use lots of said-to-be lightweight AI agents and orchestrate them together to achieve a noted end goal.

An Example Of Agentic AI In Action

The GitHub site and the blog about Swarm showcase some examples of how things work. I have opted to make up my own example and loosely based it on the official ones they posted. I am going to leave out the Python coding to make this example easier to comprehend. By and large, the example generally exemplifies the core essence involved.

My scenario is this.

A company I’ll name as the Widget Corporation wants to develop an automated Customer Support Agent using generative AI. This will be made available to existing customers. A customer will interact directly with the AI agent. The AI agent will find out what the customer’s concerns are. Based on those concerns, the AI agent will attempt to provide a potential resolution. If a resolution is not feasible, the customer will be able to return the item that they bought and get a refund.

I’d dare say this is a pretty common task and usually involves a series of subtasks.

The usual approach for a software developer would be to code this from scratch. It could take gobs of hours to write the code, test it, and field it. Instead, we will use agentic AI and indicate the primary agent, a Customer Support Agent, via the use of natural language.

To illustrate the notion of communication and collaboration, I will define two agents, a Customer Support Agent (considered an AI agentic “Routine” and my primary agent) and a second agent that is Refunds And Returns Agent (considered another AI agentic “Routine” and used by the primary agent). They will do handoffs and make use of tools.

Here is my definition of the Customer Support Agent.

  • AI agent routine with tool use and a handoff: Customer Support Agent

“You are a customer support agent for the Widget Corporation.”

“Follow this standard routine:

“(1) When a customer contacts you, make sure to ask sufficient questions to grasp what their customer support issue consists of.”

“(2) Access the Widget Corp internal customer support database WidgetSys to see if any similar issues have ever been logged.”

“(3) Try to come up with a solution for the customer that will resolve their support issue.”

“(4) Provide the proposed solution to the customer and get their feedback.”

“(5) If the customer wants to do a product return and get a refund then invoke the Returns And Refunds Agent and provide relevant details about the customer.”

End of definition

I’d like you to notice that the definition is written in natural language.

If you fed that same text into generative AI such as ChatGPT as a prompt, the AI would generally be able to proceed.

Give that a reflective moment of thought. Imagine the vast amount of arduous coding or programming you would have to write to do the same thing. All we had to do here was express what we wanted via the use of everyday natural language.

Boom, drop the mic.

Inside the natural language description in Step #2, I refer to a tool, the WidgetSys tool. This is a program that the Widget Corporation has developed to access its internal customer service records database.

In Step #5, I mention another AI agent, known as the Returns And Refunds Agent. This is a handoff activity that will occur when Step #5 is performed. In addition, I indicated that relevant customer data should be passed over.

The Allied AI Agent For This Example

Now that you’ve seen the primary AI agent, let’s take a look at the allied AI agent.

Here it is.

  • AI agent routine with tool use and a handoff: Returns And Refunds Agent

“You are a product returns and refund agent for the Widget Corporation.”

“Follow this standard routine:”

“(1) Ask the customer if they want to return the product and get a refund.”

“(2) If the customer says no then go back to Customer Support Agent.”

“(3) Access the WidgetSys database to mark that the product is being returned and the customer will be given a refund.”

“(4) Tell the customer how to return the product and let them know they will be given a refund.”

“(5) Go back to Customer Support Agent and inform that the return and refund processing is now underway.”

End of definition

Once again, the AI agent is defined via the use of natural language.

A handoff back to the primary agent happens in Step #2. Access to the tool WidgetSys takes place at Step #3. Another handoff back to the primary agent occurs in Step #5.

This allied AI agent takes on the task of processing a potential item return and refund. This could have been embedded entirely in the Customer Support Agent, but it turns out to be better for us to make it into a separate routine. Doing so means that we can always make use of the AI agent from other agentic AI that might need to invoke that specific task.

Vital Considerations About These AI Agents

Let’s be contemplative and mindfully explore the big picture. Life is always full of tradeoffs. The use of AI agents is no exception to that rule of thumb. You’ve seen first-hand that a notable plus is the ease of development via natural language.

Time to discuss some of the downsides or qualms.

I provided five steps for the Customer Support Agent and another five steps for the Returns And Refunds Agent. Is that sufficient to cover the wide range of aspects that might arise when successfully performing a customer support role?

Probably not.

Okay, so we might proceed to add more steps. But does that really solve the dilemma of completeness? Probably not. You aren’t likely to lay out all possible steps along with the endless number of permutations and combinations. The generative AI is going to be expected to do the right thing when having to go beyond the stipulated steps.

The generative AI might opt to do something that we would be chagrined or concerned about upon going beyond the stated steps. Keep in mind that the AI is not sentient. It works based on mathematical and computational pattern-matching. Do not expect a kind of human commonsense to be at play, see my analysis at the link here.

Another issue is that everyday words and natural language are said to be semantically ambiguous (see my detailed discussion at the link here). When I told the AI to resolve the customer issue (as part of Step #3 in Customer Support Agent), what does that exactly mean? Resolving something can be a vague concept. The AI could go in many different directions. Some of those directions might be desirable and we would be pleased, while other directions might frustrate a customer and cause poor customer service.

You must also anticipate that the AI could momentarily go off the rails. There are so-called AI hallucinations that generative AI can encounter, see my coverage at the link here. I don’t like the catchphrase because it implies that AI hallucinates in a manner akin to human hallucinations, which is a false anthropomorphizing of AI. In any case, the AI can make up something out of thin air that appears to be sensible but is not factually grounded. Imagine if the AI tells a customer that they can get a refund if they stand on one leg and whoop and holler. Not a good look.

These and other sobering considerations need to be cooked into how you devise the AI agents and how you opt to ensure they operate in a safe and sane manner.

Excerpts Of How OpenAI Explains Swarm

Congratulations, you are now up to speed on the overall gist of agentic AI. You are also encouraged to dig more deeply into Swarm, which is one framework or approach to AI agents. See my coverage at the link here for competing AI agentic frameworks and methods.

Since you are now steeped in some of the agentic AI vocabularies, I have a bit of an informative test or quiz for you. Take a look at these excerpts from the OpenAI blog. I am hoping that you are familiar enough with the above discussion that you can readily discern what the excerpts have to say.

I’m selecting these excerpts from “Orchestrating Agents: Routines and Handoffs” by Ilan Bigio, OpenAI blog, October 9, 2024:

  • “The notion of a ‘routine’ is not strictly defined, and instead meant to capture the idea of a set of steps. Concretely, let’s define a routine to be a list of instructions in natural language (which we’ll represent with a system prompt), along with the tools necessary to complete them.”
  • “Notice that these instructions contain conditionals much like a state machine or branching in code. LLMs can actually handle these cases quite robustly for small and medium-sized routines, with the added benefit of having ‘soft’ adherence – the LLM can naturally steer the conversation without getting stuck in dead-ends.”
  • “Dynamically swapping system instructions and tools may seem daunting. However, if we view ‘routines’ as ‘agents’, then this notion of handoffs allows us to represent these swaps simply – as one agent handing off a conversation to another.”
  • “Let’s define a handoff as an agent (or routine) handing off an active conversation to another agent, much like when you get transferred to someone else on a phone call. Except in this case, the agents have complete knowledge of your prior conversation!”
  • “As a proof of concept, we’ve packaged these ideas into a sample library called Swarm. It is meant as an example only and should not be directly used in production. However, feel free to take the ideas and code to build your own!”

How did you do?

I had my fingers crossed that the excerpts made abundant sense to you.

Getting Used To Agentic AI

A few final thoughts for now about the rising tide of agentic AI.

Conventional generative AI that you might be using day-to-day tends to do things one step at a time. Agentic AI boosts this by providing potential end-to-end processing for tasks that you might want to have performed on your behalf. Much of the time, agentic AI leans into the capabilities of generative AI.

Lots of AI agents can potentially get big things done.

I am reminded of the famous quote by Isoroku Yamamoto: “The fiercest serpent may be overcome by a swarm of ants.”

Though the bandwagon is definitely toward agentic AI, we need to keep our wits about us and realize that there are strengths and weaknesses involved. Suppose an agentic AI goes wild and like a swarm of bees’ attacks anything within range. Not a good look. All manners of AI ethics and AI law ramifications are going to arise.

You might brazenly assert that a swarm of them will soon emerge.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

13 sencillos consejos y trucos de Google Gemini para lograr la máxima productividad

Published

on

Mucho más que un simple chatbot talentoso, Google Gemini ofrece funcionalidad de IA multimodal y una interactividad potente e indolora. El nivel más alto de Google One, uno de los mejores servicios de almacenamiento en la nube de la actualidad, incluye convenientemente acceso a su versión más potente.



Emitir indicaciones sencillas y generar texto escrito competente resulta fácil para los nuevos usuarios de Gemini, pero su conjunto de herramientas en constante expansión proporciona impresionantes mejoras en la productividad. Estas son algunas de las formas más útiles de utilizar el agente de inteligencia artificial de Google en constante mejora para ahorrar tiempo y aumentar el rendimiento.


Relacionado

Primeros pasos con Google Gemini: conceptos básicos del último asistente de Android

Si quieres probar Géminis, estos consejos y trucos te ayudarán


13 Actualizar la gestión del tiempo y las rutinas de autocuidado

Aprenda hábitos eficientes y prácticas efectivas.

Alimentar a Géminis con una lista completa de tareas pendientes, completa con tareas recurrentes y actividades únicas, puede generar un cronograma conciso que priorice su rutina personal, las próximas fechas límite importantes o los nuevos hábitos que está tratando de adquirir. Alternativamente, brinde al agente de IA un resumen detallado de cómo pasó los últimos días, y podrá brindarle consejos sobre cómo optimizar su agenda para que todo se ajuste más cómodamente.


En su vida profesional, delinear las necesidades y los recursos de un proyecto le permite a Gemini analizar las formas más rentables y rentables de lograr sus objetivos. Después de todo, nada ayuda más a desarrollar la eficiencia de una máquina que preguntarle a una máquina.

12 Obtenga esquemas sencillos de videos de YouTube

No pierdas el tiempo sentado viendo vídeos extendidos

A veces, los creadores de información se van por la tangente y los expertos educados se vuelven prolijos. En lugar de esperar vídeos largos para ir al grano, o intentar mantener todos los elementos en orden en tu cabeza, pídele a Gemini un resumen. Puede seleccionar los puntos más importantes a lo largo de una producción y presentarlos en un formato fácil de leer.


Funciona especialmente bien con vídeos instructivos, como tutoriales de reparación y cocina, pero resulta útil con todo tipo de contenido. Incluso puede ayudar a evitar anuncios tediosos para aquellos que aún no están suscritos a YouTube Premium.

Relacionado

El vicepresidente senior de Arm explica el verdadero impacto de la IA, y no es lo que piensas

Nuestra entrevista con el ejecutivo de Arm, Chris Bergey

11 Resumir conjuntos de datos grandes y complejos

Analizar cantidades abrumadoras de información

Si tiene una hoja de cálculo con demasiadas páginas y columnas para entenderla rápidamente, pídale a Gemini que la desglose por usted. Puede extraer inferencias generales de toda la colección de datos, investigar tendencias dentro de categorías individuales e incluso ayudar a desarrollar gráficos para visualizar la información. Puede solicitar resultados más simples o más complejos si todavía tiene problemas para comprender un documento o necesita información más detallada.


10 Autocompletar hojas de cálculo según el contexto

Complete rápidamente la entrada de datos repetitivos

Fuente: Google

La función mejorada Smart Fill de Gemini en Google Sheets detecta patrones y proporciona soluciones automatizadas para la tediosa entrada de texto. Transfiere rápidamente datos relativamente simples de una columna o formato a otro. Gemini Autofill agrega una capa de integración de IA, identifica relaciones más complejas y sugiere formas de registrarlas de manera clara y efectiva. Estas dos características ejemplifican la utilidad de lo que algunos llaman un “autocompletado glorificado”.

Relacionado

8 formas de usar Gemini en Google Sheets

Google Sheets con Gemini garantiza que tu día sea más fácil


9 Analice fácilmente la calidad SEO de los sitios web

Consulte las entradas del blog y los editoriales para comprobar su exhaustividad.

Un mensaje rápido le permite a Gemini examinar qué tan bien usted o un medio crearon un sitio. Puede compilar un informe sobre la cohesión de encabezados, meta descripciones, palabras clave y enlaces entrelazados. También puede usarlo junto con la página de resultados del motor de búsqueda para ver qué tan bien se está conectando con lo que quiere el público. Sobresale especialmente en generar preguntas de personas que también hacen y fragmentos destacados.

Con acceso a la herramienta de prueba de datos estructurados de Google, pocos agentes de inteligencia artificial pueden igualar la capacidad de Gemini para analizar la estructura y navegación de una página. Sin embargo, al igual que con otras solicitudes directas de análisis, asegúrese de comprobar los sentidos de las respuestas de Géminis. En lugar de confiar en que sus consejos de SEO sean correctos, utilice sus afirmaciones para comparar la página con las técnicas de SEO actuales y establecidas, y prepárese para solicitar revisiones o una segunda opinión.

8 Solucionar problemas y verificar el código

Rebotar ideas de programación de un modelo programado.


Los programadores han utilizado durante mucho tiempo patos de goma como oyentes inanimados para ayudar a encontrar problemas que se escapan de las grietas. Géminis puede responder, lo que lo hace aún más efectivo. Puede brindarle numerosos puntos de partida y métodos para abordar una tarea de programación y evaluar la eficiencia con la que se ejecutará su código ya escrito.

Querrá comparar sus sugerencias con sus conocimientos y recursos y, a veces, se topa con callejones sin salida o alucina, pero es mucho más efectivo que un juguete de baño.

7 Crea itinerarios de viaje inspiradores

Deje que Géminis actúe como trampolín para sus planes de vacaciones

Utilice Gemini para Google Sheets para crear planes de viaje perfectos, ya sea para un viaje de trabajo o recreativo. Puede dirigirlo a los sitios más famosos, mostrarle más atracciones que pasan desapercibidas e incluso presentarle algunos lugares locales oscuros. Naturalmente, siempre puedes utilizar sus itinerarios de muestra para ayudarte a pensar dónde quieres ir y qué quieres hacer, eliminando el estrés de planificar salidas de larga distancia.


6 Diseñe indicaciones de IA más efectivas

Cómo Gemini te ayuda a usar Gemini

Decirle al asistente de inteligencia artificial que necesita ayuda con el mensaje de Géminis correcto puede desbloquear estrategias que de otro modo tendría que investigar y adivinar. Esto tiene sentido, porque ¿qué conoce mejor a Géminis que él? Describir sus necesidades, incluido el contexto, el formato y el grado de especificidad, puede reducir la cantidad de tiempo necesario para obtener información útil. También puede adaptar el resultado al tono adecuado para comunicarse con grupos específicos de personas.

Relacionado

Aquí se explica cómo avisar a Géminis, según Google

Google publicó una hoja de trucos para aprovechar al máximo su herramienta de IA

5 Simplifique la redacción técnica para lectores generales

Reduzca la jerga y optimice los temas complicados

Para un escritor técnico que explica temas avanzados a generalistas, o para un profano que intenta comprender las complejidades de un campo de alta tecnología, Gemini hace maravillas al simplificar temas confusos. Reemplaza la terminología específica de un campo con una redacción sencilla y ayuda a lectores y escritores de ambos extremos del espectro a mantenerse en sintonía.


4 Encuentre respuestas a preguntas oscuras

Cuando la Búsqueda de Google no es suficiente

Es difícil obtener las respuestas exactas a algunas preguntas, pero el vasto Gráfico de conocimiento de Google vincula su enorme variedad de información de maneras poderosas. Mejora su capacidad para investigar y crear contenido informativo en profundidad, especialmente cuando utiliza Gemini en Google Docs.

Gemini y otros LLM cometen errores y siempre necesitarás volver a verificar sus respuestas, pero copiar y pegar rápidamente lo hace fácil. Al menos, buscar en la web a través de Gemini le brinda el trampolín perfecto para responder consultas extremadamente específicas.

3 Implementar fórmulas avanzadas de hojas de cálculo

Omita el proceso de dominar Google Sheets


Ya no necesitas pasar incontables horas dominando hojas de cálculo para implementar las fórmulas más efectivas. Gemini para Google Sheets ya hace un trabajo fantástico al sugerir las operaciones correctas y siempre está mejorando. La gestión competente de hojas de cálculo puede hacer o deshacer un equipo, lo que la convierte en una poderosa herramienta profesional.

2 Prepárese para entrevistas y reuniones importantes

Haga que Géminis haga las preguntas para evitar que lo tomen por sorpresa

Fuente: Policía de Android

No hay nada mejor que practicar para entrevistas individuales y paneles de discusión grupales. Proporcione a Gemini su tesis, currículum o tema y recursos de discusión, y pídale que le interrogue sobre contenido relacionado. Rápidamente desarrollarás una comprensión más profunda de tu propio material e incluso podría ayudarte a conseguir un trabajo o un ascenso.


1 Ajuste los agentes de IA de Gems personalizados

Tenga a mano asistentes de IA personalizados en todo momento

Fuente: Google

Los agentes de IA de Google Gems le permiten personalizar un agente específico para los temas, formatos y tonos que necesita habitualmente. Desarrolla el tuyo propio y mantenlo a tu lado para tus tareas más habituales. Esto puede reducir en gran medida la cantidad de tiempo y esfuerzo que se necesita para usar la IA, de otra manera que Gemini te ayuda a usarla.

Relacionado

Cómo crear chatbots de IA personalizados con Gemini Gems

Crea un chatbot personalizado usando Gemini Gems

Las posibilidades casi infinitas siguen aumentando


A medida que Google integre aún más Gemini en servicios potentes como la aplicación Workspace, su efectividad solo mejorará, especialmente considerando el procesamiento de IA en el dispositivo que permiten los mejores teléfonos inteligentes de la actualidad. Reduce la complejidad de la capacitación, la comunicación, el resumen y la creación, y puede ayudarlo a mantener sus pensamientos en orden cuando aparentemente tiene demasiada información que manejar.

Si utiliza estos u otros consejos de productividad con frecuencia, probablemente se beneficiará de una suscripción Gemini Advanced, que brinda acceso a un procesamiento más potente que el Gemini estándar.

Continue Reading

Noticias

7 razones por las que Google Gemini es mejor que ChatGPT

Published

on

Con el año 2024 casi detrás de nosotros, los chatbots de IA se han vuelto esenciales para muchos, con ChatGPT como la opción preferida. De hecho, Sam Altman de OpenAI señaló recientemente que ChatGPT es ahora el octavo sitio web más visitado a nivel mundial. Sin embargo, Google ha estado mejorando constantemente su propio chatbot, Gemini, y se está poniendo al día rápidamente. Aquí hay algunas razones por las que Google Gemini podría ser una mejor opción que ChatGPT para usted.



Relacionado

ChatGPT vs. Gemini: ¿Cuál da las mejores respuestas?

Gemini le ofrece a ChatGPT una competencia muy necesaria


7 Gemini ofrece múltiples respuestas para cada consulta

Más respuestas significan más perspectivas

Si bien ChatGPT es excelente para responder preguntas, solo proporciona una respuesta a la vez. Google Gemini, sin embargo, genera tres respuestas diferentes a cada pregunta de forma predeterminada; simplemente puedes tocar el Mostrar borradores para ver estas respuestas alternativas. Por el contrario, con ChatGPT, debes hacer clic manualmente en el botón regenerar si deseas una respuesta diferente.

Como se muestra en la captura de pantalla anterior, cuando le pedí a Gemini que me ayudara a escribir una solicitud de licencia, me ofreció tres respuestas únicas en diferentes estilos. Esta función es particularmente útil para tareas creativas, como redactar correos electrónicos o documentos, ya que ofrece instantáneamente múltiples opciones para elegir.


6 Géminis ofrece respuestas más concisas

Respuestas directas sin detalles innecesarios.

Cuando se trata de estilo de respuesta, Gemini de Google a menudo proporciona respuestas más concisas y directas en comparación con ChatGPT. ChatGPT tiende a ser más detallado, incluso con preguntas sencillas. Si bien puede pedirle que acorte o resuma, si prefiere respuestas rápidas y sencillas, Géminis es la mejor opción.

Por ejemplo, como se muestra arriba, les pregunté a ambos chatbots cómo funcionan las vacunas. La respuesta de ChatGPT tuvo alrededor de 350 palabras, mientras que Gemini devolvió una respuesta más breve que cubría todos los puntos esenciales.

5 Géminis puede comprender consultas más complejas

Maneja mensajes más largos gracias a un límite de token más alto


Una de las ventajas destacadas de Gemini sobre ChatGPT es su ventana de contexto significativamente mayor (límite de token). Mientras que el modelo GPT-4 de OpenAI puede manejar hasta 128.000 tokens, Google Gemini 1.5 Pro cuenta con un límite de tokens de un millón. En pocas palabras, esto significa que Gemini puede procesar consultas mucho más largas y complejas con facilidad. Puede profundizar en su solicitud, recogiendo detalles que podrían perderse en modelos con límites de token más bajos.

Por ejemplo, si necesita trabajar con archivos PDF largos o desea que un chatbot de IA resuma un documento de texto grande, Gemini manejará la tarea de manera más efectiva que ChatGPT.

4 Google Gemini ya está disponible

Integrado en Android: no es necesario realizar descargas adicionales

La mejor parte de usar Gemini es su perfecta disponibilidad en dispositivos Android. Si bien Google ofrece una aplicación Gemini independiente, también puedes acceder a ella simplemente cambiando tu asistente predeterminado a Gemini en la configuración de Android. De hecho, en dispositivos más nuevos como la serie Pixel 9, Google incluso incluye Gemini como asistente predeterminado, reemplazando al Asistente de Google.


Por el contrario, usar ChatGPT en Android requiere descargar una aplicación separada de Play Store, lo cual no es tan conveniente como Gemini. Además, Gemini se está integrando en el conjunto de aplicaciones y servicios de Google, pero hablaremos más sobre eso a continuación.

3 Géminis puede acceder a los servicios de Google

Se integra perfectamente con Drive, YouTube, Gmail y más

Dado que Gemini es un producto de Google, se beneficia de una integración perfecta con los numerosos servicios de Google que utilizamos a diario. Google ha implementado extensiones Gemini para YouTube, Gmail, Docs, Drive y más en los últimos meses, lo que permite que Gemini funcione de forma nativa dentro de estas aplicaciones.

Y como Gemini se conecta a través de tu cuenta de Google, ya tiene la información que necesita. Por ejemplo, puede pedirle a Gemini que busque un correo electrónico específico, resuma un correo electrónico extenso o inserte sus respuestas directamente en Google Docs sin copiar ni pegar. Incluso puedes hacer que resuma videos de YouTube o muestre fotos de viajes anteriores.


Le pedí a Gemini que obtuviera detalles sobre mis vuelos recientes con una aerolínea específica y mostró exactamente lo que necesitaba. No tuve que buscar en mi Gmail para buscar manualmente. Con estas integraciones, Gemini ofrece una experiencia más conectada que ChatGPT, que carece de soporte integrado para servicios populares y, a menudo, requiere que usted ingrese información manualmente.

2 El plan gratuito de Gemini permite la creación ilimitada de imágenes

Genera tantas imágenes como quieras sin límites

Si utiliza con frecuencia chatbots de IA para generar imágenes, Gemini puede ser la mejor opción. Incluso en su plan gratuito, Google permite la creación ilimitada de imágenes con tantos ajustes como necesites. No solo eso, sino que la compañía también brinda acceso a su último modelo Imagen 3 AI sin restricciones. Mientras tanto, el plan gratuito de ChatGPT limita a los usuarios a tres imágenes cada 24 horas, lo que puede no ser suficiente para muchos.


1 El plan pago de Gemini ofrece más valor

Incluye 2 TB de almacenamiento de Google y una prueba gratuita más larga

Si bien tanto ChatGPT como Gemini ofrecen planes pagos a $20 por mes, el plan AI One Premium de Google ofrece notablemente más valor. Por el mismo precio, obtienes acceso a Gemini Advanced (impulsado por el modelo Gemini Pro de alto rendimiento) y 2 TB adicionales de almacenamiento de Google, utilizables en Drive, Fotos y otros servicios.

Con el plan pago, también te beneficias de la integración de Gemini en aplicaciones de Google Workspace como Docs y Gmail. Además, Google ofrece una prueba gratuita de dos meses para la versión paga de Gemini, mientras que ChatGPT no ofrece ninguna prueba gratuita. El plan pago de ChatGPT simplemente otorga acceso a todos los modelos de IA con mayor uso, sin ningún beneficio adicional.


Relacionado

5 características que Google Gemini debería robarle a ChatGPT

No dejes atrás estas gemas, Géminis: róbalas de ChatGPT

Gemini está cerrando la brecha con ChatGPT

Si bien OpenAI pudo haber tenido una ventaja inicial en la carrera de los chatbots de IA, Google rápidamente ha cerrado la brecha. Dado lo integrales que son los servicios de Google en la vida diaria, ya sea mirar videos en YouTube o navegar con Maps, la integración de Gemini en estas plataformas le brinda una ventaja sustancial sobre ChatGPT. Gemini es sin lugar a dudas una de las mejores alternativas a ChatGPT disponibles en la actualidad.


Continue Reading

Noticias

OpenAI lanza el modo de voz avanzado ChatGPT para usuarios web

Published

on

OpenAI ha ampliado la disponibilidad del modo de voz avanzado de ChatGPT, llevando la función a los navegadores web.

La introducción del modo de voz avanzado en la web fue anunciada por el director de producto de OpenAI, Kevin Weil, en la plataforma de redes sociales X.

Esta funcionalidad avanzada ahora es accesible para los suscriptores de los planes pagos de OpenAI, incluidos Plus, Enterprise, Teams o Edu.

Weil afirmó que la función, que aprovecha las capacidades de audio nativas de GPT-4 para conversaciones naturales en tiempo real, estaría disponible para los clientes de pago a partir de esta semana.

La medida se produce tras el lanzamiento exitoso de la misma función en aplicaciones de iOS y Android en septiembre de 2024.

Weil dijo que OpenAI planea lanzar la función para usuarios gratuitos en “las próximas semanas”.

Acceda a los perfiles de empresa más completos del mercado, impulsados ​​por GlobalData. Ahorre horas de investigación. Obtenga una ventaja competitiva.

Perfil de la empresa: muestra gratuita

¡Gracias!

Su correo electrónico de descarga llegará en breve

Confiamos en la calidad única de nuestros perfiles de empresa. Sin embargo, queremos que tome la decisión más beneficiosa para su negocio, por eso le ofrecemos una muestra gratuita que puede descargar enviando el siguiente formulario.

Por GlobalData






Visite nuestra Política de privacidad para obtener más información sobre nuestros servicios, cómo podemos usar, procesar y compartir sus datos personales, incluida información sobre sus derechos con respecto a sus datos personales y cómo puede darse de baja de futuras comunicaciones de marketing. Nuestros servicios están destinados a suscriptores corporativos y usted garantiza que la dirección de correo electrónico enviada es su dirección de correo electrónico corporativa.

En un comunicado de prensa sobre X, Weil dijo: “Lanzamos el modo de voz avanzado en nuestras aplicaciones de iOS y Android en septiembre, y recientemente lo llevamos a nuestras aplicaciones de escritorio”.

Weil añadió: “Ahora estamos entusiasmados de añadir la web a la mezcla. Esto significa que ahora puedes hablar con ChatGPT directamente desde tu navegador.

“Utilizo el modo de voz para explorar ideas y hacer preguntas rápidas sin tener que escribir. A @thirdweil y a los niños les encanta; siempre piden “hablar con ChatGPT” mientras conducimos. Y recientemente lo usé como traductor universal en Seúl y Tokio, manteniendo conversaciones de negocios con personas con las que no tenía un idioma común”.

En octubre de 2024, OpenAI introdujo la integración de búsqueda web en su chatbot de inteligencia artificial (IA) generativa ChatGPT.

Con la actualización, los suscriptores de ChatGPT Plus y Team tienen acceso a la información directamente a través de la interfaz de chat. Esto amplía las capacidades del bot más allá de sus limitaciones de datos históricos anteriores.


Continue Reading

Trending