Connect with us

Noticias

A deep dive analysis of 62 queries

Published

on

The emergence of ChatGPT search has led to many questions about the quality of the overall results compared to Google. 

This is a difficult question to answer, and in today’s article, I will provide some insights into how to do just that. 

Note that our understanding is that the technology that makes it possible for OpenAI to offer a search capability is called SearchGPT, but the actual product name is ChatGPT search. 

In this article, we will use the name ChatGPT search.

What’s in this report

This report presents an analysis of 62 queries to assess the strengths and weaknesses of each platform. 

Each response was meticulously fact-checked and evaluated for alignment with potential user intents. 

The process, requiring about an hour per query, highlighted that “seemingly good” and “actually good” answers often differ.

Additionally, when Google provided an AI Overview, it was scored against ChatGPT search. 

A combined score for the AI Overviews and the rest of Google’s SERP was also included. 

Of the queries tested – two-thirds of which were informational – Google returned an AI Overview in 25 instances (40% of the time).

The queries analyzed fell into multiple categories:

ChatGPT search vs Google - Search query categories

The total number of the above is greater than 100%, and that’s because some queries could fall into more than one classification. 

For example, about 13% of the queries were considered informational and commercial. 

Detailed information from SparkToro on the makeup of queries suggests a natural distribution of search queries as follows:

Detailed information from SparkToro on the makeup of queries suggests a natural distribution of search queries as follows:Detailed information from SparkToro on the makeup of queries suggests a natural distribution of search queries as follows:

Navigational queries, which comprise nearly a third of all queries, were excluded from this test. 

These queries typically demand a straightforward response like, “just give me the website,” and are a category where Google excels. 

However, I included queries likely to favor one platform, such as:

  • Content gap analysis queries (4): Representing a broader class of content-related queries, which Google doesn’t handle but ChatGPT search attempts (though not always successfully).
  • Locally oriented queries (4): These leverage Google’s extensive local business database, Google Maps, and Waze, areas where ChatGPT search struggles to compete.

Metrics used in this study

I designed 62 queries to reflect diverse query intents, aiming to highlight each platform’s strengths and weaknesses. 

Each response was scored across specific metrics to evaluate performance effectively.

  • Errors: Did the response include incorrect information?
  • Omissions: Was important information not in the response?
  • Weaknesses: Were other aspects of the response considered weak but not scored as an error or omission?
  • Fully addresses: Was the user’s query intent substantially addressed?
  • Follow-up resources: Did the response provide suitable resources for follow-up research?
  • Quality: An assessment by me of the overall quality of the response. This was done by weighing the other factors contained in this list.

At the end of this article are the total scores for each platform across the 62 queries.

Competitive observations

When considering how different search platforms provide value, it’s important to understand the many aspects of the search experience. Here are some of those areas:

Advertising

Multiple reviewers note that ChatGPT search is ad-free and tout how much better this makes it than Google. That is certainly the case now, but it won’t stay that way. 

Microsoft has $13 billion committed to OpenAI so far, and they want to make that money back (and then some). 

In short, don’t expect ChatGPT search to remain ad-free. That will change significantly at some point.

An important note is that advertising works best on commercial queries. 

As you will see later in this article, I scored Google’s performance on commercial queries significantly higher than ChatGPT search.

Understanding user intent

Google has been working on understanding user intent across nearly infinite scenarios since 2004 or earlier. 

They’ve been collecting data based on all the user interactions within search and leveraging what they have seen with the Chrome browser since its launch in 2008. 

This data has most likely been used to help train Google algorithms to understand user intent and brand authority on a per query basis. 

For reference, as of November 2024, Statcounter pegs Chrome’s market share at 67.5%, Safari at 18.2%, and Edge at 4.8% 

This is a critical advantage for Google because understanding the user intent of a query is what it’s all about. 

You can’t possibly answer the user’s need without understanding their need. As I’ll illustrate in the next section, this is complex!

How query sessions work

Part of the problem with understanding user intent is that the user may not have fully worked out what they’re looking for until they start the process. 

Consider the following example of a query sequence that was given to me via Microsoft many years ago:

Inside a real query sessionInside a real query session

The initial query seems quite simple: “Merrell Shoes.” 

You can imagine that the user entering that query often has a specific Merrell shoe in mind, or at least a shoe type, that they want to buy. 

However, we see this user’s path has many twists and turns. 

For example, the second site they visit is www.merrell.com, a website you might suspect has authoritative information about Merrell shoes.

However, this site doesn’t appear to satisfy the user’s needs. 

The user ends up trying four more different queries and visiting six different websites before they finally execute a transaction on www.zappos.com. 

This degree of uncertainty in search query journeys is quite common. 

Some of the reasons why users have this lack of clarity include is that they:

  • Don’t fully understand the need that they’re feeling.
  • Don’t know how to ask the right questions to address their need.
  • Need more information on a topic before deciding what they need.
  • Are in general exploration mode.

Addressing this is an essential aspect of providing a great search experience. This is why the Follow-Up Resources score is part of my analysis.

Understanding categories of queries

Queries can be broadly categorized into several distinct groups, as outlined below:

  • Informational: Queries where the user wants information (e.g., “what is diabetes?”).
  • Navigational: Queries where the user wants to go to a specific website or page (e.g., “United Mileage Club”).
  • Commercial: Queries where the user wants to learn about a product or service (e.g., “Teak dining table”).
  • Transactional: Queries where the user is ready to conduct a transaction (e.g., “pizza near me”).

Recent data from SparkToro’s Rand Fishkin provides some insight into the percentage of search queries that fall into each of these categories:

What is the distribution of search intent on Google?What is the distribution of search intent on Google?

Be advised that the above is a broad view of the categories of queries. 

The real work in search relates to handling searches on a query-by-query basis. Each query has many unique aspects that affect how it can be interpreted. 

Next, we’ll examine several examples to illustrate this. Then, we’ll compare how ChatGPT search and Google performed on these queries. 

Query type: Directions

This query type is a natural strength for Google (as is any locally oriented query). We can see ChatGPT search’s weaknesses in this area in its response:

ChatGPT search - directions to Whole FoodsChatGPT search - directions to Whole Foods

The problems with this response are numerous. 

For example, I wasn’t in Marlborough, Massachusetts, when I did the query (I was in the neighboring town of Southborough). 

In addition, steps 1 and 2 in the directions are unclear. Anyone following them and heading east on Route 20 would end up at Kenmore Square in Boston without ever crossing I-90 East.

In contrast, Google nails it:

Google search - directions to Whole FoodsGoogle search - directions to Whole Foods

The reason why Google handles this better is simple.

Google Maps has an estimated 118 million users in the U.S., and Waze adds another 30 million users. 

I wasn’t able to find a reasonable estimate for Bing Maps, but suffice it to say that it’s far lower than Google’s. 

The reason Google is so much better than Bing here is simple – I use Google Maps, and that lets Google know exactly where I am. 

This advantage applies to all Google Maps and Waze users in the U.S.

Query type: Local

Other types of local queries present similar issues to those of ChatGPT search. Note that a large percentage of search queries have local intent. 

One estimate pegged this at 46% of all queries. This was reportedly shared by a Googler during a Secrets of Local Search conference at GoogleHQ in 2018.

Here is ChatGPT’s response to one example query that I tested:

ChatGPT search - where is the closest pizza shopChatGPT search - where is the closest pizza shop

As with the directions example, it thinks that I’m in Marlborough. 

In addition, it shows two pizza shops in Marlborough (only one of the two is shown in my screenshot). 

Google’s response to this query is much more on point:

Google search - where is the closest pizza shopGoogle search - where is the closest pizza shop

I also gave Google a second version of the query “Pizza shops in Marlborough,” and it returned 11 locations – 9 more than I saw from the ChatGPT search. 

This shows us that Google also has far more access to local business data than ChatGPT search. 

For this query class (including the Directions discussed previously), I assigned these scores:

  • ChatGPT search: 2.00.
  • Google: 6.25.

Query type: Content gap analysis

A content gap analysis is one of the most exciting SEO tasks that you can potentially do with generative AI tools. 

The concept is simple: provide the tool of your choice a URL from a page on your site that you’d like to improve and ask it to identify weaknesses in the content. 

As with most things involving generative AI tools, it’s best to use this type of query as part of a brainstorming process that your subject matter expert writer can use as input to a larger process they go through to update your content.

There are many other different types of content analysis queries that you can do with generative AI that you can’t do with Google (even with AI Overviews) at this point. 

For this study, I did four content gap analysis queries to evaluate how well ChatGPT search did with its responses. 

Google presented search results related to the page I targeted in the query but did not generate an AI Overview in any of the four cases. 

However, ChatGPT search’s responses had significant errors for three of the four queries I tested.

Here is the beginning of ChatGPT search’s response to the one example query where the scope of errors was small:

ChatGPT search - content gap analysis exampleChatGPT search - content gap analysis example

This result from ChatGPT isn’t perfect (there are a few weaknesses, but it’s pretty good. The start of Google’s response to the same query:

Google search - content gap analysis exampleGoogle search - content gap analysis example

As you can see, Google hasn’t even attempted to perform a content gap analysis. ChatGPT search is better set up to address this type of query. 

However, ChatGPT search doesn’t earn a clean sweep for this type of query. 

Here is the first part of another example result:

ChatGPT search - content gap analysis example with errorsChatGPT search - content gap analysis example with errors

This looks good in principle, but it’s filled with errors. Some of these are:

  • The Britannica article does discuss the depth of Larry Bird’s impact on Indiana State University.
  • The Britannica article does mention the importance of the Larry Bird / Magic Johnson rivalry to the NBA
  • The ChatGPT search response is longer than shown here and there are other errors beyond what I mention here.

Overall, I tried four different content gap analysis queries and ChatGPT search made significant errors in three of them. For this query, I assigned these scores:

  • ChatGPT search: 3.25.
  • Google: 1.00.

Query type: Individual bio

How these queries perform is impacted by how well-known the person is. 

If the person is very famous, such as Lionel Messi, there will be large volumes of material written about them. 

If the amount of material written about the person is relatively limited, there is a higher probability that the published online information hasn’t been kept up to date or fact-checked. 

We see that in the responses to the query from both ChatGPT search and Google. 

Here is what we see from ChatGPT search:

ChatGPT search - Individual bioChatGPT search - Individual bio

The main issues with this response are in the third paragraph. 

I haven’t written for Search Engine Journal in a long time, and it’s also been more than six years since I published a video on my YouTube channel (@stonetemplecons). 

Let’s see what Google has to say:

Google search - Individual bioGoogle search - Individual bio

Google also has problems with its response. They lead with quite a few images of me (which are all accurate), and below that, they show my LinkedIn profile and a summary of me drawn from Google Books. 

Here, it says that I write for Search Engine Watch (haven’t done that for more than a decade!) and SEOMoz (which rebranded to SEOmoz to Moz in 2013) (also more than a decade!).

These responses are both examples of what I call “Garbage-In-Garbage-Out” queries. 

If the web sources aren’t accurate, the tools don’t have the correct information to render. 

For bio queries (3 of them), I scored the competitors as follows:

  • ChatGPT search: 6.00.
  • Google: 5.00.

Query type: Debatable user intent

Arguably, nearly every search query has debatable user intent, but some cases are more extreme than others. 

Consider, for example, queries like these:

  • Diabetes.
  • Washington Commanders.
  • Physics.
  • Ford Mustang.

Each of these examples represents an extremely broad query that could have many different intents behind it. 

In the case of diabetes:

  • Does the person just discover that they have (or a loved one has) diabetes, and they want a wide range of general information on the topic? 
  • Are they focused on treatment options? Long-term outlook? Medications? All of the above?

Or, for a term like physics:

  • Do they want a broad definition of what it’s about? 
  • Or is there some specific aspect of physics that they wish to learn much more about?

Creating the best possible user experience for queries like these is tricky because your response should provide opportunities for each of the most common possible user intents. 

For example, here is how ChatGPT responded to the query “physics”:

ChatGPT search - Debatable user intentChatGPT search - Debatable user intent

The additional two paragraphs of the response focused on the definition of Physics and kept the response at a very high level. 

In contrast, the beginning of Google’s response also focuses on a broad definition of physics, but following that are People Also Ask and Things to Know boxes that address many other potential areas of interest to people who type in this search query:

Google search - Debatable user intentGoogle search - Debatable user intent

This part of Google’s response shows a recognition of the many possible intents that users who type in the phrase “physics” may have in mind. 

For this query, I assigned these scores:

  • ChatGPT search: 5.00.
  • Google: 7.00.

Query type: Disambiguation

One special class of debatable intents queries is words or phrases that require disambiguation. Here are some example queries that I included in my test set:

  • Where is the best place to buy a router?
  • What is a jaguar?
  • What is mercury?
  • What is a joker?
  • What is a bat?
  • Racket meaning.

For example, here is how ChatGPT search responded to the question, “What is a joker query?”

ChatGPT search - DisambiguationChatGPT search - Disambiguation

We can see that it offers a nice disambiguation table that provides a brief definition for five different meanings of the term. 

It also includes links to pages on the web that users can visit for information related to each meaning. 

In contrast, Google focuses on two major intents:

Google search - DisambiguationGoogle search - Disambiguation

Google’s focus is on the playing card and a person who tells a lot of jokes. 

Following this part of the SERP, Google continues this approach with websites focusing on these two definitions. 

This means that someone who’s interested in the word “joker” as it applies to contract clauses will have to do an additional search to find what they were looking for (e.g., “meaning of joker when referring to contract clauses”).

Which is better? 

Well, it depends. 

If the searchers interested in playing cards or people who tell lots of jokes make up more than 90% of the people who enter this search query, then the Google result might be the better of the two. 

As it is, I scored the ChatGPT search result a bit higher than Google’s for this query.

Another example of disambiguation failure is simply not addressing it at all. Consider the query example: “where is the best place to buy a router?” 

Here is how ChatGPT search addressed it:

ChatGPT search - Where can I buy a router?ChatGPT search - Where can I buy a router?

You might think this result is perfect, but routers also refer to a tool used in woodworking projects. 

I use one frequently as a part of building furniture from scratch (true story). 

There is a large enough audience of people who use these types of routers that I hope to see recognition of this in the SERPs. 

Here is Google’s response to the query:

Google search - Where can I buy a router?Google search - Where can I buy a router?

This part of the SERP is followed by:

Google search - Where can I buy a router SERPsGoogle search - Where can I buy a router SERPs

Google focuses on the internet router to the same degree as ChatGPT.

For this class of queries, I assigned these scores:

  • ChatGPT search: 6.00.
  • Google: 5.29.

Query type: Maintaining context in query sequences

Another interesting aspect of search is that users tend to enter queries in sequences. 

Sometimes those query sequences contain much information that helps clarify their query intent. 

An example query sequence is as follows:

  • What is the best router to use for cutting a circular table top?
  • Where can I buy a router?

As we’ve seen, the default assumption when people speak about routers is that they refer to devices for connecting devices to a single Internet source. 

However, different types of devices, also called routers, are used in woodworking. 

In the query sequence above, the reference to cutting a circular table should make it clear that the user’s interest is in the woodworking type of router. 

ChatGPT’s response to the first query was to mention two specific models of routers and the general characteristics of different types of woodworking routers. 

Then the response to “where can I buy a router” was a map with directions to Staples and the following content:

ChatGPT search - Maintaining context in query sequencesChatGPT search - Maintaining context in query sequences

All of the context of the query was 100% lost. 

Sadly, Google only performed slightly better. 

It identified three locations, two of which were focused on networking routers and one which was focused on woodworking routers (Home Depot):

Google search - Maintaining context in query sequencesGoogle search - Maintaining context in query sequences

For this query, I scored the tools this way:

  • ChatGPT search: 2.00.
  • Google: 3.00.

Query type: Assumed typos

Another interesting example is queries where your search is relatively rare, yet it has a spelling that’s similar to another word. 

For this issue, my search was: “Please discuss the history of the pinguin.” 

The Pinguin was a commerce raider used by the German Navy in World War 2. It just has a spelling very similar to “penguin,” which is an aquatic flightless bird. 

Both ChatGPT and Google simply assumed that I meant “penguin” and not “pinguin.” 

Here is the result from ChatGPT:

ChatGPT search - Assumed typosChatGPT search - Assumed typos

The result continues after what I’ve shown here but continues to focus on the bird, not the boat. 

Google makes the same mistake:

Google search - Assumed typosGoogle search - Assumed typos

After the AI Overview and the featured snippet I’ve shown here, the SERPs continue to show more results focused on our flightless friends.

To be fair, I’ve referred to this as a mistake, but the reality is that the percentage of people who enter “pinguin” that simply misspelled “penguin” is probably far greater than those who actually mean the German Navy’s WW2 commerce raider. 

However, you’ll notice that Google does one thing just a touch better than ChatGPT here.

At the top of the results, it acknowledges that it corrected “pinguin” to “penguin” and allows you to change it back.

The other way I addressed the problem was to do a second query: “Please discuss the history of the pinguin in WW2,” and both ChatGPT and Google gave results on the WW2 commerce raider. 

For this query, I assigned these scores:

  • ChatGPT search: 2.00.
  • Google: 3.00.

Query type: Multiple options are a better experience

There are many queries where a single (even if it is well thought out) response is not what someone is probably looking for. 

Consider, for example, a query like: “smoked salmon recipe.” 

Even though the query is in the singular, there is little chance that anyone serious about cooking wants to see a single answer. 

This type of searcher is looking for ideas and wants to look at several options before deciding what they want to do. 

They may want to combine ideas from multiple recipes before they have what they want. 

Let’s look at the response from ChatGPT search:

ChatGPT search - Multiple options are a better experience 1ChatGPT search - Multiple options are a better experience 1
ChatGPT search - Multiple options are a better experience 2ChatGPT search - Multiple options are a better experience 2
ChatGPT search - Multiple options are a better experience 3ChatGPT search - Multiple options are a better experience 3

I’ve included the first three screens of the response (out of four), and here you will see that ChatGPT search provides one specific recipe from a site called Honest Food. 

In addition, I see some things that don’t align with my experience. 

For example, this write-up recommends cooking the salmon to 140 degrees. That’s already beginning to dry the salmon a bit. 

From what I see on the Honest Food site, they suggest a range of possible temperatures starting from as low as 125.

In contrast, Google offers multiple recipes that you can access from the SERPs:

Google search - Multiple options are a better experienceGoogle search - Multiple options are a better experience
Google Search Multiple Options Are A Better Experience 2Google Search Multiple Options Are A Better Experience 2

This is an example of a query that I scored in Google’s favor, as having multiple options is what I believe most searchers will want. 

The scores I assigned were:

  • ChatGPT search: 4.00.
  • Google: 8.00.

Get the newsletter search marketers rely on.


Types of problems

Next, we’ll examine the types of things that can go wrong. I looked for these issues while scoring the results. 

The analysis noted where problems that generative AI tools are known for were found and potential areas of weakness in Google’s SERPs. 

These included:

  • Errors.
  • Omissions.
  • Weaknesses.
  • Incomplete coverage.
  • Insufficient follow-on resources.

Problem type: Errors

This is what the industry refers to as “hallucinations,” meaning that the information provided is simply wrong. 

Sometimes errors aren’t necessarily your money or your life situations, but they still give the user incorrect information. 

Consider how ChatGPT search responds to a query asking about the NFL’s overtime rules:

ChatGPT search - ErrorsChatGPT search - Errors

Notice the paragraph discussing how Sudden Death works. Unfortunately, it’s not correct. 

It doesn’t account for when the first team that possesses the ball kicks a field goal, in which case they could win the game if the second team doesn’t score a field goal. 

If the second team scores a field goal, this will tie the game. 

In this event, it’s only after the field goal by the second team that the next score wins the game. 

This nuance is missed by ChatGPT search. 

Note: The information on the NFL Operations page that ChatGPT search used as a source is correct.

Google’s AI Overview also has an error in it:

OmissionsOmissions

In the second line, where Google outlines “some other NFL overtime rules,” it notes that the same ends if the first team to possess the ball scores a touchdown. 

This is true for regular season games but not true in the postseason, where both teams always get an opportunity to possess the ball. 

Scores were as follows:

  • ChatGPT search: 3.00.
  • Google: 4.00.

Problem type: Omissions

This type of issue arises when important information that belongs in the response is left out. 

Here is an example where ChatGPT search does this:

ChatGPT search - OmissionsChatGPT search - Omissions

Under Pain Management, there is no mention of Tylenol as a part of a pain management regimen. 

This is an unfortunate omission, as many people use only a mix of Tylenol and Ibuprofen to manage the pain after a meniscectomy. 

Scores were as follows:

  • ChatGPT search: 6.00.
  • Google: 5.00.

Problem type: Weaknesses

I used weaknesses to cover cases where aspects of the result could have been more helpful to the searcher but where the identified issue couldn’t properly be called an error or omission. 

Here is an example of an AI Overview that illustrates this:

Google AIO - WeaknessesGoogle AIO - Weaknesses

The weakness of this outline is that it makes the most sense to charge the battery as the first step. 

Since it takes up to 6 hours to complet,e it’s not that useful to set up the app before completing this step. 

Here is how I scored these two responses:

  • ChatGPT search: 3.00.
  • Google: 5.00.

Problem type: Incomplete coverage

This category is one that I used to identify results that failed to cover a significant user need for a query. 

Note that “significant” is subjective, but I tried to use this only when many users would need a second query to get what they were looking for. 

Here is an example of this from a Google SERP.

Incomplete coverageIncomplete coverage

The results are dominated by Google Shopping (as shown above). 

Below what I’ve shown, Google has two ads offering online buying opportunities and two pages from the Riedl website. 

This result will leave a user who needs the glasses today and therefore wants to shop locally without an answer to their question.

ChatGPT search did a better job with this query as it listed both local retailers and online shopping sites. 

Scores for this query:

  • ChatGPT search: 6.00.
  • Google: 4.00.

Problem type: Insufficient follow-on resources

As discussed in “How query sessions work” earlier in this article, it’s quite common that users will try a series of queries to get all the information they’re looking for. 

As a result, a great search experience will facilitate that process. 

This means providing a diverse set of resources that makes it easy for users to research and find what they want/need. When these aren’t easily accessed it offers them a poor experience. 

As an example, let’s look at how ChatGPT search responds to the query “hotels in San Diego”:

ChatGPT search - Insufficient follow-on resourcesChatGPT search - Insufficient follow-on resources
ChatGPT search - Insufficient follow-on resources 2ChatGPT search - Insufficient follow-on resources 2
ChatGPT search - Insufficient follow-on resources 3ChatGPT search - Insufficient follow-on resources 3

While this provides 11 hotels as options, there are far more than this throughout the San Diego area. 

It’s also based on a single source: Kayak. 

The user can click through to the Kayak site to get a complete list, but other resources aren’t made available to the user. 

In contrast, Google’s results show many different sites that can be used to find what they want. The scores I assigned to the competitors for this one were:

  • ChatGPT search: 3.00.
  • Google: 6.00.

The winner?

It’s important to note that this analysis is based on a small sample of 62 queries, which is far too limited to draw definitive conclusions about all search scenarios. 

A broader takeaway can be gained by reviewing the examples above to see where each platform tends to perform better. 

Here’s a breakdown of category winners:

1. Informational queries

  • Queries: 42
  • Winner: Google
    • Google’s average score: 5.83
    • ChatGPT search’s average score: 5.19

Google’s slight edge aligns with its strong track record for informational searches. 

However, ChatGPT Search performed respectably, despite challenges with errors, omissions, and incomplete responses.

2. Content gap analysis

  • Winner: ChatGPT Search
    • ChatGPT search’s average score: 3.25
    • Google’s average score: 1.0
  • ChatGPT Search excels in content gap analysis and related tasks, making it particularly useful for content creators. Winning use cases include:
    • Content gap analysis
    • Standalone content analysis
    • Comparing direct or indirect SERP competitors
    • Suggesting article topics and outlines
    • Identifying facts/statistics with sources
    • Recommending FAQs for articles

While ChatGPT search outperformed Google in this category, its lower overall score highlights areas where improvements are needed, such as accuracy.

3. Navigational queries

Navigational queries were excluded from the test since they typically don’t require detailed text responses. 

Google’s dominance in this category is assumed based on its straightforward, website-focused results.

4. Local search queries

  • Winner: Google
    • Google’s average score: 6.25
    • ChatGPT search’s average score: 2.0

Google’s extensive local business data, combined with tools like Google Maps and Waze, ensures its superiority in this category.

5. Commercial queries

  • Winner: Google
    • Google’s average score: 6.44
    • ChatGPT search’s average score: 3.81

This category, comprising 16 queries, favored Google due to its stronger capabilities in showcasing product and service-related results.

6. Disambiguation queries

  • Winner: ChatGPT search
    • ChatGPT search’s average score: 6.0
    • Google’s average score: 5.29

ChatGPT Search edged out Google by more effectively presenting multiple definitions or interpretations for ambiguous terms, providing users with greater clarity.

These scores are summarized in the following table:

ChatGPT search vs Google - Score summaryChatGPT search vs Google - Score summary

Summary

After a detailed review of 62 queries, I still see Google as the better solution for most searches. 

ChatGPT search is surprisingly competitive when it comes to informational queries, but Google edged ChatGPT search out here too.

Note that 62 queries are a tiny sample when considered against the scope of all search. 

Nonetheless, as you consider your search plans going forward, I’d advise you to do a segmented analysis like what I did before deciding which platform is the better choice for your projects.

Contributing authors are invited to create content for Search Engine Land and are chosen for their expertise and contribution to the search community. Our contributors work under the oversight of the editorial staff and contributions are checked for quality and relevance to our readers. The opinions they express are their own.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Cómo el soporte de video de Gemini Live me ayudó a cultivar plantas en el desierto

Published

on

Vi una demostración de la transmisión de video multimodal de Gemini Live y el soporte para compartir pantalla en Google I/O 2024, y es cierto que era un proyecto escéptico que Astra reduciría bien a los teléfonos inteligentes. Avance rápido aproximadamente un año después, y Project Astra está en manos de millones de Google Pixel 9, Samsung Galaxy S25 y Gemini Advanced Usuarios. Está listo, y está aquí, pero ¿es realmente útil?

La respuesta es que puede ser absolutamente, siempre y cuando sus casos de uso sean personales para usted. Por ejemplo, las características multimodales de Gemini Live no serán una mejor alternativa a Google Search o Circle para buscar en la mayoría de los casos. Sin embargo, en circunstancias específicas en las que es mejor mostrar que decir, el soporte de la cámara de Gemini Live puede ser útil.

Continue Reading

Noticias

¿Cómo el Géminis de Google cambiará la forma en que los niños aprenden y juegan?

Published

on

Google ha anunciado que su IA de Géminis pronto estará disponible para que los niños los usen en sus dispositivos Android, todo mientras se supervisará a través de la aplicación de control de los padres de la empresa. Esta decisión ha planteado algunas preocupaciones y preguntas entre los padres sobre los posibles beneficios y riesgos de dejar que los niños interactúen con los sistemas de IA. El gigante tecnológico asegura a los usuarios que los datos de los niños no se utilizarán para entrenar a Gemini, pero como con cualquier tecnología nueva, algunas precauciones no deben ignorarse.

En este artículo, profundizaremos en los detalles de la próxima introducción de Google de Géminis Ai para niñoslos beneficios que podría ofrecer, riesgos potenciales y cómo los padres pueden mantener el control para asegurarse de que la experiencia de su hijo sea lo más segura posible.

¿Qué es Google Gemini AI?

Gemini AI es la herramienta de conversación avanzada de Google diseñada para ayudar a los usuarios con una variedad de tareas, incluidos el aprendizaje, el entretenimiento y la resolución de problemas. Al permitir que los niños usen Gemini, Google ofrece a los niños la oportunidad de responder sus preguntas, la tarea resuelta y las historias se leen en voz alta. También ayuda a los usuarios con ideas de lluvia de ideas, aprendiendo nuevos conceptos y a resolver problemas matemáticos.

Gemini AI tiene el potencial de ser una poderosa herramienta educativa, que proporciona a los niños un nivel de interacción y apoyo que no han tenido antes. Ya sea leer historias, ayudar con las tareas o incluso ofrecer sugerencias creativas, Gemini puede abrir nuevas vías para el aprendizaje y el compromiso. Pero, como es el caso con cualquier tecnología nueva, hay aspectos positivos y inconvenientes potenciales a considerar.

¿Cómo funcionará Gemini AI para los niños?

Google ha diseñado Gemini AI para que sea lo más amigable para los niños posible, teniendo en cuenta que los niños interactúan con la tecnología de manera diferente a los adultos. Al usar la aplicación Family Link, los padres pueden administrar el uso de sus hijos, permitiendo restricciones basadas en la edad de sus hijos. Esto significa que los niños podrán acceder a Gemini en sus dispositivos, pero los padres tendrán una supervisión completa sobre su actividad.

Como se mencionó, Google asegura que los datos recopilados del uso de los niños de Gemini AI no se utilizarán para capacitar a la IA, lo que hace que la privacidad sea una prioridad. Sin embargo, si bien Google ha tomado medidas para proteger los datos de los niños, también ha reconocido que existen riesgos potenciales involucrados con el uso de IA de esta manera.

Los riesgos y los posibles problemas con Géminis Ai

A pesar de que Google está tratando de hacer que Gemini AI sea segura para los niños, hay algunas preocupaciones notables. Primero, es importante entender que la IA puede cometer errores, y a veces estos errores pueden ser más que humorísticos o benignos. Por ejemplo, ha habido casos en el pasado donde los chatbots de IA sugirieron información ridícula o irrelevante a los usuarios. Algunos chatbots incluso han engañado a los usuarios para que piensen que estaban interactuando con humanos reales.

Para los niños, el riesgo es aún más pronunciado. Es posible que los niños no comprendan completamente que estén charlando con una máquina y pueden confundirse si la IA responde con información falsa o inapropiada. Se sabe que algunos chatbots de IA proporcionan contenido engañoso o angustiante, y existe el riesgo de que los niños se encuentren en situaciones incómodas o inapropiadas al usar estas herramientas sin supervisión.

¿Cómo el Géminis de Google cambiará la forma en que los niños aprenden y juegan?¿Cómo el Géminis de Google cambiará la forma en que los niños aprenden y juegan?

Un ejemplo bien conocido de este problema ocurrió con el personaje. En algunos casos, los bots llegaron a decirle a los usuarios que estaban hablando con personas reales. Después de las demandas alegando que los bots estaban promoviendo contenido inapropiado, carácter. AI introdujo controles parentales y nuevas restricciones para evitar este tipo de confusión.

Del mismo modo, mientras que Gemini AI está diseñado para ayudar a los niños, los padres deben comprender las limitaciones y los defectos inherentes a los sistemas de IA. Google ha advertido a los padres que “Géminis puede cometer errores”, lo que podría llevar a sus hijos a encontrarse con información que sea incorrecta o inapropiada.

¿Cómo pueden los padres mantener a sus hijos seguros?

Google ha presentado algunas recomendaciones clave para que los padres se aseguren de que sus hijos usen Gemini AI de manera segura y responsable. Uno de los pasos más importantes que los padres pueden dar es tener una discusión abierta con sus hijos sobre la IA. Los padres deben asegurarse de que sus hijos entiendan que la IA no es humana y no puede reemplazar las interacciones reales con las personas.

Además de explicar cómo funciona la IA, es crucial que los padres también establezcan límites en torno a lo que es aceptable compartir con Gemini. Se debe recordar a los niños que no ingresen información confidencial o personal en la IA, y se les debe enseñar a reconocer cuando algo se siente inapropiado o incorrecto.

La aplicación Family Link ofrece una gran cantidad de características para ayudar a los padres a mantener el control. A través de esta aplicación, los padres pueden monitorear el uso de Gemini, establecer límites del dispositivo y acceder a informes de actividad detallados sobre cómo y cuándo el niño está utilizando la IA. Los padres también pueden apagar el acceso a Géminis en cualquier momento, si sienten que la IA se está utilizando de manera inapropiada o excesiva.

¿Por qué Google ofrece Gemini AI para niños?

La decisión de Google de ofrecer a Gemini AI a los niños es parte de los esfuerzos más amplios de la compañía para integrar la IA en varios aspectos de nuestra vida cotidiana. A medida que AI continúa evolucionando, se está volviendo más integrado en el aprendizaje, la comunicación e incluso el entretenimiento. Para los niños, esto podría ser un cambio de juego, ofreciéndoles una nueva forma de explorar su creatividad e interactuar con el mundo.

La tecnología puede ser una herramienta invaluable para los niños, particularmente cuando se trata de ayudar con la tarea, la lectura y los ejercicios creativos. Mientras existan salvaguardas apropiadas, los niños podrían beneficiarse significativamente de tener un asistente personal de IA.

Sin embargo, es esencial que los padres sigan siendo atentos y proactivos en la gestión de cómo sus hijos usan esta nueva herramienta. Si bien la IA puede ayudar con muchas tareas, no puede reemplazar el juicio y la inteligencia emocional de una persona real. Por lo tanto, los padres deben asegurarse de que sus hijos usen Gemini con moderación y dentro de los límites seguros.

¿Qué pueden hacer los padres ahora mismo?

Si usted es padre y desea aprovechar los beneficios de Gemini AI para su hijo, aquí hay algunos pasos procesables que puede tomar:

  1. Descargar Google Family Link: Asegúrese de tener la aplicación instalada en el dispositivo de su hijo para que pueda administrar su uso de Gemini AI y establecer restricciones sobre cuánto tiempo pasan a usarlo.
  2. Tener una conversación sobre AI: Explique a su hijo que si bien Gemini puede ser una herramienta útil, sigue siendo una máquina y no una persona real. Asegúrese de que comprendan los límites de la IA.
  3. Establecer límites: Anime a su hijo a compartir solo información no sensible con Gemini y enseñarles a reconocer cuándo algo parece incorrecto o inapropiado.
  4. Monitoreo: Use el enlace familiar para rastrear la actividad de su hijo y asegúrese de que esté utilizando Gemini de manera responsable. Siempre puede deshabilitar el acceso si siente que es necesario.

El resultado final

Gemini AI presenta una nueva frontera emocionante en cómo los niños pueden aprender e interactuar con la tecnología. Sin embargo, como toda la nueva tecnología, viene con riesgos. Como padres, es esencial estar al tanto de estos riesgos y tomar medidas para garantizar que sus hijos usen Gemini AI de manera segura y responsable. Con las precauciones correctas en su lugar, Gemini puede ser una herramienta de aprendizaje valiosa para su hijo, pero depende de usted mantenerlas involucradas y protegerlas de peligros potenciales.

Continue Reading

Noticias

Operai anuló las preocupaciones de los evaluadores expertos para liberar Sycophantic GPT-4O

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Ha sido una semana de revés para la compañía de IA generativa número uno en términos de usuarios.

Operai, creador de ChatGPT, lanzado y luego retiró una versión actualizada del modelo de lenguaje grande (texto, imagen, audio) subyacente (LLM) que ChatGPT está conectado de forma predeterminada, GPT-4O, debido a que es demasiado sycofánico para los usuarios. La compañía reportó recientemente al menos 500 millones de usuarios semanales activos del servicio web exitoso.

Un manual rápido en la terrible, sin buena actualización Sycophantic GPT-4O

Operai comenzó a actualizar GPT-4O a un modelo más nuevo que esperaba que los usuarios fueran más recibidos por los usuarios el 24 de abril, completado la actualización del 25 de abril y, luego, cinco días después, lo volvió al 29 de abril, después de días de crecientes quejas de los usuarios en las redes sociales, principalmente en X y Reddit.

Las quejas variaron en intensidad y en detalles, pero todas generalmente se unieron en torno al hecho de que GPT-4O parecía estar respondiendo a las consultas de los usuarios con halagos excesivos, apoyo para ideas equivocadas, incorrectas y francamente dañinas, y “pesando” o elogiando al usuario a un grado excesivo cuando en realidad no se solicitó, mucho menos justificado.

En ejemplos captados y publicados por los usuarios, ChatGPT impulsado por ese modelo Sycofantántico y actualizado GPT-4O había elogiado y respaldado una idea de negocio para “mierda en un palo” literal, aplaudió el texto de muestra de un usuario de aislamiento delirante esquizofrénico, e incluso supuestamente apoyó a los planes para cometer terrorismo.

Los usuarios, incluidos los principales investigadores de IA e incluso un ex CEO interino de Openai, dijeron que les preocupaba que las animadoras descaradas de un modelo de IA por este tipo de indicaciones terribles de los usuarios fueran más que simplemente molestas o inapropiadas, que podría causar daños reales a los usuarios que creían erróneamente la IA y se sintió incorporada por su apoyo por sus peores ideas e impulsas. Se elevó al nivel de un problema de seguridad de IA.

Luego, Operai lanzó una publicación de blog que describe lo que salió mal: “Nos centramos demasiado en los comentarios a corto plazo y no explicamos completamente cómo las interacciones de los usuarios con ChatGPT evolucionan sobre el tiempo. Como resultado, GPT-4O se sesgó hacia las respuestas que fueron demasiado solidarias pero falsas”, y los pasos que la compañía estaba tomando para abordar los problemas. La jefa de comportamiento de modelo de OpenAi, Joanne Jang también participó en un foro de “preguntarme cualquier cosa” o AMA que respondió publicaciones de texto de los usuarios y reveló más información sobre el enfoque de la compañía a GPT-4O y cómo terminó con un modelo excesivamente sycofántico, incluida no “BAK[ing] En suficientes matices “, en cuanto a cómo estaba incorporando la retroalimentación de los usuarios, como las acciones de” pulgar hacia arriba “realizadas por los usuarios en respuesta a los resultados del modelo que les gustaba.

Ahora hoy, Openai ha lanzado una publicación de blog con aún más información sobre cómo ocurrió la actualización sycophantic GPT-4O, acreditada no a ningún autor en particular, sino a “OpenAi”.

El CEO y cofundador Sam Altman también publicó un enlace a la publicación del blog en X, diciendo: “Nos perdimos la marca con la actualización GPT-4O de la semana pasada. Lo que sucedió, lo que aprendimos y algunas cosas que haremos de manera diferente en el futuro”.

Lo que revela la nueva publicación del blog de Operai sobre cómo y por qué GPT-4O se volvió tan sycophantic

Para mí, un usuario diario de ChatGPT, incluido el modelo 4O, la admisión más sorprendente de la nueva publicación de blog de OpenAi sobre la actualización de la skocancia es cómo la compañía parece revelar que es hizo Reciba inquietudes sobre el modelo antes de la liberación de un pequeño grupo de “probadores expertos”, pero que aparentemente anuló a los que están a favor de una respuesta entusiasta más amplia de un grupo más amplio de usuarios más generales.

Como la compañía escribe (énfasis mía):

“Si bien hemos tenido discusiones sobre los riesgos relacionados con la skofancia en GPT-4O por un tiempo, la sycophancy no se marcó explícitamente como parte de nuestras pruebas prácticas internas, ya que algunos de nuestros probadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. Sin embargo. Algunos probadores expertos habían indicado que el comportamiento del modelo se “sentía” ligeramente …

Luego tuvimos que tomar una decisión: ¿deberíamos retener la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basadas solo en los banderas subjetivas de los probadores expertos? Al final, decidimos lanzar el modelo debido a las señales positivas de los usuarios que probaron el modelo.

Desafortunadamente, esta fue la llamada equivocada. Construimos estos modelos para nuestros usuarios y, aunque los comentarios de los usuarios son críticos para nuestras decisiones, en última instancia, es nuestra responsabilidad interpretar esa retroalimentación correctamente “.

Esto me parece un gran error. ¿Por qué incluso tener evaluadores expertos si no vas a soportar su experiencia más alto que las masas de la multitud? Le pregunté a Altman sobre esta elección en X pero aún no ha respondido.

No todas las ‘señales de recompensa’ son iguales

La nueva publicación de blog post mortem de OpenAI también revela más detalles sobre cómo la compañía capacita y actualiza nuevas versiones de los modelos existentes, y cómo la retroalimentación humana altera las cualidades del modelo, el carácter y la “personalidad”. Como la compañía escribe:

“Desde que lanzó GPT – 4O en ChatGPT en mayo pasado, hemos lanzado cinco actualizaciones importantes centrado en los cambios en la personalidad y la ayuda. Cada actualización implica un nuevo post-entrenamiento, y a menudo muchos ajustes menores al proceso de capacitación del modelo se prueban de forma independiente y luego se combinan en un solo modelo actualizado que luego se evalúa para el lanzamiento.

Para los modelos posteriores al entrenamiento, tomamos un modelo base previamente capacitado, supervisamos el ajuste fino en un amplio conjunto de respuestas ideales escritas por humanos o modelos existentes, y luego ejecutamos el aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes.

Durante el aprendizaje de refuerzo, presentamos el modelo de idioma con un aviso y le pedimos que escriba respuestas. Luego calificamos su respuesta de acuerdo con las señales de recompensa y actualizamos el modelo de idioma para que sea más probable que produzca respuestas de mayor calificación y menos probabilidades de producir respuestas con menor calificación.

Claramente, las “señales de recompensa” utilizadas por Operai durante el post-entrenamiento tienen un enorme impacto en el comportamiento del modelo resultante, y como la compañía admitió anteriormente cuando superó las respuestas de “pulgares” de los usuarios de ChatGPT a sus salidas, esta señal puede no ser la mejor para usar igualmente con otros al determinar a otros. cómo El modelo aprende a comunicarse y que tipos de respuestas debería estar sirviendo. Operai admite esto directamente en el próximo párrafo de su publicación, escribiendo:

“Definir el conjunto correcto de señales de recompensa es una pregunta difícil, y tenemos muchas cosas en cuenta: son las respuestas correctas, ¿son útiles? ¿Están en línea con nuestra especificación de modelo, están seguros, usan usuarios como ellos, y así sucesivamente? Tener mejores y más completas señales de recompensa produce mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada uno tiene sus Quirks”.

De hecho, OpenAi también revela que la señal de recompensa de “pulgares hacia arriba” fue una nueva utilizada junto con otras señales de recompensa en esta actualización en particular.

“La actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: los datos de thumbs y pulgar de ChatGPT. Esta señal a menudo es útil; un pulgar hacia abajo generalmente significa que algo salió mal”.

Sin embargo, de manera crítica, la compañía no culpa a los nuevos datos de “pulgar hacia arriba” directamente por el fracaso del modelo y los comportamientos de porristas ostentosos. En su lugar, la publicación del blog de Openai dice que fue esta conjunto Con una variedad de otras señales de recompensa nuevas y antiguas, condujo a los problemas: “… Tuvimos mejoras de candidatos para incorporar mejor la retroalimentación, la memoria y los datos más frescos, entre otros. Nuestra evaluación temprana es que cada uno de estos cambios, que se habían visto beneficiosos individualmente, puede haber jugado un papel en la escalada sobre la sycofancia cuando se combinó”.

Al reaccionar a esta publicación de blog, Andrew Mayne, un ex miembro del personal técnico de Operai que ahora trabaja en la firma de consultoría de IA Interdimensional, escribió en X de otro ejemplo de cómo los cambios sutiles en los incentivos de recompensa y las pautas del modelo pueden afectar el rendimiento del modelo de manera bastante drástica:

Al principio de OpenAi, tuve un desacuerdo con un colega (que ahora es un fundador de otro laboratorio) sobre el uso de la palabra “cortés” en un pronta ejemplo que escribí.

Argumentaron que “cortés” era políticamente incorrecto y querían cambiarlo por “útil”.

Señalé que centrarse solo en la ayuda puede hacer que un modelo sea demasiado compatible, de hecho, de hecho, que puede ser dirigido a contenido sexual en unos pocos turnos.

Después de demostrar ese riesgo con un intercambio simple, el aviso se mantuvo “cortés”.

Estos modelos son raros.

Cómo Operai planea mejorar sus procesos de prueba modelo en el futuro

La compañía enumera seis mejoras en el proceso sobre cómo evitar un comportamiento de modelo indeseable y menos ideal en el futuro, pero para mí lo más importante es esto:

“Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como la alucinación, el engaño, la confiabilidad y la personalidad, como preocupaciones de bloqueo. Incluso si estos problemas no son perfectamente cuantificables hoy en día, nos comprometemos a bloquear los lanzamientos en función de las mediciones de proxy o las señales cualitativas, incluso cuando las métricas como las pruebas A/B se ven bien”.

En otras palabras, a pesar de lo importantes que los datos, especialmente los datos cuantitativos, son los campos del aprendizaje automático y la inteligencia artificial, OpenAi reconoce que esto solo no puede y no debe ser el único medio por el cual se juzga el rendimiento de un modelo.

Si bien muchos usuarios que proporcionan un “pulgar hacia arriba” podrían indicar un tipo de comportamiento deseable a corto plazo, las implicaciones a largo plazo sobre cómo responde el modelo de IA y dónde lo llevan esos comportamientos y sus usuarios podrían conducir a un lugar muy oscuro, angustioso, destructivo y indeseable. Más no siempre es mejor, especialmente cuando está limitando el “más” a algunos dominios de señales.

No es suficiente decir que el modelo aprobó todas las pruebas o recibió una serie de respuestas positivas de los usuarios: la experiencia de los usuarios avanzados capacitados y sus comentarios cualitativos de que algo “parecía” sobre el modelo, incluso si no podían expresar por qué, debería tener mucho más peso que OpenAi estaba asignando anteriormente.

Esperemos que la empresa, y todo el campo, aprenda de este incidente e integre las lecciones en el futuro.

Control y consideraciones más amplias para los tomadores de decisiones empresariales

Hablando quizás más teóricamente, para mí, también indica por qué la experiencia es tan importante, y específicamente, la experiencia en los campos más allá de y afuera de la que está optimizando (en este caso, aprendizaje automático e IA). Es la diversidad de la experiencia la que nos permite como especie lograr nuevos avances que beneficien a nuestro tipo. Uno, digamos, STEM, no necesariamente debe mantenerse por encima de los demás en las humanidades o las artes.

Y finalmente, también creo que revela en su corazón un problema fundamental con el uso de comentarios humanos para diseñar productos y servicios. Los usuarios individuales pueden decir que les gusta una IA más sycofántica basada en cada interacción aislada, al igual que también pueden decir que aman la forma en que la comida rápida y los soda saben, la conveniencia de los contenedores de plástico de un solo uso, el entretenimiento y la conexión que derivan de las redes sociales, la validación de la cosmovisión y el tribalista que se sienten cuando leen los medios políticos o el chismoso de los tabloides. Una vez más, tomados todos juntos, el acumulación De todos estos tipos de tendencias y actividades, a menudo conduce a resultados muy indeseables para los individuos y la sociedad: obesidad y mala salud en el caso de la comida rápida, la contaminación y la interrupción endocrina en el caso de los desechos plásticos, la depresión y el aislamiento de la sobreindulgencia de las redes sociales, un cuerpo más astillado y menos informado público de la lectura de noticias de mala calidad.

Los diseñadores de modelos de IA y los tomadores de decisiones técnicos en Enterprises harían bien en tener en cuenta esta idea más amplia al diseñar métricas en torno a cualquier objetivo medible, porque incluso cuando cree que está utilizando datos para su ventaja, podría ser contraproducente de una manera que no esperaba o anticipar completamente, dejando su lucha para reparar el daño y el MOP que hizo, sin embargo, sin embargo.

Continue Reading

Trending