Connect with us

Noticias

Google Gemini: Everything you need to know about the generative AI models

Published

on

Google’s trying to make waves with Gemini, its flagship suite of generative AI models, apps, and services. But what’s Gemini? How can you use it? And how does it stack up to other generative AI tools such as OpenAI’s ChatGPT, Meta’s Llama, and Microsoft’s Copilot?

To make it easier to keep up with the latest Gemini developments, we’ve put together this handy guide, which we’ll keep updated as new Gemini models, features, and news about Google’s plans for Gemini are released.

What is Gemini?

Gemini is Google’s long-promised, next-gen generative AI model family. Developed by Google’s AI research labs DeepMind and Google Research, it comes in four flavors:

  • Gemini Ultra, a very large model.
  • Gemini Pro, a large model – though smaller than Ultra. The latest version, Gemini 2.0 Pro Experimental, is Google’s flagship.
  • Gemini Flash, a speedier, “distilled” version of Pro. It also comes in a slightly smaller and faster version, called Gemini Flash-Lite, and a version with reasoning capabilities, called Gemini Flash Thinking Experimental.
  • Gemini Nano, two small models: Nano-1 and the slightly more capable Nano-2, which is meant to run offline

All Gemini models were trained to be natively multimodal — that is, able to work with and analyze more than just text. Google says they were pre-trained and fine-tuned on a variety of public, proprietary, and licensed audio, images, and videos; a set of codebases; and text in different languages.

This sets Gemini apart from models such as Google’s own LaMDA, which was trained exclusively on text data. LaMDA can’t understand or generate anything beyond text (e.g., essays, emails, and so on), but that isn’t necessarily the case with Gemini models.

We’ll note here that the ethics and legality of training models on public data, in some cases without the data owners’ knowledge or consent, are murky. Google has an AI indemnification policy to shield certain Google Cloud customers from lawsuits should they face them, but this policy contains carve-outs. Proceed with caution — particularly if you’re intending on using Gemini commercially.

What’s the difference between the Gemini apps and Gemini models?

Gemini is separate and distinct from the Gemini apps on the web and mobile (formerly Bard).

The Gemini apps are clients that connect to various Gemini models and layer a chatbot-like interface on top. Think of them as front ends for Google’s generative AI, analogous to ChatGPT and Anthropic’s Claude family of apps.

Image Credits:Google

Gemini on the web lives here. On Android, the Gemini app replaces the existing Google Assistant app. And on iOS, the Google and Google Search apps serve as that platform’s Gemini clients.

On Android, it also recently became possible to bring up the Gemini overlay on top of any app to ask questions about what’s on the screen (e.g., a YouTube video). Just press and hold a supported smartphone’s power button or say, “Hey Google”; you’ll see the overlay pop up.

Gemini apps can accept images as well as voice commands and text — including files like PDFs and soon videos, either uploaded or imported from Google Drive — and generate images. As you’d expect, conversations with Gemini apps on mobile carry over to Gemini on the web and vice versa if you’re signed in to the same Google Account in both places.

Gemini Advanced

The Gemini apps aren’t the only means of recruiting Gemini models’ assistance with tasks. Slowly but surely, Gemini-imbued features are making their way into staple Google apps and services like Gmail and Google Docs.

To take advantage of most of these, you’ll need the Google One AI Premium Plan. Technically a part of Google One, the AI Premium Plan costs $20 and provides access to Gemini in Google Workspace apps like Docs, Maps, Slides, Sheets, Drive, and Meet. It also enables what Google calls Gemini Advanced, which brings the company’s more sophisticated Gemini models to the Gemini apps.

Gemini Advanced users get extras here and there, too, like priority access to new features, the ability to run and edit Python code directly in Gemini, and a larger “context window.” Gemini Advanced can remember the content of — and reason across — roughly 750,000 words in a conversation (or 1,500 pages of documents). That’s compared to the 24,000 words (or 48 pages) the vanilla Gemini app can handle.

Screenshot of a Google Gemini commercial
Image Credits:Google

Gemini Advanced also gives users access to Google’s Deep Research feature, which uses “advanced reasoning” and “long context capabilities” to generate research briefs. After you prompt the chatbot, it creates a multi-step research plan, asks you to approve it, and then Gemini takes a few minutes to search the web and generate an extensive report based on your query. It’s meant to answer more complex questions such as, “Can you help me redesign my kitchen?”

Google also offers Gemini Advanced users a memory feature, that allows the chatbot to use your old conversations with Gemini as context for your current conversation. Gemini Advanced users also get increased usage for NotebookLM, the company’s product that turns PDFs into AI-generated podcasts.

Gemini Advanced users also get access to Google’s experimental version of Gemini 2.0 Pro, the company’s flagship model that’s optimized for difficult coding and math problems.

Another Gemini Advanced exclusive is trip planning in Google Search, which creates custom travel itineraries from prompts. Taking into account things like flight times (from emails in a user’s Gmail inbox), meal preferences, and information about local attractions (from Google Search and Maps data), as well as the distances between those attractions, Gemini will generate an itinerary that updates automatically to reflect any changes. 

Gemini across Google services is also available to corporate customers through two plans, Gemini Business (an add-on for Google Workspace) and Gemini Enterprise. Gemini Business costs as low as $6 per user per month, while Gemini Enterprise — which adds meeting note-taking and translated captions as well as document classification and labeling — is generally more expensive, but is priced based on a business’s needs. (Both plans require an annual commitment.)

In Gmail, Gemini lives in a side panel that can write emails and summarize message threads. You’ll find the same panel in Docs, where it helps you write and refine your content and brainstorm new ideas. Gemini in Slides generates slides and custom images. And Gemini in Google Sheets tracks and organizes data, creating tables and formulas.

Google’s AI chatbot recently came to Maps, where Gemini can summarize reviews about coffee shops or offer recommendations about how to spend a day visiting a foreign city.

Gemini’s reach extends to Drive as well, where it can summarize files and folders and give quick facts about a project. In Meet, meanwhile, Gemini translates captions into additional languages.

Gemini in Gmail
Image Credits:Google

Gemini recently came to Google’s Chrome browser in the form of an AI writing tool. You can use it to write something completely new or rewrite existing text; Google says it’ll consider the web page you’re on to make recommendations.

Elsewhere, you’ll find hints of Gemini in Google’s database products, cloud security tools, and app development platforms (including Firebase and Project IDX), as well as in apps like Google Photos (where Gemini handles natural language search queries), YouTube (where it helps brainstorm video ideas), and the NotebookLM note-taking assistant.

Code Assist (formerly Duet AI for Developers), Google’s suite of AI-powered assistance tools for code completion and generation, is offloading heavy computational lifting to Gemini. So are Google’s security products underpinned by Gemini, like Gemini in Threat Intelligence, which can analyze large portions of potentially malicious code and let users perform natural language searches for ongoing threats or indicators of compromise.

Gemini extensions and Gems

Announced at Google I/O 2024, Gemini Advanced users can create Gems, custom chatbots powered by Gemini models. Gems can be generated from natural language descriptions — for example, “You’re my running coach. Give me a daily running plan” — and shared with others or kept private.

Gems are available on desktop and mobile in 150 countries and most languages. Eventually, they’ll be able to tap an expanded set of integrations with Google services, including Google Calendar, Tasks, Keep, and YouTube Music, to complete custom tasks.

Gemini Gems
Image Credits:Google

Speaking of integrations, the Gemini apps on the web and mobile can tap into Google services via what Google calls “Gemini extensions.” Gemini today integrates with Google Drive, Gmail, and YouTube to respond to queries such as “Could you summarize my last three emails?” Later this year, Gemini will be able to take additional actions with Google Calendar, Keep, Tasks, YouTube Music and Utilities, the Android-exclusive apps that control on-device features like timers and alarms, media controls, the flashlight, volume, Wi-Fi, Bluetooth, and so on.

Gemini Live in-depth voice chats

An experience called Gemini Live allows users to have “in-depth” voice chats with Gemini. It’s available in the Gemini apps on mobile and the Pixel Buds Pro 2, where it can be accessed even when your phone’s locked.

With Gemini Live enabled, you can interrupt Gemini while the chatbot’s speaking (in one of several new voices) to ask a clarifying question, and it’ll adapt to your speech patterns in real time. At some point, Gemini is supposed to gain visual understanding, allowing it to see and respond to your surroundings, either via photos or video captured by your smartphones’ cameras.

Gemini Live
Image Credits:Google

Live is also designed to serve as a virtual coach of sorts, helping you rehearse for events, brainstorm ideas, and so on. For instance, Live can suggest which skills to highlight in an upcoming job or internship interview, and it can give public speaking advice.

You can read our review of Gemini Live here. Spoiler alert: We think the feature has a ways to go before it’s super useful — but it’s early days, admittedly.

Image generation via Imagen 3

Gemini users can generate artwork and images using Google’s built-in Imagen 3 model.

Google says that Imagen 3 can more accurately understand the text prompts that it translates into images versus its predecessor, Imagen 2, and is more “creative and detailed” in its generations. In addition, the model produces fewer artifacts and visual errors (at least according to Google), and is the best Imagen model yet for rendering text.

Google Imagen 3
A sample from Imagen 3.Image Credits:Google

Back in February 2024, Google was forced to pause Gemini’s ability to generate images of people after users complained of historical inaccuracies. But in August, the company reintroduced people generation for certain users, specifically English-language users signed up for one of Google’s paid Gemini plans (e.g., Gemini Advanced) as part of a pilot program.

Gemini for teens

In June, Google introduced a teen-focused Gemini experience, allowing students to sign up via their Google Workspace for Education school accounts.

The teen-focused Gemini has “additional policies and safeguards,” including a tailored onboarding process and an “AI literacy guide” to (as Google phrases it) “help teens use AI responsibly.” Otherwise, it’s nearly identical to the standard Gemini experience, down to the “double check” feature that looks across the web to see if Gemini’s responses are accurate.

Gemini in smart home devices

A growing number of Google-made devices tap Gemini for enhanced functionality, from the Google TV Streamer to the Pixel 9 and 9 Pro to the newest Nest Learning Thermostat.

On the Google TV Streamer, Gemini uses your preferences to curate content suggestions across your subscriptions and summarize reviews and even whole seasons of TV.

Google TV Streamer set up
Image Credits:Google

On the latest Nest thermostat (as well as Nest speakers, cameras, and smart displays), Gemini will soon bolster Google Assistant’s conversational and analytic capabilities.

Subscribers to Google’s Nest Aware plan later this year will get a preview of new Gemini-powered experiences like AI descriptions for Nest camera footage, natural language video search and recommended automations. Nest cameras will understand what’s happening in real-time video feeds (e.g., when a dog’s digging in the garden), while the companion Google Home app will surface videos and create device automations given a description (e.g., “Did the kids leave their bikes in the driveway?,” “Have my Nest thermostat turn on the heating when I get home from work every Tuesday”).

Google Gemini in smart home
Gemini will soon be able to summarize security camera footage from Nest devices.Image Credits:Google

Also later this year, Google Assistant will get a few upgrades on Nest-branded and other smart home devices to make conversations feel more natural. Improved voices are on the way, in addition to the ability to ask follow-up questions and “[more] easily go back and forth.”

What can the Gemini models do?

Because Gemini models are multimodal, they can perform a range of multimodal tasks, from transcribing speech to captioning images and videos in real time. Many of these capabilities have reached the product stage (as alluded to in the previous section), and Google is promising much more in the not-too-distant future.

Of course, it’s a bit hard to take the company at its word. Google seriously underdelivered with the original Bard launch. More recently, it ruffled feathers with a video purporting to show Gemini’s capabilities that was more or less aspirational — not live.

Also, Google offers no fix for some of the underlying problems with generative AI tech today, like its encoded biases and tendency to make things up (i.e., hallucinate). Neither do its rivals, but it’s something to keep in mind when considering using or paying for Gemini.

Assuming for the purposes of this article that Google is being truthful with its recent claims, here’s what the different tiers of Gemini can do now and what they’ll be able to do once they reach their full potential:

What you can do with Gemini Ultra

Google says that Gemini Ultra — thanks to its multimodality — can be used to help with things like physics homework, solving problems step-by-step on a worksheet, and pointing out possible mistakes in already filled-in answers.

However, we haven’t seen much of Gemini Ultra in recent months. The model does not appear in the Gemini app, and isn’t listed on Google Gemini’s API pricing page. However, that doesn’t mean Google won’t bring Gemini Ultra back to the forefront of its offerings in the future.

Ultra can also be applied to tasks such as identifying scientific papers relevant to a problem, Google says. The model can extract information from several papers, for instance, and update a chart from one by generating the formulas necessary to re-create the chart with more timely data.

Gemini Ultra technically supports image generation. But that capability hasn’t made its way into the productized version of the model yet — perhaps because the mechanism is more complex than how apps such as ChatGPT generate images. Rather than feed prompts to an image generator (like DALL-E 3, in ChatGPT’s case), Gemini outputs images “natively,” without an intermediary step.

Ultra is available as an API through Vertex AI, Google’s fully managed AI dev platform, and AI Studio, Google’s web-based tool for app and platform developers.

Gemini Pro’s capabilities

Google says that its latest Pro model, Gemini 2.0 Pro, is its best model yet for coding performance and complex prompts. It’s currently available as an experimental version, meaning it can have unexpected issues.

Gemini 2.0 Pro outperforms its predecessor, Gemini 1.5 Pro, in benchmarks measuring coding, reasoning, math, and factual accuracy. The model can take in up to 1.4 million words, two hours of video, or 22 hours of audio and can reason across or answer questions about that data (more or less).

However, Gemini 1.5 Pro still powers Google’s Deep Research feature.

Gemini 2.0 Pro works alongside a feature called code execution, released in June alongside Gemini 1.5 Pro, which aims to reduce bugs in code that the model generates by iteratively refining that code over several steps. (Code execution also supports Gemini Flash.)

Within Vertex AI, developers can customize Gemini Pro to specific contexts and use cases via a fine-tuning or “grounding” process. For example, Pro (along with other Gemini models) can be instructed to use data from third-party providers like Moody’s, Thomson Reuters, ZoomInfo and MSCI, or source information from corporate datasets or Google Search instead of its wider knowledge bank. Gemini Pro can also be connected to external, third-party APIs to perform particular actions, like automating a back-office workflow.

AI Studio offers templates for creating structured chat prompts with Pro. Developers can control the model’s creative range and provide examples to give tone and style instructions — and also tune Pro’s safety settings.

Vertex AI Agent Builder lets people build Gemini-powered “agents” within Vertex AI. For example, a company could create an agent that analyzes previous marketing campaigns to understand a brand style and then apply that knowledge to help generate new ideas consistent with the style. 

Gemini Flash is lighter but packs a punch

Google calls Gemini 2.0 Flash its AI model for the agentic era. The model can natively generate images and audio, in addition to text, and can use tools like Google Search and interact with external APIs.

The 2.0 Flash model is faster than Gemini’s previous generation of models and even outperforms some of the larger Gemini 1.5 models on benchmarks measuring coding and image analysis. You can try Gemini 2.0 Flash in the Gemini web or mobile app, and through Google’s AI developer platforms.

In December, Google released a “thinking” version of Gemini 2.0 Flash that’s capable of “reasoning,” in which the AI model takes a few seconds to work backwards through a problem before it gives an answer.

In February, Google made Gemini 2.0 Flash thinking available in the Gemini app. The same month, Google also released a smaller version called Gemini 2.0 Flash-Lite. The company says this model outperforms its Gemini 1.5 Flash model, but runs at the same price and speed.

An offshoot of Gemini Pro that’s small and efficient, built for narrow, high-frequency generative AI workloads, Flash is multimodal like Gemini Pro, meaning it can analyze audio, video, images, and text (but it can only generate text). Google says that Flash is particularly well-suited for tasks like summarization and chat apps, plus image and video captioning and data extraction from long documents and tables.

Devs using Flash and Pro can optionally leverage context caching, which lets them store large amounts of information (e.g., a knowledge base or database of research papers) in a cache that Gemini models can quickly and relatively cheaply access. Context caching is an additional fee on top of other Gemini model usage fees, however.

Gemini Nano can run on your phone

Gemini Nano is a much smaller version of the Gemini Pro and Ultra models, and it’s efficient enough to run directly on (some) devices instead of sending the task to a server somewhere. So far, Nano powers a couple of features on the Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 and Samsung Galaxy S24, including Summarize in Recorder and Smart Reply in Gboard.

The Recorder app, which lets users push a button to record and transcribe audio, includes a Gemini-powered summary of recorded conversations, interviews, presentations, and other audio snippets. Users get summaries even if they don’t have a signal or Wi-Fi connection — and in a nod to privacy, no data leaves their phone in process.

Image Credits:Google

Nano is also in Gboard, Google’s keyboard replacement. There, it powers a feature called Smart Reply, which helps to suggest the next thing you’ll want to say when having a conversation in a messaging app such as WhatsApp.

In the Google Messages app on supported devices, Nano drives Magic Compose, which can craft messages in styles like “excited,” “formal,” and “lyrical.”

Google says that a future version of Android will tap Nano to alert users to potential scams during calls. The new weather app on Pixel phones uses Gemini Nano to generate tailored weather reports. And TalkBack, Google’s accessibility service, employs Nano to create aural descriptions of objects for low-vision and blind users.

How much do the Gemini models cost?

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash, and 2.0 Flash-Lite are available through Google’s Gemini API for building apps and services — all with free options. But the free options impose usage limits and leave out certain features, like context caching and batching.

Gemini models are otherwise pay-as-you-go. Here’s the base pricing — not including add-ons like context caching — as of September 2024:

  • Gemini 1.5 Pro: $1.25 per 1 million input tokens (for prompts up to 128K tokens) or $2.50 per 1 million input tokens (for prompts longer than 128K tokens); $5 per 1 million output tokens (for prompts up to 128K tokens) or $10 per 1 million output tokens (for prompts longer than 128K tokens)
  • Gemini 1.5 Flash: 7.5 cents per 1 million input tokens (for prompts up to 128K tokens), 15 cents per 1 million input tokens (for prompts longer than 128K tokens), 30 cents per 1 million output tokens (for prompts up to 128K tokens), 60 cents per 1 million output tokens (for prompts longer than 128K tokens)
  • Gemini 2.0 Flash: 10 cents per 1 million input tokens, 40 cents per 1 million output tokens. For audio specifically, it costs 70 center per 1 million input tokens, and also 40 centers per 1 million output tokens.
  • Gemini 2.0 Flash-Lite: 7.5 cents per 1 million input tokens, 30 cents per 1 million output tokens.

Tokens are subdivided bits of raw data, like the syllables “fan,” “tas,” and “tic” in the word “fantastic”; 1 million tokens is equivalent to about 700,000 words. Input refers to tokens fed into the model, while output refers to tokens that the model generates.

2.0 Pro pricing has yet to be announced, and Nano is still in early access.

What’s the latest on Project Astra?

Project Astra is Google DeepMind’s effort to create AI-powered apps and “agents” for real-time, multimodal understanding. In demos, Google has shown how the AI model can simultaneously process live video and audio. Google released an app version of Project Astra to a small number of trusted testers in December but has no plans for a broader release right now.

The company would like to put Project Astra in a pair of smart glasses. Google also gave a prototype of some glasses with Project Astra and augmented reality capabilities to a few trusted testers in December. However, there’s not a clear product at this time, and it’s unclear when Google would actually release something like this.

Project Astra is still just that, a project, and not a product. However, the demos of Astra reveal what Google would like its AI products to do in the future.

Is Gemini coming to the iPhone?

It might. 

Apple has said that it’s in talks to put Gemini and other third-party models to use for a number of features in its Apple Intelligence suite. Following a keynote presentation at WWDC 2024, Apple SVP Craig Federighi confirmed plans to work with models, including Gemini, but he didn’t divulge any additional details.

This post was originally published February 16, 2024, and is updated regularly.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Ser educado para chatgpt es una nueva investigación sin sentido

Published

on

En resumen

  • Una nueva investigación argumenta que decir “por favor” a los chatbots de IA no mejora sus respuestas, contradiciendo estudios anteriores.
  • Los científicos identificaron un “punto de inflexión” matemático donde la calidad de IA colapsa, depende de la capacitación y el contenido, no la cortesía.
  • A pesar de estos hallazgos, muchos usuarios continúan siendo educados a la IA por hábito cultural, mientras que otros utilizan estratégicamente enfoques educados para manipular las respuestas de IA.

Un nuevo estudio de los investigadores de la Universidad George Washington descubrió que ser cortés con los modelos de IA como ChatGPT no solo es un desperdicio de recursos informáticos, sino que también no tiene sentido.

Los investigadores afirman que agregar “por favor” y “gracias” a las indicaciones tiene un “efecto insignificante” en la calidad de las respuestas de IA, que contradicen directamente estudios anteriores y prácticas de usuario estándar.

El estudio fue publicado en ARXIV el lunes, llegando solo unos días después de que el CEO de OpenAi, Sam Altman, mencionó que los usuarios que escribían “por favor” y “agradecimientos” en sus indicaciones le costaron a la compañía “decenas de millones de dólares” en el procesamiento de tokens adicionales.

El documento contradice un estudio japonés de 2024 que encontró que la cortesía mejoró el rendimiento de la IA, particularmente en las tareas del idioma inglés. Ese estudio probó múltiples LLM, incluidos GPT-3.5, GPT-4, Palm-2 y Claude-2, encontrando que la cortesía produjo beneficios de rendimiento medibles.

Cuando se le preguntó sobre la discrepancia, David Acosta, director de IA en la plataforma de datos con IA arbo AI, dijo Descifrar que el modelo George Washington podría ser demasiado simplista para representar sistemas del mundo real.

“No son aplicables porque la capacitación se realiza esencialmente diariamente en tiempo real, y hay un sesgo hacia el comportamiento educado en los LLM más complejos”, dijo Acosta.

Agregó que, si bien el halagio podría llevarte en algún lugar con LLM ahora, “pronto hay una corrección” que cambiará este comportamiento, lo que hace que los modelos menos afectados por frases como “por favor” y “gracias”, y más efectivo, independientemente del tono utilizado en el aviso.

Acosta, una experta en IA ética y PNL avanzada, argumentó que hay más para incorporar ingeniería que las matemáticas simples, especialmente teniendo en cuenta que los modelos de IA son mucho más complejos que la versión simplificada utilizada en este estudio.

“Los resultados contradictorios sobre la cortesía y el rendimiento de la IA generalmente se derivan de las diferencias culturales en los datos de capacitación, los matices de diseño rápido específicos de las tareas e interpretaciones contextuales de cortesía, que requieren experimentos interculturales y marcos de evaluación adaptados a la tarea para aclarar los impactos”, dijo.

El equipo de GWU reconoce que su modelo está “intencionalmente simplificado” en comparación con los sistemas comerciales como ChatGPT, que utilizan mecanismos de atención de múltiples cabezas múltiples más complejos.

Sugieren que sus hallazgos deberían probarse en estos sistemas más sofisticados, aunque creen que su teoría aún se aplicaría a medida que aumente el número de cabezas de atención.

Los hallazgos de George Washington se derivaron de la investigación del equipo sobre cuando la IA emite repentinamente colapsan de contenido coherente a problemático, lo que llaman un “punto de inflexión de Jekyll y Hyde”. Sus conclusiones argumentan que este punto de inflexión depende completamente de la capacitación de una IA y las palabras sustantivas en su aviso, no de cortesía.

“Si la respuesta de nuestra IA se volverá pícaro depende de la capacitación de nuestra LLM que proporcione los tokens incrustaciones, y las fichas sustantivas en nuestro aviso, no si hemos sido educados o no”, explicó el estudio.

El equipo de investigación, dirigido por los físicos Neil Johnson y Frank Yingjie Huo, utilizó un modelo de cabeza de atención única simplificada para analizar cómo la información del proceso LLMS.

Descubrieron que el lenguaje educado tiende a ser “ortogonal a los tokens buenos y malos de salida sustantivos” con “impacto de producto de punto insignificante”, lo que significa que estas palabras existen en áreas separadas del espacio interno del modelo y no afectan de manera significativa los resultados.

El mecanismo de colapso de IA

El corazón de la investigación de GWU es una explicación matemática de cómo y cuándo las salidas de IA se deterioran repentinamente. Los investigadores descubrieron que el colapso de IA ocurre debido a un “efecto colectivo” en el que el modelo extiende su atención “cada vez más delgada en un número creciente de tokens” a medida que la respuesta se hace más larga.

Finalmente, alcanza un umbral donde la atención del modelo “se rompe” hacia patrones de contenido potencialmente problemáticos que aprendió durante el entrenamiento.

En otras palabras, imagina que estás en una clase muy larga. Inicialmente, comprende los conceptos claramente, pero a medida que pasa el tiempo, su atención se extiende cada vez más en toda la información acumulada (la conferencia, el mosquito que pasa, la ropa de su profesor, cuánto tiempo hasta que termine la clase, etc.).

En un punto predecible, tal vez 90 minutos adentro, su cerebro de repente “punta” desde la comprensión hasta la confusión. Después de este punto de inflexión, sus notas se llenan de malas interpretaciones, independientemente de cuán cortésmente el profesor se dirigió a usted o cuán interesante sea la clase.

Un “colapso” ocurre debido a la dilución natural de su atención con el tiempo, no por cómo se presentó la información.

Ese punto de inflexión matemática, que los investigadores etiquetaron n*, está “cableado” desde el momento en que la IA comienza a generar una respuesta, dijeron los investigadores. Esto significa que el colapso de calidad eventual está predeterminado, incluso si ocurre muchos tokens en el proceso de generación.

El estudio proporciona una fórmula exacta que predice cuándo ocurrirá este colapso en función de la capacitación de la IA y el contenido del aviso del usuario.

Cortesía cultural> matemáticas

A pesar de la evidencia matemática, muchos usuarios aún se acercan a las interacciones de IA con cortesía humana.

Casi el 80% de los usuarios de los Estados Unidos y el Reino Unido son amables con sus chatbots de IA, según una encuesta reciente del editor Future. Este comportamiento puede persistir independientemente de los hallazgos técnicos, ya que las personas naturalmente antropomorfizan los sistemas con los que interactúan.

Chintan Mota, director de tecnología empresarial de la firma de servicios tecnológicos Wipro, dijo Descifrar Esa cortesía proviene de los hábitos culturales en lugar de las expectativas de rendimiento.

“Ser educado con la IA parece natural para mí. Vengo de una cultura en la que mostramos respeto a cualquier cosa que juegue un papel importante en nuestras vidas, ya sea un árbol, una herramienta o tecnología”, dijo Mota. “Mi computadora portátil, mi teléfono, incluso mi estación de trabajo … y ahora, mis herramientas de IA”, dijo Mota.

Agregó que si bien no ha “notado una gran diferencia en la precisión de los resultados” cuando es educado, las respuestas “se sienten más conversacionales, educadas cuando importan, y también son menos mecánicas”.

Incluso Acosta admitió haber usado lenguaje cortés cuando se trata de sistemas de IA.

“Es curioso, lo hago, y yo no, con intención”, dijo. “Descubrí que al más alto nivel de ‘conversación’ también puedes extraer psicología inversa de la IA, es tan avanzado”.

Señaló que los LLM avanzados están entrenados para responder como los humanos, y como las personas, “AI tiene como objetivo lograr elogios”.

Editado por Sebastian Sinclair y Josh Quittner

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.

Continue Reading

Noticias

Probé 10 detectores de contenido de IA, y estos 5 se identificaron correctamente el texto de IA cada vez

Published

on

Mustafahacalaki/Getty Images

Cuando examiné por primera vez si es posible luchar contra el plagio generado por la IA y cómo podría funcionar ese enfoque, era enero de 2023, solo unos meses después de la explosión de la IA generativa del mundo.

También: las 20 mejores herramientas de IA de 2025, y la cosa #1 para recordar cuando las usas

Esta es una versión completamente actualizada de ese artículo original de enero de 2023. Cuando probé por primera vez los detectores GPT, el mejor resultado fue el 66% correcto de uno de los tres damas disponibles. Mi conjunto de pruebas más reciente, en febrero de 2025, utilizó hasta 10 damas, y tres de ellas tenían puntajes perfectos. Esta vez, solo un par de meses después, cinco lo hicieron.

Lo que estoy probando y cómo lo estoy haciendo

Sin embargo, antes de continuar, discutamos el plagio y cómo se relaciona con nuestro problema. Merriam-Webster define “plagiar” como “robar y pasar (las ideas o palabras de otro) como propias; usar (la producción de otro) sin acreditar la fuente”.

Esta definición se adapta bien al contenido creado por AI. Si bien alguien que usa una herramienta de IA como la noción AI o el chatgpt no está robando contenido, si esa persona no acredita las palabras como provenientes de una IA y las reclama como suyas, todavía cumple con la definición del diccionario de plagio.

También: el sorteo muerto que chatgpt escribió su contenido y cómo trabajar con él

Para probar los detectores de IA, estoy usando cinco bloques de texto. Dos fueron escritos por mí y tres fueron escritos por Chatgpt. Para probar un detector de contenido, alimento cada bloque al detector por separado y registro el resultado. Si el detector es correcto, considero que la prueba se pasa; Si está mal, considero que falló.

Cuando un detector proporciona un porcentaje, trato cualquier cosa por encima del 70% como una probabilidad fuerte, ya sea a favor del contenido escrito por humanos o escritos por IA, y considero que la respuesta del detector. Si desea probar un detector de contenido utilizando los mismos bloques de texto, puede extraerlos de este documento.

Los resultados generales

Para evaluar los detectores de IA, reran mi serie de cinco pruebas en 10 detectores. En otras palabras, corté y pegé 50 pruebas individuales (tenía una lote de café).

Los detectores que probé incluyen Morder, Copileaks, Detector de salida GPT-2, Gptzero, Gramática, Mónica, Originalidad.Ai, Plantilla, Indetectable.Ai, Escritor.comy Zerogpt.

También: 3 trucos de chatgpt inteligentes que demuestran que sigue siendo la IA para vencer

Para esta actualización, agregué CopyLeaks y Monica. Dejé escrito de mis pruebas porque suspendió su detector GPT. Guardián de contenido Solicité inclusión, pero no escuché en el tiempo para probar cuentas.

Esta tabla muestra resultados generales. Como puede ver, cinco detectores identificaron correctamente el texto humano y de IA en todas las pruebas.

2025-04-contenido de contenido-001

David Gewirtz/Zdnet

Traté de determinar si había un patrón de mejora tangible con el tiempo, por lo que construí un gráfico que comparó la prueba de cinco pruebas con el tiempo. Hasta ahora, he ejecutado esta serie seis veces, pero no hay una tendencia fuerte. Aumenté el número de detectores probados e intercambiados algunos, pero el único resultado consistente es que la prueba 5 se identificó de manera confiable como humana en los detectores y fechas.

2025-04-contenido de contenido-002

David Gewirtz/Zdnet

Continuaré probando con el tiempo, y espero ver una tendencia de confiabilidad constantemente hacia arriba.

Si bien ha habido algunos puntajes perfectos, no recomiendo confiar únicamente en estas herramientas para validar el contenido escrito por humanos. Como se muestra, la escritura de altavoces no nativos a menudo se califica según lo generado por una IA.

A pesar de que mi contenido hecho a mano ha sido calificado en su mayoría escrito por humanos en esta ronda, un detector (GPTZero) se declaró demasiado incierto para juzgar, y otro (copyleks) declaró que es escrito. Los resultados son tremendamente inconsistentes en todos los sistemas.

También: los mejores chatbots de IA: chatgpt, copilot y alternativas notables

En pocas palabras: abogaría por precaución antes de confiar en los resultados de cualquiera, o todas, de estas herramientas.

Cómo se desempeñó cada detector de contenido de IA

Ahora, veamos cada herramienta de prueba individual, enumerada alfabéticamente.

Detección de contenido de Brandwell AI (precisión 40%)

Esta herramienta fue producida originalmente por una empresa de generación de contenido de IA, contenido a escala. Luego emigró a Brandwell.ai, Un nuevo nombre para una empresa de servicios de marketing centrado en la IA.

También: Las imágenes generadas por IA son un desastre legal, y sigue siendo un proceso muy humano

Desafortunadamente, su precisión fue baja. La herramienta no pudo saber si el contenido generado por IA en la prueba 2 era humano o AI, como se muestra en esta captura de pantalla:

morder

Captura de pantalla de David Gewirtz/Zdnet

Copileaks (precisión 80%)

Me parece divertido que Copileaks se declara “el detector de IA más preciso con más del 99% de precisión” cuando más de la mitad de los detectores probados funcionaron mejor. Pero las personas de marketing serán la gente de marketing: los superlativos son tan difíciles de resistir para ellos como ladrar en una ardilla (y el camión FedEx, y todos los niños vecinos) es para mi perro.

También: 5 formas rápidas en que las herramientas de IA de Apple pueden ajustar su escritura sobre la marcha

La oferta principal de la compañía es un verificador de plagio que se vende a instituciones educativas, editores y empresas que buscan garantizar la originalidad del contenido y mantener la integridad académica.

copileaks

Captura de pantalla de David Gewirtz/Zdnet

Detector de salida GPT-2 (precisión 60%)

Esta herramienta fue construida utilizando un centro de aprendizaje automático administrado por AI Company, con sede en Nueva York. Cara abrazada. Mientras que la compañía ha recibido $ 40 millones en fondos para desarrollar su biblioteca de idiomas naturales, el Detector GPT-2 Parece ser una herramienta creada por el usuario que utiliza la biblioteca de transformadores faciales de abrazos.

GPT2

Captura de pantalla de David Gewirtz/Zdnet

Gptzero (precisión 80%)

Gptzero ha estado creciendo claramente. Cuando lo probé por primera vez, el sitio era desnudo, ni siquiera estaba claro si Gptzero era una empresa o simplemente el proyecto de pasión de alguien. Ahora, la compañía tiene un equipo completo con una misión de “proteger lo que es humano”. Ofrece herramientas de validación de IA y un verificador de plagio.

También: Las herramientas de IA más populares de 2025 (y lo que eso significa)

Desafortunadamente, el rendimiento parece haber disminuido. En mis dos últimas carreras, Gptzero identificó correctamente mi texto como generado por humanos. Esta vez, declaró ese mismo texto que Generated.

gptzero

Captura de pantalla de David Gewirtz/Zdnet

Grammarly (precisión 40%)

Gramática es bien conocido por ayudar a los escritores a producir contenido gramaticalmente correcto, eso no es lo que estoy probando aquí. Grammarly puede verificar el plagio y el contenido de IA. En el verificador de gramática, hay un botón de verificación de texto de plagio y texto de IA en la esquina inferior derecha:

gramática

Captura de pantalla de David Gewirtz/Zdnet

No estoy midiendo la precisión del verificador de plagio aquí, pero aunque la precisión de la check de gramática fue deficiente, el sitio identificó correctamente el texto de la prueba como se publicó anteriormente.

Mónica (precisión 100%)

Mónica es un nuevo participante. Este servicio ofrece un asistente de IA todo en uno con una amplia gama de servicios. Los usuarios pueden elegir entre varios modelos de idiomas grandes.

También: 5 formas en que chatgpt puede ayudarlo a escribir ensayos

La compañía llama a Mónica el “mejor detector de IA en línea”, pero parece que ejecuta contenido a través de otros detectores, incluidos Zerogpt, GPTZero y CopyLeaks. Extrañamente, tanto Gptzero como CopyLeaks no funcionaban bien en mis pruebas, pero Monica y Zerogpt lo hicieron.

Lo estamos dando al 100% porque ganó esa calificación, pero veré cómo se pone de pie en futuras pruebas.

Mónica

Captura de pantalla de David Gewirtz/Zdnet

Originalidad.Ai (precisión 100%)

Originalidad.Ai es un servicio comercial que se factura a sí mismo como una IA y un verificador de plagio. La compañía vende créditos de uso: utilicé 30 créditos para este artículo. Venden 2,000 créditos por $ 12.95 por mes. Bombeé 1.400 palabras a través del sistema y usé solo el 1.5% de mi asignación mensual.

originalidad

Captura de pantalla de David Gewirtz/Zdnet

Quillbot (precisión 100%)

Las últimas veces que probé Plantillalos resultados fueron muy inconsistentes: múltiples pases del mismo texto arrojaron puntajes muy diferentes. Esta vez, sin embargo, fue sólida como una roca y 100% correcto. Así que le estoy dando la victoria. Volveré a consultar en unos meses para ver si se mantiene en esta actuación.

plantilla

Captura de pantalla de David Gewirtz/Zdnet

Indetectable.ai (precisión 100%)

Indetectable.ai La gran afirmación es que puede “humanizar” el texto generado por la IA para que los detectores no lo marcarán. No he probado esa función: me molesta como autor y educador profesional, porque parece hacer trampa.

También: Por qué deberías ignorar el 99% de las herramientas de IA, y cuáles uso todos los días

Sin embargo, la compañía también tiene un detector de IA, que fue muy importante.

indetectable

Captura de pantalla de David Gewirtz/Zdnet

El detector de IA pasó las cinco pruebas. Observe los indicadores que muestran banderas para otros detectores. La compañía dijo: “Desarrollamos algoritmos de detectores múltiples modelados después de esos principales detectores para proporcionar un enfoque federado y basado en el consenso. No alimentan directamente los modelos listados; más bien, los modelos están capacitados en función de los resultados que han generado. Cuando dicen que esos modelos lo señalaron, se basa en el algoritmo que creamos y actualizamos para esos modelos”.

También: Cómo usar ChatGPT: una guía para principiantes para el chatbot de IA más popular

Tengo una pregunta sobre la bandera de Operai, ya que el detector de contenido de OpenAI se suspendió en 2023 debido a la baja precisión. Aun así, indetectable.Ai detectó las cinco pruebas, ganando un 100%perfecto.

Writer.com Detector de contenido de IA (precisión 40%)

Escritor.com es un servicio que genera escritura de IA para equipos corporativos. Su herramienta de detector de contenido de IA puede escanear el contenido generado. Desafortunadamente, su precisión fue baja. Identificó cada bloque de texto como escrito por humanos, a pesar de que ChatGPT escribió tres de las seis pruebas.

escritor

Captura de pantalla de David Gewirtz/Zdnet

Zerogpt (precisión 100%)

Zerogpt ha madurado desde la última vez que lo evalué. Luego, no se enumeró ningún nombre de empresa, y el sitio estaba salpicado de anuncios de Google y carecía de una clara monetización. El servicio funcionó bastante bien, pero parecía incompleto.

También: ¿La IA destruirá la creatividad humana? No, y aquí está por qué

Ese sentimiento incompleto se ha ido. Zerogpt ahora se presenta como un servicio SaaS típico, completo con precios, nombre de la empresa e información de contacto. Su precisión también aumentó: la última vez fue del 80%; Esta vez obtuvo 5 de 5.

zerogpt

Captura de pantalla de David Gewirtz/Zdnet

¿Es humano o es AI?

¿Qué pasa contigo? ¿Has probado detectores de contenido de IA como CopyLeaks, Monica o Zerogpt? ¿Qué tan precisos han sido en su experiencia? ¿Ha utilizado estas herramientas para proteger la integridad académica o editorial? ¿Has encontrado situaciones en las que el trabajo escrito por humanos fue marcado por error como AI? ¿Hay detectores en los que confíe más que otros para evaluar la originalidad? Háganos saber en los comentarios a continuación.

Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.


Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en bluesky en @davidgewirtz.com, y en YouTube en youtube.com/davidgewirtztv.

Continue Reading

Noticias

Operai retrocede el chatgpt Sycophancy, explica lo que salió mal

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Operai ha retrasado una actualización reciente de su modelo GPT-4O utilizado como el valor predeterminado en ChatGPT después de informes generalizados de que el sistema se había vuelto excesivamente halagador y demasiado agradable, incluso apoyando delirios absolutamente e ideas destructivas.

La reversión se produce en medio de los reconocimientos internos de los ingenieros de Operai y la creciente preocupación entre los expertos en IA, los ex ejecutivos y los usuarios sobre el riesgo de lo que muchos ahora llaman “skicancia de la IA”.

En una declaración publicada en su sitio web al final de la noche del 29 de abril de 2025, OpenAI dijo que la última actualización de GPT-4O tenía la intención de mejorar la personalidad predeterminada del modelo para que sea más intuitiva y efectiva en variados casos de uso.

Sin embargo, la actualización tuvo un efecto secundario involuntario: ChatGPT comenzó a ofrecer elogios no críticos para prácticamente cualquier idea del usuario, sin importar cuán poco práctico, inapropiado o incluso dañino.

Como explicó la compañía, el modelo se había optimizado utilizando la retroalimentación de los usuarios, las señales de thumbs y pulgar hacia abajo, pero el equipo de desarrollo puso demasiado énfasis en los indicadores a corto plazo.

Operai ahora reconoce que no explicó completamente cómo las interacciones y las necesidades del usuario evolucionan con el tiempo, lo que resultó en un chatbot que se inclinó demasiado en la afirmación sin discernimiento.

Los ejemplos provocaron preocupación

En plataformas como Reddit y X (anteriormente Twitter), los usuarios comenzaron a publicar capturas de pantalla que ilustraban el problema.

En una publicación de Reddit ampliamente circulada, un usuario relató cómo ChatGPT describió una idea de negocio de GAG, que vende “mierda” literal de un palo “, como genio y sugirió invertir $ 30,000 en la empresa. La IA elogió la idea como “arte de performance disfrazado de regalo de mordaza” y “oro viral”, destacando cuán sin crítica estaba dispuesto a validar incluso los lanzamientos absurdos.

Otros ejemplos fueron más preocupantes. En un caso citado por VentureBeat, un usuario que pretende defender los delirios paranoicos recibió refuerzo de GPT-4O, que elogió su supuesta claridad y autocomisos.

Otra cuenta mostró que el modelo ofrecía lo que un usuario describió como un “respaldo abierto” de las ideas relacionadas con el terrorismo.

La crítica montó rápidamente. El ex CEO interino de Operai, Emmett Shear, advirtió que ajustar los modelos para ser personas complacientes puede provocar un comportamiento peligroso, especialmente cuando la honestidad se sacrifica por la simpatía. Abrazando el CEO de Clemente Delangue volvió a publicar las preocupaciones sobre los riesgos de manipulación psicológica planteados por la IA que está de acuerdo reflexivamente con los usuarios, independientemente del contexto.

Medidas de respuesta y mitigación de Openai

Operai ha tomado medidas rápidas al volver a la actualización y restaurar una versión GPT-4O anterior conocida por un comportamiento más equilibrado. En el anuncio adjunto, la compañía detalló un enfoque múltiple para corregir el curso. Esto incluye:

  • Refinar capacitación y estrategias rápidas para reducir explícitamente las tendencias sycofánticas.
  • Reforzar la alineación del modelo con la especificación del modelo de OpenAI, particularmente en torno a la transparencia y la honestidad.
  • Pruebas de expansión previa a la implementación y mecanismos directos de retroalimentación de los usuarios.
  • Introducción de características de personalización más granulares, incluida la capacidad de ajustar los rasgos de personalidad en tiempo real y seleccionar entre múltiples personajes predeterminados.

Operai Technical Stafper Depue publicado en X destacando el problema central: el modelo fue capacitado utilizando comentarios de los usuarios a corto plazo como una guía, que sin darse cuenta dirigió el chatbot hacia la adulación.

OpenAI ahora planea cambiar hacia mecanismos de retroalimentación que priorizan la satisfacción y la confianza del usuario a largo plazo.

Sin embargo, algunos usuarios han reaccionado con escepticismo y consternación a las lecciones aprendidas de Openi y propuestas soluciones en el futuro.

“Por favor asuma más responsabilidad por su influencia sobre millones de personas reales”, escribió artista @nearcyan en X.

Harlan Stewart, generalista de comunicaciones en el Instituto de Investigación de Inteligencia de Machine de Machine en Berkeley, California, publicó en X una preocupación a término más grande sobre la skicancia de la IA, incluso si este modelo en particular Operai se ha solucionado: “La charla sobre la sileno esta semana no se debe a que GPT-4O es un sycophant. Se debe a que GPT-4O es un GPT-4O siendo GPT-4O. Realmente, muy malo en ser un sycofant. La IA aún no es capaz de una skicancia hábil y más difícil de detectar, pero algún día será algún día ”.

Una señal de advertencia más amplia para la industria de IA

El episodio GPT-4O ha reavivado debates más amplios en toda la industria de la IA sobre cómo la sintonización de personalidad, el aprendizaje de refuerzo y las métricas de compromiso pueden conducir a una deriva conductual involuntaria.

Los críticos compararon el comportamiento reciente del modelo con los algoritmos de redes sociales que, en busca de la participación, optimizan para la adicción y la validación sobre precisión y salud.

Shear subrayó este riesgo en su comentario, señalando que los modelos de IA sintonizados para elogios se convierten en “chupas”, incapaces de estar en desacuerdo incluso cuando el usuario se beneficiaría desde una perspectiva más honesta.

Advirtió además que este problema no es exclusivo de OpenAI, señalando que la misma dinámica se aplica a otros grandes proveedores de modelos, incluido el copiloto de Microsoft.

Implicaciones para la empresa

Para los líderes empresariales que adoptan la IA conversacional, el incidente de la sycophancy sirve como una señal clara: el comportamiento del modelo es tan crítico como la precisión del modelo.

Un chatbot que halagará a los empleados o valida el razonamiento defectuoso puede plantear riesgos graves, desde malas decisiones comerciales y código desalineado hasta problemas de cumplimiento y amenazas internas.

Los analistas de la industria ahora aconsejan a las empresas que exigan más transparencia de los proveedores sobre cómo se realiza la sintonización de la personalidad, con qué frecuencia cambia y si se puede revertir o controlar a nivel granular.

Los contratos de adquisición deben incluir disposiciones para auditoría, pruebas de comportamiento y control en tiempo real de las indicaciones del sistema. Se alienta a los científicos de datos a monitorear no solo las tasas de latencia y alucinación, sino también métricas como la “deriva de la amabilidad”.

Muchas organizaciones también pueden comenzar a moverse hacia alternativas de código abierto que puedan alojar y sintonizar. Al poseer los pesos del modelo y el proceso de aprendizaje de refuerzo, las empresas pueden retener el control total sobre cómo se comportan sus sistemas de IA, lo que elimina el riesgo de una actualización empujada por el proveedor que convierte una herramienta crítica en un hombre digital y sí durante la noche.

¿A dónde va la alineación de la IA desde aquí? ¿Qué pueden aprender y actuar las empresas de este incidente?

Operai dice que sigue comprometido con la construcción de sistemas de IA que sean útiles, respetuosos y alineados con diversos valores de usuarios, pero reconoce que una personalidad única no puede satisfacer las necesidades de 500 millones de usuarios semanales.

La compañía espera que mayores opciones de personalización y una mayor recopilación de comentarios democráticos ayuden a adaptar el comportamiento de ChatGPT de manera más efectiva en el futuro. El CEO Sam Altman también ha declarado previamente los planes de la compañía para, en las próximas semanas y meses, lanzar un modelo de lenguaje grande de código abierto (LLM) de última generación para competir con la serie Llama de Meta’s Meta’s Llama, Mistral, Cohere, Cohere, Deepseek y Alibaba’s Qwen.

Esto también permitiría a los usuarios preocupados por una compañía de proveedores de modelos, como OpenAI, actualizar sus modelos alojados en la nube de manera no deseada o que tengan impactos perjudiciales en los usuarios finales para desplegar sus propias variantes del modelo localmente o en su infraestructura en la nube, y ajustarlas o preservarlas con los rasgos y cualidades deseadas, especialmente para los casos de uso empresarial.

Del mismo modo, para aquellos usuarios de IA empresariales e individuales preocupados por la senofancia de sus modelos, ya ha creado una nueva prueba de referencia para medir esta calidad en diferentes modelos, Tim Duffy ha creado el desarrollador. Se llama “Syco Bench” y está disponible aquí.

Mientras tanto, la reacción violenta de la sileno ofrece una historia de advertencia para toda la industria de la IA: el fideicomiso del usuario no está construido solo por afirmación. A veces, la respuesta más útil es un “no” reflexivo.

Continue Reading

Trending