Connect with us

Noticias

Hot Trend Of Accessing Generative AI Via Simple Phone Call Gets Huge Uplift Via OpenAI’s New 1-800-ChatGPT

Published

on

In today’s column, I discuss the hot trend of being able to access generative AI and large language models (LLMs) via a simple phone call. No smartphone is required — just use any mobile phone or even old-fashioned landline, and you immediately have unfettered voice access to a full-on generative AI capability.

Nice.

This trend has notably been given a huge boost due to OpenAI announcing their newly available 1-800-CHATGPT (1-800-242-8478). Yes, OpenAI ChatGPT, the 600-pound gorilla or elephant in the room, has grandly made phone usage of generative AI a widespread phenomenon that is going to spur other AI makers to do likewise. This is decidedly an earth-shattering upping of the ante in the fiercely contested AI one-upmanship taking place.

In the case of ChatGPT access, you are limited to up to 15 minutes of free phone-based usage per month. No registration is required. The AI simply notes the phone number that you are calling from to keep track of your allowed usage (must be a U.S.-based line for now). If you happen to have more than one phone, voila, you can essentially get more time per month by using up the 15 minutes permitted per separate phone line. For those outside the U.S. or who otherwise don’t want to make a phone call per se, OpenAI has also established a text-message-based approach to the same catchy phone number via the use of WhatsApp.

Before you get started partying, it turns out that there is more to being astute and safe about using generative AI over the phone than perhaps meets the eye. There are certainly celebratory upsides, but lots of disconcerting downsides too.

Let’s talk about it.

This analysis of an innovative AI breakthrough is part of my ongoing Forbes column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here). For my coverage of the top-of-the-line ChatGPT o1 model and its advanced functionality, see the link here and the link here.

How AI Works Via Phone Is Straightforward

Before we dive into the pluses and minuses, let’s make sure we are all on the same page about how accessing generative AI via a regular phone takes place.

The fundamentals are straightforward.

I’m assuming that you might have already used a generative AI capability via the web or possibly downloaded an app for use on your smartphone. If so, you know that once you have reached the generative AI, perhaps having to log in first, you then enter a prompt. Based on the prompt, the generative AI generates a response. All of this is typically done on a text-to-text basis, whereby you enter text as your prompt and get a text-based response from the AI.

You normally proceed with a back-and-forth of you entering a prompt and the AI provides a response. This happens on a turn-by-turn basis. Modern-day generative AI is amazingly fluent-like. You can easy-peasy carry on a compelling written conversation with the AI.

Voice Enters Into The Generative AI Realm

Some generative AI now allows a voice-to-text feature. This involves you speaking to the AI and your spoken words are converted into text. The text then gets fed into the AI. All else is roughly the same thereafter. In addition, some generative AI currently allows for a text-to-voice feature. That involves the AI producing text as a response, but rather than showing you the text, the system reads aloud the text to you.

Here’s the deal with regular phone-based access to generative AI.

You dial a phone number that automatically connects you to the designated generative AI.

The AI starts the conversation by doing a text-to-voice telling you a standardized opening. For example, when calling ChatGPT you generally get this introductory salutation:

  • “Hi, I’m ChatGPT, an AI assistant. Our conversation may be reviewed for safety. By continuing this call, you agree to OpenAI’s terms and privacy policy. So, how can I help you?”

On any subsequent calls that you make to the ChatGPT phone line, the AI will detect that you previously called and will therefore start the opening by saying “Hello, again” and follow with the rest of the standard opening.

You then carry on a conversation with the AI, entirely via voice. Your voice utterances are converted into text, the AI processes the text as normally would be the case, and the AI generates a text response that is then said to you via a text-to-voice function.

Voila, this process continues until either you hang up or your time limit is reached.

Things That Can Go Wrong Right Away

In the real world, not everything is wine and roses.

Let’s see how that applies to generative AI being accessed via a regular phone.

First, some people are undoubtedly going to misdial and reach some number other than the designated one. Oopsie. The problem too is that this might occur on a massive scale. Currently, there are 300 million weekly active users of ChatGPT. How many of those users will opt to access ChatGPT via regular phone? In addition, how many new users who haven’t used ChatGPT will be attracted to using phone-based access?

We don’t know what the volume is going to be, but the odds are that it could be a rather large number. The point is that even if some small percentage misdials, there could be a slew of people calling other numbers inadvertently. On a tremendously beguiling scale. This could be an exasperating mess.

Second, and I deplore saying so, there is a distinct possibility that some evildoers will try to grab-up other phone numbers that are specifically similar to the designated phone number. Here’s their scam. They hope that people will misdial to their dastardly number. They then try to sell the person on swamp land or some other rip-off. People will be perhaps confused and assume that they have reached the correct number, a reputable number. Baddies will deceptively take advantage of them by asking for credit card numbers, social security numbers, and the like.

Sad face.

More Voice Issues To Be Thinking About

The next thing to consider is whether you are able to be adequately heard by the generative AI.

Imagine this. You tell the AI to find all the stores that are near the city named Pinole. Though voice-to-text translation is pretty good these days, there is a solid chance that your utterance will be misheard. The AI responds by telling you about the stores that are near the city named Binhole, a completely different city.

You and the AI go back and forth trying to iron this out. Meanwhile, your allotted time, let’s say 15 minutes, is rapidly dwindling. You decide this is fruitless and in anger vow to never call the number again.

Even if your commentary is readily interpretable, including an accent, there is the issue of potential background noise. Suppose you are standing on the streets of New York City and trying to get the generative AI to tell you which museum has your favorite painting. The background noise could be marring your perfect pronunciation.

Rinse and repeat.

Another frustration will be dropped lines. If you are in a rideshare car and the driver doesn’t speak your language, you might be tempted to call the generative AI and ask it to convert your destination instructions into that other language. You make the connection to the AI, which maybe can’t connect at first or at all due to a bad reception — and then start a conversation. Midway through, the line drops.

All in all, there might be a lot of angst involved.

Considerations Of A Private Nature

I’ve previously covered that many of the generative AI apps stipulate in their licensing agreements that whatever text you enter is fully accessible to the AI maker, see my analysis at the link here. The issue is this. Your text-based prompts under those stipulations can be examined by the AI researchers and AI developers of the AI maker. They can also reuse your entered data to further data train the AI. Bottom-line is that you are potentially getting yourself into a privacy intrusion and undercut any semblance of confidentiality.

Most users don’t know of this.

What about phone-based access to generative AI?

It is conceivable that an AI maker will decide to employ the same licensing requirements.

Realize that your utterances are being converted into text and that the transcribed text will be stored and made available to the AI maker. Keep this in mind. You’ll need to decide what kind of remarks or commentary you are willing to say to the generative AI phone-based capability. Also, it would be wise to find out beforehand what licensing stipulations the AI maker has established for their phone-based generative AI.

An added twist occurs with the voice aspects in the context of phone-based interaction.

When you enter text into a conventional generative AI online, the only communication being conveyed is the text. Period, end of story. In contrast, when you speak via phone, your voice is being captured too.

Your actual voice.

So what?

If the licensing allows the AI maker to exploit your voice, they could potentially use it to make a synthetic voice that sounds like you. Or, if not going quite that far, they might use your voice recording to further train the AI on how to interpret voice utterances. The gist is that your voice is possibly going to be used in ways that you might not have thought would occur.

Be wary and on your toes.

Making The Connection Of You To You

I’m guessing that some might be thinking that since you don’t need to register to use the generative AI for its phone-based functionality, you are essentially acting anonymously. Ergo, it doesn’t matter what you say, nor whether they record you or not. They just have some random person’s data that they have collected.

You can go on your merry way.

Well, maybe yes, maybe not.

The usual method of tracking you is going to be via the phone number you are using to make the call. That is something you are freely giving up. They could presumably try to pair the phone number with other databases. Doing so might enable the AI maker to figure out your name, address, age, and a wide variety of personal data.

The twofer is they can match what you’ve said to who you are.

Envision that you have called the AI several times to ask questions about sailboats. The next thing you know, the AI maker behind the scenes sells your name and phone number to a company that makes and sells sailboats. Of course, they can do this with just the phone number alone, not necessarily having to go through the trouble of matching your phone number to who you are. They simply sell your phone number and the fact that you have made inquiries about sailboats, the rest is up to the buyer for that information.

An interesting angle is that if an AI maker goes that route, they are likely to be embroiled in numerous federal, state, and local laws on such matters. The FTC is already pursuing various companies for AI-based scams, see my coverage at the link here. It would seem doubtful that the major generative AI vendors would go down that bumpy path. Presumably, hopefully, not.

The other issue is that once the use of generative AI via phone becomes a common practice, fly-by-nights could set up similar arrangements. Call this or that 800 number and get a full hour with interactive AI. Call now. Don’t wait.

How can they afford to do this?

They lean into the data in the manner I’ve described above.

Multimodal Is Not Likely Included For Now

A typical phone-based approach is going to assume that the user has a voice-only phone.

Thus, the AI cannot ask the user to take a picture of something. Without having a visual clue of what the user is discussing, the generative AI might have a limited ability to provide on-target responses.

For example, I am walking through a beautiful outdoor park and happen to notice a plant that looks potentially dangerous. I want to quickly find out if the plant is harmful. With smartphones, you can usually load an app or make an online connection that allows you to activate the camera on your phone. If the camera isn’t activated for the app, you can typically take a photo and send the picture to the app.

In the case of a typical phone-based generative AI, you have to be good enough at describing things to do what you need to do. For the plant, I might tell the AI that it is green in color, has leaves that are three-pronged, and appears to grow near the base of trees. Is that sufficient for the AI to figure out what plant it is? Probably a stretch.

The other side of this same coin is that the generative AI cannot display to the user a result in any pictorial way. Nor can the AI give the result in a text format. Why would someone want their result in text versus machine-produced voice? It could be that the person can’t adequately hear the AI, or maybe they hear it but want to write down what the AI has said. Having a text option would be handy, but again we are assuming that the user is calling on a conventional phone that lacks a multi-modal capacity.

Gradually, you can bet that most of the phone-based generative AI offerings will readily switch to multi-modal mode if a user is calling from a suitably equipped smartphone. The moment you make the connection to the AI, it will detect what your device is and what it can do. From then on, the AI will inform you of the ways to provide input and the means of producing outputs to the device that you are using.

We Live In Exciting Times

Gosh, some of you might be thinking, this discussion is all doom and gloom.

Isn’t there anything upbeat to say about this emerging means of using generative AI?

Yes, absolutely, there is lots to say.

The very exciting prospect is that people who have not yet experienced generative AI due to lack of an Internet connection or not having Wi-Fi will now be able to readily use generative AI. There might be millions upon millions of people who either can’t afford the equipment for such access or don’t live in a place where access is feasible.

The reach of a regular phone call is an incredible expansion of possibilities. I dare say that making phone calls is a lot simpler, easier, and readily possible. You don’t need to download anything to use the AI. You can use the AI pretty much anywhere and at any time, assuming you have access to a phone.

Some would assert that this is a vital step in the democratization of AI (read about the essentials at the link here). That’s a catchphrase that says we don’t want to end up in a situation of those that have AI and those that don’t have AI. The have-nots are presumably going to be at a disadvantage to the haves. Phone access ought to go a long way toward leveling the playing field concerning the access constraint.

All in all, you’ve got the widespread ubiquity of phones, the ease of using a regular phone, the relatively low cost of the phone and hopefully low cost for usage, and access to generative AI that only requires being able to speak. No typing skills are needed. No dealing with logins. Etc.

Just call and start using generative AI.

Boom, drop the mic.

Keep Our Wits About Us At All Times

I hope that the last bit of rah-rah gives you a sense of how important this new trend is.

And though I certainly don’t want to spoil the party, I ask that we all keep our heads and realize that in some sense we are also opening a Pandora’s box. How so? As I’ve repeatedly stated, people are using generative AI for all kinds of purposes, including mental health guidance. They simply access generative AI and start asking for therapy that would be seemingly akin to meeting with a human therapist, and most of the AI apps readily comply, see my analysis at the link here.

The good news is that phone-based access to generative AI implies that a bunch more people can now use AI for their mental health assistance. The bad news is roughly the same, namely, we are amid a massive scale experiment of people using everyday generative AI to give them mental health guidance. What if the AI isn’t doing this prudently? What if people avoid seeking human therapists since they assume AI is all they need?

The population-level consequences are potentially staggering and we upping the ante via phone-based generative AI access, see my predictions on what might arise at a population-level, at the link here.

A final contemplative thought for now.

In 1876, Alexander Graham Bell purportedly transmitted the first-ever recognizable speech message to his assistant Thomas A. Watson by saying, “Mr. Watson come here, I want you.” A stellar moment in history. Something never to be forgotten.

You might one day want to tell your kids that you were one of the first to use a phone-based generative AI. Something you’ll never forget. Think about your options, decide what seems appropriate to your needs and concerns, and make that call.

Get going and remember the date that you did so.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending