A hidden flaw or inconvenience in OpenAI o1 got recently aired and though fixed it raises … [+] significant considerations about present-day and future AI.
getty
In today’s column, I examine a hidden flaw in OpenAI’s advanced o1 AI model that Sam Altman revealed during the recent “12 Days Of OpenAI” video-streamed ChatGPT Pro announcement. His acknowledgment of the flaw was not especially noted in the media since he covered it quite nonchalantly in a subtle hand-waving fashion and claimed too that it was now fixed. Whether the flaw or some contend “inconvenience” was even worthy of consideration is another intriguing facet that gives pause for thought about the current state of AI and how far or close we are to the attainment of artificial general intelligence (AGI).
Let’s talk about it.
This analysis of an innovative proposition is part of my ongoing Forbes column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here). For my analysis of the key features and vital advancements in the OpenAI o1 AI model, see the link here and the link here, covering various aspects such as chain-of-thought reasoning, reinforcement learning, and the like.
How Humans Respond To Fellow Humans
Before I delve into the meat and potatoes of the matter, a brief foundational-setting treatise might be in order.
When you converse with a fellow human, you normally expect them to timely respond as based on the nature of the conversation. For example, if you say “hello” to someone, the odds are that you expect them to respond rather quickly with a dutiful reply such as hello, hey, howdy, etc. There shouldn’t be much of a delay in such a perfunctory response. It’s a no-brainer, as they say.
On the other hand, if you ask someone to explain the meaning of life, the odds are that any seriously studious response will start after the person has ostensibly put their thoughts into order. They would presumably give in-depth consideration to the nature of human existence, including our place in the universe, and otherwise assemble a well-thought-out answer. This assumes that the question was asked in all seriousness and that the respondent is aiming to reply in all seriousness.
The gist is that the time to respond will tend to depend on the proffered remark or question.
A presented simple comment or remark involving no weighty question or arduous heaviness ought to get a fast response. The responding person doesn’t need to engage in much mental exertion in such instances. You get a near-immediate response. If the presented utterance has more substance to it, we will reasonably allow time for the other person to undertake a judicious reflective moment. A delay in responding is perfectly fine and fully expected in that case.
That is the usual cadence of human-to-human discourse.
Off-Cadence Timing Of Advanced o1 AI
For those that had perchance made use of the OpenAI o1 AI advanced model, you might have noticed something that was outside of the cadence that I just mentioned. The human-to-AI cadence bordered on being curious and possibly annoying.
The deal was this.
You were suitably forewarned when using o1 that to get the more in-depth answers there would be more extended time after entering a prompt and before getting a response from the AI. Wait time went up. This has to do with the internally added capabilities of advanced AI functionality including chain-of-thought reasoning, reinforcement learning, and so on, see my explanation at the link here. The response latency time had significantly increased.
Whereas in earlier and less advanced generative AI and LLMs we had all gotten used to near instantaneous responses, by and large, there was a willingness to wait longer to get more deeply mined responses via advanced o1 AI. That seems like a fair tradeoff. People will wait longer if they can get better answers. They won’t wait longer if the answers aren’t going to be better than when the response time was quicker.
You can think of this speed-of-response as akin to playing chess. The opening move of a chess game is usually like a flash. Each side quickly makes their initial move and countermove. Later in the game, the time to respond is bound to slow down as each player puts concentrated thoughts into the matter. Just about everyone experiences that expected cadence when playing chess.
What was o1 doing in terms of cadence?
Aha, you might have noticed that when you gave o1 a simple prompt, including even merely saying hello, the AI took about as much time to respond as when answering an extremely complex question. In other words, the response time was roughly the same for the simplest of prompts and the most complicated and deep-diving fully answered responses.
It was a puzzling phenomenon and didn’t conform to any reasonable human-to-AI experience expected cadence.
In coarser language, that dog don’t hunt.
Examples Of What This Cadence Was Like
As an illustrative scenario, consider two prompts, one that ought to be quickly responded to and the other that fairly we would allow more time to see a reply.
First, a simple prompt that ought to lead to a simple and quick response.
My entered prompt: “Hi.”
Generative AI response: “Hello, how can I help you?”
The time between the prompt and the response was about 10 seconds.
Next, I’ll try a beefy prompt.
My entered prompt: “Tell me how all of existence first began, covering all known theories.”
Generative AI response: “Here is a summary of all available theories on the topic…”
The time for the AI to generate a response to that beefier question was about 12 seconds.
I think we can agree that the first and extremely simple prompt should have had a response time of just a few seconds at most. The response time shouldn’t be nearly the same as when responding to the question about all of human existence. Yet, it was.
Something is clearly amiss.
But you probably wouldn’t have complained since the aspect that you could get in-depth answers was worth the irritating and eyebrow-raising length of wait time for the simpler prompts. I dare say most users just shrugged their shoulders and figured it was somehow supposed to work that way.
Sam Altman Mentioned That This Has Been Fixed
During the ChatGPT Pro announcement, Sam Altman brought up the somewhat sticky matter and noted that the issue had been fixed. Thus, you presumably should henceforth expect a fast response time to simple prompts. And, as already reasonably expected, only prompts requiring greater intensity of computational effort ought to take up longer response times.
That’s how the world is supposed to work. The universe has been placed back into proper balance. Hooray, yet another problem solved.
Few seemed to catch onto his offhand commentary on the topic. Media coverage pretty much skipped past that portion and went straight to the more exciting pronouncements. The whole thing about the response times was likely perceived as a non-issue and not worthy of talking about.
Well, for reasons I’m about to unpack, I think it is worthy to ruminate on.
Turns out there is a lot more to this than perhaps meets the eye. It is a veritable gold mine of intertwining considerations about the nature of contemporary AI and the future of AI. That being said, I certainly don’t want to make a mountain out of a molehill, but nor should we let this opportune moment pass without closely inspecting the gold nuggets that were fortuitously revealed.
Go down the rabbit hole with me, if you please.
Possible Ways In Which This Happened
Let’s take a moment to examine various ways in which the off-balance cadence in the human-to-AI interaction might have arisen. OpenAI considers their AI to be proprietary and they don’t reveal the innermost secrets, ergo I’ll have to put on my AI-analysis detective hat and do some outside-the-box sleuthing.
First, the easiest way to explain things is that an AI maker might decide to hold back all responses until some timer says to release the response.
Why do this?
A rationalization is that the AI maker wants all responses to come out roughly on the same cadence. For example, even if a response has been computationally determined in say 2 seconds, the AI is instructed to keep the response at bay until the time reaches say 10 seconds.
I think you can see how this works out to a seemingly even cadence. A tough-to-answer query might require 12 entire seconds. The response wasn’t ready until after the timer was done. That’s fine. At that juncture, you show the user the response. Only when a response takes less than the time limit will the AI hold back the response.
In the end, the user would get used to seeing all responses arising at above 10 seconds and fall into a mental haze that no matter what happens, they will need to wait at least that long to see a response. Boom, the user is essentially being behaviorally trained to accept that responses will take that threshold of time. They don’t know they are being trained. Nothing tips them to this ruse.
Best of all, from the AI maker’s perspective, no one will get upset about timing since nothing ever happens sooner than the hidden limit anyway. Elegant and the users are never cognizant of the under-the-hood trickery.
The Gig Won’t Last And Questions Will Be Asked
The danger for the AI maker comes to the fore when software sophisticates start to question the delays. Any proficient software developer or AI specialist would right away be suspicious that the simplest of entries is causing lengthy latency. It’s not a good look. Insiders begin to ask what’s up with that.
If a fake time limit is being used, that’s often frowned upon by insiders who would shame those developers undertaking such an unseemly route. There isn’t anything wrong per se. It is more of a considered low-brow or discreditable act. Just not part of the virtuous coding sense of ethos.
I am going to cross out that culprit and move toward a presumably more likely suspect.
It goes like this.
I refer to this other possibility as the gauntlet walk.
A brief tale will suffice as illumination. Imagine that you went to the DMV to get up-to-date license tags for your car. In theory, if all the paperwork is already done, all you need to do is show your ID and they will hand you the tags. Some modernized DMVs have an automated kiosk in the lobby that dispenses tags so that you can just scan your ID and viola, you instantly get your tags and walk right out the door. Happy face.
Sadly, some DMVs are not yet modernized. They treat all requests the same and make you wait as though you were there to have surgery done. You check in at one window. They tell you to wait over there. Your name is called, and you go to a pre-processing window. The agent then tells you to wait in a different spot until your name is once again called. At the next processing window, they do some of the paperwork but not all of it. On and on this goes.
The upshot is that no matter what your request consists of you are by-gosh going to walk the full gauntlet. Tough luck to you. Live with it.
A generative AI app or large language model (LLM) could be devised similarly. No matter what the prompt contains, an entire gauntlet of steps is going to occur. Everything must endure all the steps. Period, end of story.
In that case, you would typically have responses arriving outbound at roughly the same time. This could vary somewhat because the internal machinery such as the chain of thought mechanism is going to pass through the tokens without having to do nearly the same amount of computational work, see my explanation at the link here. Nonetheless, time is consumed even when the content is being merely shunted along.
That could account for the simplest of prompts taking much longer than we expect them to take.
How It Happens Is A Worthy Question
Your immediate thought might be why in the heck would a generative AI app or LLM be devised to treat all prompts as though they must walk the full gauntlet. This doesn’t seem to pass the smell test. It would seem obvious that a fast path like at Disneyland should be available for prompts that don’t need the whole kit-and-kaboodle.
Well, I suppose you could say the same about the DMV. Here’s what I mean. Most DMVs were probably set up without much concern toward allowing multiple paths. The overall design takes a lot more contemplation and building time to provide sensibly shaped forked paths. If you are in a rush to get a DMV underway, you come up with a single path that covers all the bases. Therefore, everyone is covered. Making everyone wait the same is okay because at least you know that nothing will get lost along the way.
Sure, people coming in the door who have trivial or simple requests will need to wait as long as those with the most complicated of requests, but that’s not something you need to worry about upfront. Later, if people start carping about the lack of speediness, okay, you then try to rejigger the process to allow for multiple paths.
The same might be said for when trying to get advanced AI out the door. You are likely more interested in making sure that the byzantine and innovative advanced capabilities work properly, versus whether some prompts ought to get the greased skids.
A twist to that is the idea that you are probably more worried about maximum latencies than you would be about minimums. This stands to reason. Your effort to optimize is going to focus on trying to keep the AI from running endlessly to generate a response. People will only wait so long to get a response, even for highly complex prompts. Put your elbow grease toward the upper bounds versus the lower bounds.
The Tough Call On Categorizing Prompts
An equally tough consideration is exactly how you determine which prompts are suitably deserving of quick responses.
Well, maybe you just count the number of words in the prompt.
A prompt with just one word would seem unlikely to be worthy of the full gauntlet. Let it pass through or maybe skip some steps. This though doesn’t quite bear out. A prompt with a handful of words might be easy-peasy, while another prompt with the same number of words might be a doozy. Keep in mind that prompts consist of everyday natural language, which is semantically ambiguous, and you can open a can of worms with just a scant number of words.
This is not like sorting apples or widgets.
All in all, a prudent categorization in this context cannot do something blindly such as purely relying on the number of words. The meaning of the prompt comes into the big picture. A five-word prompt that requires little computational analysis is likely only discerned as a small chore by determining what the prompt is all about.
Note that this means you indubitably have to do some amount of initial processing to gauge what the prompt constitutes. Once you’ve got that first blush done, you can have the AI flow the prompt through the other elements with a kind of flag that indicates this is a fly-by-night request, i.e., work on it quickly and move it along.
You could also establish a separate line of machinery for the short ones, but that’s probably more costly and not something you can concoct overnight. DMVs often kept the same arrangement inside the customer-facing processing center and merely adjusted by allowing the skipping of windows. Eventually, newer avenues were developed such as the use of automated kiosks.
Time will tell in the case of AI.
There is a wide variety of highly technical techniques underlying prompt-assessment and routing issues, which I will be covering in detail in later postings so keep your eyes peeled. Some of the techniques are:
(1) Prompt classification and routing
(2) Multi-tier model architecture
(3) Dynamic attention mechanisms
(4) Adaptive token processing
(5) Caching and pre-built responses
(6) Heuristic cutoffs for contextual expansion
(7) Model layer pruning on demand
I realize that seems relatively arcane. Admittedly, it’s one of those inside baseball topics that only heads-down AI researchers and developers are likely to care about. It is a decidedly niche aspect of generative AI and LLMs. In the same breath, we can likely agree that it is an important arena since people aren’t likely to use models that make them wait for simple prompts.
AI makers that seek widespread adoption of their AI wares need to give due consideration to the gauntlet walk problem.
Put On Your Thinking Cap And Get To Work
A few final thoughts before finishing up.
The prompt-assessment task is crucial in an additional fashion. The AI could inadvertently arrive at false positives and false negatives. Here’s what that foretells. Suppose the AI assesses that a prompt is simple and opts to therefore avoid full processing, but then the reality is that the answer produced is insufficient and the AI misclassified the prompt.
Oops, a user gets a shallow answer.
They are irked.
The other side of the coin is not pretty either. Suppose the AI assesses that a prompt should get the full treatment, shampoo and conditioner included, but essentially wastes time and computational resources such that the prompt should have been categorized as simple. Oops, the user waited longer than they should have, plus they paid for computational resources they needn’t have consumed.
Awkward.
Overall, prompt-assessment must strive for the Goldilocks principle. Do not be too cold or too hot. Aim to avoid false positives and false negatives. It is a dicey dilemma and well worth a lot more AI research and development.
My final comment is about the implications associated with striving for artificial general intelligence (AGI). AGI is considered the aspirational goal of all those pursuing advances in AI. The belief is that with hard work we can get AI to be on par with human intelligence, see my in-depth analysis of this at the link here.
How do the prompt-assessment issue and the vaunted gauntlet walk relate to AGI?
Get yourself ready for a mind-bending reason.
AGI Ought To Know Better
Efforts to get modern-day AI to respond appropriately such that simple prompts get quick response times while hefty prompts take time to produce are currently being devised by humans. AI researchers and developers go into the code and make changes. They design and redesign the processing gauntlet. And so on.
It seems that any AGI worth its salt would be able to figure this out on its own.
Do you see what I mean?
An AGI would presumably gauge that there is no need to put a lot of computational mulling toward simple prompts. Most humans would do the same. Humans interacting with fellow humans would discern that waiting a long time to respond is going to be perceived as an unusual cadence when in discourse covering simple matters. Humans would undoubtedly self-adjust, assuming they have the mental capacity to do so.
In short, if we are just a stone’s throw away from attaining AGI, why can’t AI figure this out on its own? The lack of AI being able to self-adjust and self-reflect is perhaps a telltale sign. The said-to-be sign is that our current era of AI is not on the precipice of becoming AGI.
Boom, drop the mic.
Get yourself a glass of fine wine and find a quiet place to reflect on that contentious contention. When digging into it, you’ll need to decide if it is a simple prompt or a hard one, and judge how fast you think you can respond to it. Yes, indeed, humans are generally good at that kind of mental gymnastics.
Suscríbase a Freethink en Susmack de forma gratuita
Obtenga nuestras nuevas historias favoritas directamente a su bandeja de entrada todas las semanas
La carne de res de Sam Altman versus Elon Musk ahora es todo menos cortés. En febrero, Musk lanzó una granada de adquisición de $ 97.4 mil millones en Operai, a la que Altman respondió en X con un “No gracias, pero compraremos Twitter por $ 9.74 mil millones si lo desea”.
X no fue comprado, pero Altman está construyendo su competidor.
Operai ha estado dibujando su propio patio de recreo de estilo X durante meses, lo suficiente como para que los expertos ahora hablen sobre el lanzamiento de la nueva red social en términos de cuandono si.
En febrero, después de que Meta anunció planes para construir una aplicación independiente para que su asistente de IA rivalice con la aplicación Chatgpt, Altman volvió a disparar en X: “Está bien, tal vez hagamos una aplicación social”.
Luego se filtró el 15 de abril de que un prototipo interno de Operai que combina un feed social con las capacidades de generación de imágenes de Chatgpt estaba en revisión. Más fuentes fueron tan lejos como para confirmar que, más allá de este prototipo, Operai ahora estaba “considerando” un rival completo de X.
Esta red social empuja las tierras en un momento crucial cuando los modelos de IA se están volviendo comerciales, el monopolio de las redes sociales de Meta muestra signos de vulnerabilidad, y la integración de hardware está surgiendo como un diferenciador clave.
Al combinar tres elementos, una plataforma social construida de forma nativa para la IA, el diseñador tecnológico de clase mundial Jony Ive y los dispositivos complementarios especialmente diseñados, OpenAi se está posicionando en la intersección de las tres tendencias poderosas.
Si la compañía logra este juego de redes sociales con éxito, atrapará a otros gigantes tecnológicos de pie plano, tanto que estoy convencido de que estamos presenciando las primeras salvas de una revolución de las redes sociales en toda regla.
AI-First Social Media
En lugar de simplemente conectar a los usuarios para compartir contenido, el prototipo de red social de OpenAI aparece diseñado para aprovechar la IA para mejorar el proceso de creación de contenido en sí. En lugar de “compartir y luego desplazarse”, la IA salta en el minuto uno para ayudar hacer el post.
Esto es similar a la integración de Grok de X: si lo ha usado, notará rápidamente que a la gente le encanta que la IA diga algo estúpido para que puedan compartir la salida y ver que su publicación se vuelve viral.
El equivalente aquí para OpenAI es aprovechar sus capacidades de generación de imágenes favoritas de los fanáticos en un entorno social. En la primera semana de la disponibilidad de la herramienta, más de 130 millones de usuarios de ChatGPT crearon más de 700 millones de imágenes. Esta adopción masiva indica un interés significativo de los usuarios en compartir contenido visual generado por IA, de la misma manera que las personas ya comparten contenido escrito generado por IA en X.
Sin embargo, lejos de ser otro clon X, la red social de OpenAi se perfila como algo completamente nuevo. Esto es lo que he reconstruido hasta ahora:
La creación de contenido asistida por AI-AI-AI-Capacidades de generación de imágenes de Chatgpt
Un feed social para compartir e interactuar con contenido generado por IA
Integración con las capacidades de IA existentes de OpenAI y potencialmente su base de usuarios
Guardacas de seguridad similares a las utilizadas en la generación de imágenes de Chatgpt
También es probable que haya un componente de hardware para la red.
El 21 de mayo, Openai anunció su adquisición de IO, una compañía de hardware fundada por el ex jefe de diseño de Apple, Jony Ive. El acuerdo, valorado en casi $ 6.5 mil millones en una transacción de todo el stock, lleva aproximadamente 55 ingenieros de hardware, desarrolladores de software y expertos en fabricación al redil OpenAI.
Los primeros dispositivos después de la adquisición se lanzarán en 2026, pero no serán reemplazos de teléfonos inteligentes. Se mencionaron algunos detalles sobre la tecnología, incluido que será de bolsillo, contextualmente consciente, sin pantalla y no un par de gafas inteligentes, en una llamada interna de OpenAI.
La conexión entre esta iniciativa de hardware y las ambiciones de redes sociales de OpenAI es estratégicamente significativa. Estoy convencido de que al desarrollar una plataforma social y dispositivos complementarios, OpenAi se está posicionando para crear un ecosistema totalmente integrado donde las experiencias sociales con IA se optimizan para el hardware especialmente diseñado.
Es el clásico libro de jugadas de Apple, solo esta vez el principio de organización es pura IA.
Además, si bien IVE no se unirá a OpenAi directamente, su firma de diseño, LoveFrom, continuará siendo independiente, la asociación verá Love de “Take Onge para todos los OpenAi, incluido su software”. La experiencia estética y de usuario de la red social de OpenAI, sin duda, se beneficiará de la reconocida sensibilidad de diseño de Ive.
“La IA es una tecnología increíble, pero las grandes herramientas requieren trabajo en la intersección de la tecnología, el diseño y la comprensión de las personas y el mundo”, dijo Altman en un comunicado anunciando la adquisición de IO.
El contramardo de IO de Google
Google es, sin duda, uno de los mayores competidores de Openai en el espacio de IA, y en I/O 2025 (casualmente celebrado el mismo día que OpenAI anunció la adquisición de IO), el gigante de la búsqueda presentó actualizaciones de IA significativas e impresionantes.
Dos grandes fueron la integración de Gemini en Chrome para los usuarios de escritorio y el anuncio del “modo de agente”, una característica experimental donde los usuarios simplemente pueden describir su objetivo final y Gemini puede trabajar de manera autónoma para lograrlo. Esta capacidad refleja el tipo de experiencia asistida por AI-AI que las fuentes dicen que OpenAi se está incorporando a su red social.
Según la publicación oficial de blog de E/S 2025 de Google, Gemini 2.5 Pro es ahora el modelo líder mundial en las tablas de clasificación Webdev Arena y Lmarena, y en base a mi experiencia personal utilizando los modelos de Google con puntos de referencia de rendimiento específicamente en la mente, están liderando en muchos aspectos. La publicación también señala que la aplicación Gemini ahora tiene más de 400 millones de usuarios activos mensuales, una base de usuarios lo suficientemente masiva como para ponerla en competencia directa con ChatGPT.
Sin embargo, si bien estos avances posicionan a Google como una amenaza para el creciente ecosistema de inteligencia artificial de Openii, también sugieren que la estrategia de la compañía es continuar mejorando sus productos existentes con IA en lugar de tratar de competir directamente en el espacio de redes sociales.
Un imperio debilitante
En cuanto al rey de ese espacio, meta, está avanzando con los esfuerzos para defender su territorio contra los avances de OpenAi.
Durante una llamada de ganancias del primer trimestre de 2025 el 30 de abril, el CEO Mark Zuckerberg describió una estrategia integral de IA. “Estamos haciendo un buen progreso en las gafas de IA y la meta ai, que ahora tiene casi mil millones de activos mensuales”, dijo Zuck a los inversores, según la transcripción de la llamada. Este hito pone al asistente de IA de Meta a la par de Géminis de Google en términos de adopción del usuario, y potencialmente antes de ChatGPT.
La familia de modelos de Meta’s Llama 4 ha visto una notable adopción, y Meta dijo en marzo de 2025 que Llama había alcanzado las 1 mil millones de descargas. El día antes de la llamada de ganancias, la compañía lanzó una aplicación Meta AI dedicada construida con Llama 4, llamándola “un primer paso para construir una IA más personal”. Esta aplicación independiente representa un desafío directo a ChatGPT y, por extensión, los planes de redes sociales de OpenAI.
Operai puede posicionarse como una alternativa fresca y nativa de AI a las experiencias sociales existentes de Meta.
Sin embargo, aunque sigue siendo dominante en el espacio de redes sociales, Meta muestra signos de vulnerabilidad.
La compañía parece firme en su creencia de que las experiencias sociales en última instancia abarcarán tanto los asistentes de IA como los mundos virtuales inmersivos, como lo demuestran su continua inversión en los mundos de horizonte. Esta visión de la realidad virtual social pronto puede competir directamente con las iniciativas de hardware y redes de hardware de Openai, pero la inversión aún no ha producido rendimientos significativos: en el primer trimestre de 2025, la División de Laboratorios VR de Meta informó otras pérdidas de $ 4.2 mil millones.
El pivote de Meta a la IA también sugiere una postura defensiva contra las amenazas emergentes, como OpenAi y Anthrope. Esto crea una apertura estratégica para la nueva red social de Openai: puede posicionarse como una alternativa nueva y nativa de AI a las plataformas heredadas de Meta y las experiencias sociales existentes, que se están modificando con capacidades de IA.
Antrópico como el retador
Hablando de antrópico, el día después de la salpicadura de Altman, el paisaje de IA se volvió aún más competitivo con la inauguración de la startup de Claude 4 y la introducción de dos nuevos modelos: Claude Opus 4 y Claude Sonnet 4.
“Claude Opus 4 es el mejor modelo de codificación del mundo, con un rendimiento sostenido en tareas complejas y de larga duración y flujos de trabajo de agentes”, compartió Anthrope en su anuncio de lanzamiento. La compañía respaldó este reclamo con impresionantes puntos de referencia: 72.5% de precisión en el punto de referencia de ingeniería de software y 43.2% en el banco terminal. He revisado los puntos de referencia y ya he usado Claude 4 en mi IDE para tareas de codificación compleja y estoy convencido de que estamos en un punto de inflexión para los modelos de codificación de IA.
Lo que hace que Claude 4 sea particularmente relevante para las ambiciones de las redes sociales de OpenAi es su capacidad mejorada de trabajar continuamente durante varias horas, una capacidad que podría permitir agentes de IA más sofisticados dentro de las plataformas sociales. Según Anthrope, Claude Opus 4 puede mantener el enfoque en las tareas que requieren “miles de pasos”, superando drásticamente los modelos anteriores.
Este lanzamiento de Claude 4 subraya una realidad estratégica crítica para OpenAI: los modelos de IA en sí mismos se están volviendo rápidamente comerciantes.
Con múltiples compañías que ahora ofrecen potentes capacidades de IA de última generación, la tecnología subyacente por sí sola ya no es un diferenciador suficiente. Esta mercantilización hace que el juego de red social de OpenAI sea cada vez más importante como una forma de crear una posición de mercado única y defendible. Controlando ambos modelos de IA y La plataforma social donde los usuarios interactúan con ellos, OpenAi puede crear un valor que va más allá de lo que es posible solo con los modelos.
Las apuestas sociales
Y luego están los datos. Siempre los datos.
Las interacciones de los usuarios en tiempo real son invaluables para capacitar a los futuros modelos de IA: son como el oro digital en un mundo ahora invadido por AI SLOP. Una red social proporciona a su propietario un suministro constante de estos datos, que solo se volverán más valiosos a medida que las capacidades del modelo base converjan entre los competidores.
X y Meta ya están obteniendo estos datos de capacitación únicos en tiempo real de sus redes. Operai lo necesita, y la adquisición de IO de Ive podría agregar un diseño de clase mundial y hardware dedicado a sus ofertas de redes sociales, ayudando a atraer a los usuarios.
A medida que los principales jugadores de inteligencia artificial, OpenAi, Google, Meta y Anthrope, continúan evolucionando sus estrategias y capacidades, las líneas entre asistentes de IA, redes sociales y dispositivos de hardware son cada vez más borrosos. Creo que estamos presenciando no solo mejoras incrementales en la tecnología de IA, sino también la aparición de una categoría completamente nueva de productos y experiencias que podrían remodelar fundamentalmente la forma en que interactuamos con las redes sociales.
Nos guste o no, los ojos de IA ahora están en nuestros feeds.
¡Nos encantaría saber de ti! Si tiene un comentario sobre este artículo o si tiene un consejo para una futura historia de Freethink, envíenos un correo electrónico a tips@freethink.com.
Suscríbase a Freethink en Susmack de forma gratuita
Obtenga nuestras nuevas historias favoritas directamente a su bandeja de entrada todas las semanas
Los chatbots de IA están evolucionando rápidamente con actualizaciones que ocurren constantemente de los nombres más familiares en Big Tech. Una vez más, Deepseek de China se encuentra entre los últimos en unirse a la carrera de primer nivel con un contexto de 128k, lo que significa que puede manejar conversaciones más largas y documentos más complejos.
Con la reciente actualización de su modelo R1, Deepseek se está posicionando como un competidor serio para Chatgpt, Claude y Gemini.
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
El Sora de Openai fue uno de los lanzamientos más exagerados de la era de la IA, que se lanzará en diciembre de 2024, casi 10 meses después de que se previse por primera vez a reacciones asombrosas debido a que, al menos, al menos, un nivel de realismo sin precedentes, dinamismo de la cámara y adherencia rápida y clips de generación larga de 60 segundos.
Sin embargo, gran parte del brillo se ha desgastado como muchos otros generadores de videos de IA, desde startups de EE. UU. Hasta la pista de Luma y los competidores chinos Kling, Hailuo Minimax e Israel’s LTX Studio están ofreciendo modelos generativos de video de IA y aplicaciones para consumidores y usuarios empresariales que rivalizan o ya han superado la oferta de Openi. Además, todavía no hemos obtenido generaciones de 60 segundos de un solo mensaje SORA (que yo sepa, el máximo parece ser de 20 segundos).
Pero ahora Openai y su aliado/inversor/frenemy Microsoft están buscando llevar a Sora a muchos más usuarios, de forma gratuita (al menos durante algunas generaciones). Hoy, Microsoft anunció que Sora ahora se ofrece a través de su función Bing Video Creator en la aplicación móvil gratuita de Bing para iOS (Apple iPhone y App Store) y Android (Google Play Store).
Ese es un valor increíble, dado que para obtenerlo a través de ChatGPT y OpenAI, deberá pagar una suscripción CHATGPT Plus ($ 20 mensual) o Pro ($ 200 mensual).
Bing Video Creator con Sora es el último de una serie de ofertas impulsadas por la IA de Microsoft, después del lanzamiento de Bing Image Creator y Copilot.
Como Microsoft Corporate Vicepresident (CVP) y Jefe de Search Jordi Ribas escribieron en X: “Hace dos años, Bing fue el primer producto en enviar creación de imágenes de forma gratuita para nuestros usuarios. Hoy, estoy emocionado de compartir que Bing Video Creator ahora está disponible en la aplicación Mobile de Bing, en todas partes que Bing Image Creator está disponible. Ven a la vida “.
Para presentar Bing Video Creator, Microsoft ha lanzado un anuncio de video promocional (incrustado arriba) que muestra cómo la herramienta da vida a ideas creativas.
El anuncio demuestra que los usuarios escriben indicaciones como “Crear un colibrí que aletea sus alas en cámara ultra lenta”, “una tortuga que se desplaza lentamente a través de un cañón de coral de neón” y “un pequeño astronauta que explora un planeta de hongos gigantes”. La IA luego genera videoclips cortos y vibrantes basados en estas indicaciones.
El video enfatiza lo fácil que es crear y compartir estos videos, incluido un ejemplo del video de astronauta que se comparte en un chat y recibe reacciones positivas.
Creaciones de video verticales de 5 segundos gratis en dispositivos móviles, con videos horizontales próximamente
Bing Video Creator convierte las indicaciones de texto en videos generados por IA de cinco segundos. Todavía no es compatible con las generaciones de texto a video o video a video (que muchos otros generadores de videos de IA rivales, incluida la implementación de SORA de OpenAI).
Para usar la herramienta, los usuarios pueden abrir la aplicación móvil Bing, toque el menú en la esquina inferior derecha y seleccione “Video Creator”.
Alternativamente, puede iniciar el proceso de creación de video escribiendo una solicitud directamente en la barra de búsqueda de Bing en la aplicación, lo que es lo que es “crear un video de …”
Una vez que se ingresa el mensaje, Bing Video Creator genera un video corto basado en la descripción.
Por ejemplo, un aviso como “En un concurrido restaurante de pizza italiano, una pequeña nutria funciona como chef y usa un sombrero de chef y un delantal. Amasa la masa con sus patas y está rodeado de otros ingredientes de pizza”, resultaría en un video de cinco segundos de cinco segundos atractivo.
Actualmente, los videos están disponibles en 9:16 Formato de retrato, es decir, vertical, perfecto para los pantalones cortos de Tiktok y YouTube, aunque Microsoft lo dice en su publicación de blog de anuncios que una opción de relación de aspecto de 16: 9 también conocida como paisaje u horizontal está “llegando pronto”.
Los usuarios pueden hacer cola hasta tres generaciones de video a la vez, y cada creación se almacena por hasta 90 días. Una vez que un video está listo, se puede descargar, compartir por correo electrónico o redes sociales, o acceder a través de un enlace directo.
Bing Video Creator estará disponible en todo el mundo hoy, excepto China y Rusia. Ahora está disponible en la aplicación móvil de Bing, y también se dice que la búsqueda de escritorio y copilotos se lanzarán “pronto”.
Gratis para usar para 10 generaciones rápidas, generaciones lentas ilimitadas
Bing Video Creator es gratuito para todos los usuarios.
A cada usuario se le permiten diez generaciones de video “rápidas”, que pueden crear videos en segundos.
Después de usarlos, los usuarios pueden continuar con las generaciones de velocidad estándar, lo que lleva minutos, sin costo, o canjea 100 puntos de recompensas de Microsoft por cada creación rápida adicional.
Esos puntos de recompensa provienen del programa gratuito de opción de Microsoft que permite a los usuarios ganar puntos para las actividades cotidianas, como buscar con Bing, comprar en la tienda de Microsoft o jugar con Xbox Game Pass.
Para participar, los usuarios deben iniciar sesión con una cuenta de Microsoft y activar su tablero de recompensas aquí.
Más allá de los divertidos videos y publicaciones en redes sociales, Bing Video Creator se posiciona como una herramienta para mejorar la comunicación cotidiana y la creatividad. El anuncio de Bing alienta a los usuarios a crear videos para celebrar momentos especiales, probar ideas creativas y comunicarse de manera más efectiva.
Para ayudar a los usuarios a obtener los mejores resultados, Bing sugiere proporcionar indicaciones descriptivas, incorporar un lenguaje orientado a la acción y experimentar con tono y estilo, como la estética cinematográfica o juguetona.
AI y seguridad responsables, incorporado
Microsoft dice que Bing Video Creator está diseñado de acuerdo con sus principios de IA responsables, aprovechando los estándares C2PA para las credenciales de contenido para ayudar a identificar contenido generado por AI.
La herramienta también incluye características de moderación que bloquean automáticamente las indicaciones que podrían generar videos dañinos o inseguros.
Implicaciones para empresas y tomadores de decisiones técnicas
Aunque Bing Video Creator se enmarca actualmente como una herramienta centrada en el consumidor, su tecnología y capacidades subyacentes podrían tener implicaciones interesantes para los usuarios empresariales, particularmente aquellos involucrados en la orquestación de IA, la ingeniería de datos y el despliegue del modelo de IA.
Para los ingenieros de IA responsables de implementar y ajustar modelos de idiomas grandes, Bing Video Creator destaca la creciente madurez del video de IA generativo más allá de los modelos basados en texto. Si bien no es un producto empresarial en sí, la tecnología detrás de este podría inspirar nuevas formas de incorporar la generación de videos en los flujos de trabajo comerciales, como crear resúmenes de video automatizados, contenido de capacitación o materiales de marketing.
Para los profesionales que orquestan tuberías de IA escalables, Bing Video Creator muestra una aplicación práctica de video generativo que podría influir en cómo las empresas piensan sobre la implementación de estos modelos a escala. La facilidad de uso y la capacidad de respuesta rápida de la herramienta sugieren posibles aplicaciones futuras dentro de los flujos de trabajo empresariales, ya sea para capacitación interna, ideación creativa o participación del cliente.
Los ingenieros de datos pueden ver la simplicidad y la compartimiento del creador de video de Bing como una demostración de cómo la IA puede hacer que las ideas complejas basadas en datos sean más accesibles. Si bien estos videos de grado de consumo son breves y enfocados visualmente, se podría adaptar tecnología similar en el futuro para convertir conjuntos de datos complejos o resultados del proyecto en narraciones de video cortas y atractivas que resuenan con audiencias no técnicas.
Bing Video Creator es parte del impulso continuo de Bing para democratizar la creatividad de la IA. Si bien aún no se sabe sobre las características más allá del soporte de video de paisajes, Bing dice que continuará refinando y expandiendo la experiencia a medida que más usuarios comiencen a explorar la generación de videos.
Para aquellos listos para probarlo, Bing invita a los usuarios a descargar la aplicación móvil Bing y comenzar a crear videos hoy.
Para obtener más información sobre Bing Video Creator y cómo comenzar a obtener puntos de recompensas de Microsoft para una creación de video aún más rápida, visite aquí.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.