Noticias
Sam Altman Reveals This Prior Flaw In OpenAI Advanced AI o1 During ChatGPT Pro Announcement But Nobody Seemed To Widely Notice
Published
5 meses agoon

A hidden flaw or inconvenience in OpenAI o1 got recently aired and though fixed it raises … [+] significant considerations about present-day and future AI.
getty
In today’s column, I examine a hidden flaw in OpenAI’s advanced o1 AI model that Sam Altman revealed during the recent “12 Days Of OpenAI” video-streamed ChatGPT Pro announcement. His acknowledgment of the flaw was not especially noted in the media since he covered it quite nonchalantly in a subtle hand-waving fashion and claimed too that it was now fixed. Whether the flaw or some contend “inconvenience” was even worthy of consideration is another intriguing facet that gives pause for thought about the current state of AI and how far or close we are to the attainment of artificial general intelligence (AGI).
Let’s talk about it.
This analysis of an innovative proposition is part of my ongoing Forbes column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here). For my analysis of the key features and vital advancements in the OpenAI o1 AI model, see the link here and the link here, covering various aspects such as chain-of-thought reasoning, reinforcement learning, and the like.
How Humans Respond To Fellow Humans
Before I delve into the meat and potatoes of the matter, a brief foundational-setting treatise might be in order.
When you converse with a fellow human, you normally expect them to timely respond as based on the nature of the conversation. For example, if you say “hello” to someone, the odds are that you expect them to respond rather quickly with a dutiful reply such as hello, hey, howdy, etc. There shouldn’t be much of a delay in such a perfunctory response. It’s a no-brainer, as they say.
On the other hand, if you ask someone to explain the meaning of life, the odds are that any seriously studious response will start after the person has ostensibly put their thoughts into order. They would presumably give in-depth consideration to the nature of human existence, including our place in the universe, and otherwise assemble a well-thought-out answer. This assumes that the question was asked in all seriousness and that the respondent is aiming to reply in all seriousness.
The gist is that the time to respond will tend to depend on the proffered remark or question.
A presented simple comment or remark involving no weighty question or arduous heaviness ought to get a fast response. The responding person doesn’t need to engage in much mental exertion in such instances. You get a near-immediate response. If the presented utterance has more substance to it, we will reasonably allow time for the other person to undertake a judicious reflective moment. A delay in responding is perfectly fine and fully expected in that case.
That is the usual cadence of human-to-human discourse.
Off-Cadence Timing Of Advanced o1 AI
For those that had perchance made use of the OpenAI o1 AI advanced model, you might have noticed something that was outside of the cadence that I just mentioned. The human-to-AI cadence bordered on being curious and possibly annoying.
The deal was this.
You were suitably forewarned when using o1 that to get the more in-depth answers there would be more extended time after entering a prompt and before getting a response from the AI. Wait time went up. This has to do with the internally added capabilities of advanced AI functionality including chain-of-thought reasoning, reinforcement learning, and so on, see my explanation at the link here. The response latency time had significantly increased.
Whereas in earlier and less advanced generative AI and LLMs we had all gotten used to near instantaneous responses, by and large, there was a willingness to wait longer to get more deeply mined responses via advanced o1 AI. That seems like a fair tradeoff. People will wait longer if they can get better answers. They won’t wait longer if the answers aren’t going to be better than when the response time was quicker.
You can think of this speed-of-response as akin to playing chess. The opening move of a chess game is usually like a flash. Each side quickly makes their initial move and countermove. Later in the game, the time to respond is bound to slow down as each player puts concentrated thoughts into the matter. Just about everyone experiences that expected cadence when playing chess.
What was o1 doing in terms of cadence?
Aha, you might have noticed that when you gave o1 a simple prompt, including even merely saying hello, the AI took about as much time to respond as when answering an extremely complex question. In other words, the response time was roughly the same for the simplest of prompts and the most complicated and deep-diving fully answered responses.
It was a puzzling phenomenon and didn’t conform to any reasonable human-to-AI experience expected cadence.
In coarser language, that dog don’t hunt.
Examples Of What This Cadence Was Like
As an illustrative scenario, consider two prompts, one that ought to be quickly responded to and the other that fairly we would allow more time to see a reply.
First, a simple prompt that ought to lead to a simple and quick response.
- My entered prompt: “Hi.”
- Generative AI response: “Hello, how can I help you?”
The time between the prompt and the response was about 10 seconds.
Next, I’ll try a beefy prompt.
- My entered prompt: “Tell me how all of existence first began, covering all known theories.”
- Generative AI response: “Here is a summary of all available theories on the topic…”
The time for the AI to generate a response to that beefier question was about 12 seconds.
I think we can agree that the first and extremely simple prompt should have had a response time of just a few seconds at most. The response time shouldn’t be nearly the same as when responding to the question about all of human existence. Yet, it was.
Something is clearly amiss.
But you probably wouldn’t have complained since the aspect that you could get in-depth answers was worth the irritating and eyebrow-raising length of wait time for the simpler prompts. I dare say most users just shrugged their shoulders and figured it was somehow supposed to work that way.
Sam Altman Mentioned That This Has Been Fixed
During the ChatGPT Pro announcement, Sam Altman brought up the somewhat sticky matter and noted that the issue had been fixed. Thus, you presumably should henceforth expect a fast response time to simple prompts. And, as already reasonably expected, only prompts requiring greater intensity of computational effort ought to take up longer response times.
That’s how the world is supposed to work. The universe has been placed back into proper balance. Hooray, yet another problem solved.
Few seemed to catch onto his offhand commentary on the topic. Media coverage pretty much skipped past that portion and went straight to the more exciting pronouncements. The whole thing about the response times was likely perceived as a non-issue and not worthy of talking about.
Well, for reasons I’m about to unpack, I think it is worthy to ruminate on.
Turns out there is a lot more to this than perhaps meets the eye. It is a veritable gold mine of intertwining considerations about the nature of contemporary AI and the future of AI. That being said, I certainly don’t want to make a mountain out of a molehill, but nor should we let this opportune moment pass without closely inspecting the gold nuggets that were fortuitously revealed.
Go down the rabbit hole with me, if you please.
Possible Ways In Which This Happened
Let’s take a moment to examine various ways in which the off-balance cadence in the human-to-AI interaction might have arisen. OpenAI considers their AI to be proprietary and they don’t reveal the innermost secrets, ergo I’ll have to put on my AI-analysis detective hat and do some outside-the-box sleuthing.
First, the easiest way to explain things is that an AI maker might decide to hold back all responses until some timer says to release the response.
Why do this?
A rationalization is that the AI maker wants all responses to come out roughly on the same cadence. For example, even if a response has been computationally determined in say 2 seconds, the AI is instructed to keep the response at bay until the time reaches say 10 seconds.
I think you can see how this works out to a seemingly even cadence. A tough-to-answer query might require 12 entire seconds. The response wasn’t ready until after the timer was done. That’s fine. At that juncture, you show the user the response. Only when a response takes less than the time limit will the AI hold back the response.
In the end, the user would get used to seeing all responses arising at above 10 seconds and fall into a mental haze that no matter what happens, they will need to wait at least that long to see a response. Boom, the user is essentially being behaviorally trained to accept that responses will take that threshold of time. They don’t know they are being trained. Nothing tips them to this ruse.
Best of all, from the AI maker’s perspective, no one will get upset about timing since nothing ever happens sooner than the hidden limit anyway. Elegant and the users are never cognizant of the under-the-hood trickery.
The Gig Won’t Last And Questions Will Be Asked
The danger for the AI maker comes to the fore when software sophisticates start to question the delays. Any proficient software developer or AI specialist would right away be suspicious that the simplest of entries is causing lengthy latency. It’s not a good look. Insiders begin to ask what’s up with that.
If a fake time limit is being used, that’s often frowned upon by insiders who would shame those developers undertaking such an unseemly route. There isn’t anything wrong per se. It is more of a considered low-brow or discreditable act. Just not part of the virtuous coding sense of ethos.
I am going to cross out that culprit and move toward a presumably more likely suspect.
It goes like this.
I refer to this other possibility as the gauntlet walk.
A brief tale will suffice as illumination. Imagine that you went to the DMV to get up-to-date license tags for your car. In theory, if all the paperwork is already done, all you need to do is show your ID and they will hand you the tags. Some modernized DMVs have an automated kiosk in the lobby that dispenses tags so that you can just scan your ID and viola, you instantly get your tags and walk right out the door. Happy face.
Sadly, some DMVs are not yet modernized. They treat all requests the same and make you wait as though you were there to have surgery done. You check in at one window. They tell you to wait over there. Your name is called, and you go to a pre-processing window. The agent then tells you to wait in a different spot until your name is once again called. At the next processing window, they do some of the paperwork but not all of it. On and on this goes.
The upshot is that no matter what your request consists of you are by-gosh going to walk the full gauntlet. Tough luck to you. Live with it.
A generative AI app or large language model (LLM) could be devised similarly. No matter what the prompt contains, an entire gauntlet of steps is going to occur. Everything must endure all the steps. Period, end of story.
In that case, you would typically have responses arriving outbound at roughly the same time. This could vary somewhat because the internal machinery such as the chain of thought mechanism is going to pass through the tokens without having to do nearly the same amount of computational work, see my explanation at the link here. Nonetheless, time is consumed even when the content is being merely shunted along.
That could account for the simplest of prompts taking much longer than we expect them to take.
How It Happens Is A Worthy Question
Your immediate thought might be why in the heck would a generative AI app or LLM be devised to treat all prompts as though they must walk the full gauntlet. This doesn’t seem to pass the smell test. It would seem obvious that a fast path like at Disneyland should be available for prompts that don’t need the whole kit-and-kaboodle.
Well, I suppose you could say the same about the DMV. Here’s what I mean. Most DMVs were probably set up without much concern toward allowing multiple paths. The overall design takes a lot more contemplation and building time to provide sensibly shaped forked paths. If you are in a rush to get a DMV underway, you come up with a single path that covers all the bases. Therefore, everyone is covered. Making everyone wait the same is okay because at least you know that nothing will get lost along the way.
Sure, people coming in the door who have trivial or simple requests will need to wait as long as those with the most complicated of requests, but that’s not something you need to worry about upfront. Later, if people start carping about the lack of speediness, okay, you then try to rejigger the process to allow for multiple paths.
The same might be said for when trying to get advanced AI out the door. You are likely more interested in making sure that the byzantine and innovative advanced capabilities work properly, versus whether some prompts ought to get the greased skids.
A twist to that is the idea that you are probably more worried about maximum latencies than you would be about minimums. This stands to reason. Your effort to optimize is going to focus on trying to keep the AI from running endlessly to generate a response. People will only wait so long to get a response, even for highly complex prompts. Put your elbow grease toward the upper bounds versus the lower bounds.
The Tough Call On Categorizing Prompts
An equally tough consideration is exactly how you determine which prompts are suitably deserving of quick responses.
Well, maybe you just count the number of words in the prompt.
A prompt with just one word would seem unlikely to be worthy of the full gauntlet. Let it pass through or maybe skip some steps. This though doesn’t quite bear out. A prompt with a handful of words might be easy-peasy, while another prompt with the same number of words might be a doozy. Keep in mind that prompts consist of everyday natural language, which is semantically ambiguous, and you can open a can of worms with just a scant number of words.
This is not like sorting apples or widgets.
All in all, a prudent categorization in this context cannot do something blindly such as purely relying on the number of words. The meaning of the prompt comes into the big picture. A five-word prompt that requires little computational analysis is likely only discerned as a small chore by determining what the prompt is all about.
Note that this means you indubitably have to do some amount of initial processing to gauge what the prompt constitutes. Once you’ve got that first blush done, you can have the AI flow the prompt through the other elements with a kind of flag that indicates this is a fly-by-night request, i.e., work on it quickly and move it along.
You could also establish a separate line of machinery for the short ones, but that’s probably more costly and not something you can concoct overnight. DMVs often kept the same arrangement inside the customer-facing processing center and merely adjusted by allowing the skipping of windows. Eventually, newer avenues were developed such as the use of automated kiosks.
Time will tell in the case of AI.
There is a wide variety of highly technical techniques underlying prompt-assessment and routing issues, which I will be covering in detail in later postings so keep your eyes peeled. Some of the techniques are:
- (1) Prompt classification and routing
- (2) Multi-tier model architecture
- (3) Dynamic attention mechanisms
- (4) Adaptive token processing
- (5) Caching and pre-built responses
- (6) Heuristic cutoffs for contextual expansion
- (7) Model layer pruning on demand
I realize that seems relatively arcane. Admittedly, it’s one of those inside baseball topics that only heads-down AI researchers and developers are likely to care about. It is a decidedly niche aspect of generative AI and LLMs. In the same breath, we can likely agree that it is an important arena since people aren’t likely to use models that make them wait for simple prompts.
AI makers that seek widespread adoption of their AI wares need to give due consideration to the gauntlet walk problem.
Put On Your Thinking Cap And Get To Work
A few final thoughts before finishing up.
The prompt-assessment task is crucial in an additional fashion. The AI could inadvertently arrive at false positives and false negatives. Here’s what that foretells. Suppose the AI assesses that a prompt is simple and opts to therefore avoid full processing, but then the reality is that the answer produced is insufficient and the AI misclassified the prompt.
Oops, a user gets a shallow answer.
They are irked.
The other side of the coin is not pretty either. Suppose the AI assesses that a prompt should get the full treatment, shampoo and conditioner included, but essentially wastes time and computational resources such that the prompt should have been categorized as simple. Oops, the user waited longer than they should have, plus they paid for computational resources they needn’t have consumed.
Awkward.
Overall, prompt-assessment must strive for the Goldilocks principle. Do not be too cold or too hot. Aim to avoid false positives and false negatives. It is a dicey dilemma and well worth a lot more AI research and development.
My final comment is about the implications associated with striving for artificial general intelligence (AGI). AGI is considered the aspirational goal of all those pursuing advances in AI. The belief is that with hard work we can get AI to be on par with human intelligence, see my in-depth analysis of this at the link here.
How do the prompt-assessment issue and the vaunted gauntlet walk relate to AGI?
Get yourself ready for a mind-bending reason.
AGI Ought To Know Better
Efforts to get modern-day AI to respond appropriately such that simple prompts get quick response times while hefty prompts take time to produce are currently being devised by humans. AI researchers and developers go into the code and make changes. They design and redesign the processing gauntlet. And so on.
It seems that any AGI worth its salt would be able to figure this out on its own.
Do you see what I mean?
An AGI would presumably gauge that there is no need to put a lot of computational mulling toward simple prompts. Most humans would do the same. Humans interacting with fellow humans would discern that waiting a long time to respond is going to be perceived as an unusual cadence when in discourse covering simple matters. Humans would undoubtedly self-adjust, assuming they have the mental capacity to do so.
In short, if we are just a stone’s throw away from attaining AGI, why can’t AI figure this out on its own? The lack of AI being able to self-adjust and self-reflect is perhaps a telltale sign. The said-to-be sign is that our current era of AI is not on the precipice of becoming AGI.
Boom, drop the mic.
Get yourself a glass of fine wine and find a quiet place to reflect on that contentious contention. When digging into it, you’ll need to decide if it is a simple prompt or a hard one, and judge how fast you think you can respond to it. Yes, indeed, humans are generally good at that kind of mental gymnastics.
You may like
Noticias
Un marco de descubrimiento de arquitectura neuronal de parámetros múltiples automatizados utilizando chatgpt en el backend
Published
13 minutos agoon
15 mayo, 2025
Chua, M. et al. Abordar la incertidumbre de predicción en el aprendizaje automático para la atención médica. Nat. Biomed. Ing. 7711–718 (2023).
Artículo PubMed Google Scholar
Bhardwaj, R. y Tripathi, I. Un algoritmo de ocultación de datos reversibles mejorados que utiliza una red neuronal profunda para E-Healthcare. J. Amb. Intell. Humaniz. Computación. 1410567–10585 (2023).
Artículo Google Scholar
Nandy, S. et al. Un sistema inteligente de predicción de enfermedades cardíacas basado en la red neuronal artificial enjambre. Computación neuronal. Aplicación 3514723–14737 (2023).
Artículo Google Scholar
Jaafar, N. y Lachiri, Z. Métodos de fusión multimodal con redes neuronales profundas y metainformación para la detección de agresión en vigilancia. Sistema de expertos. Aplicación 211118523 (2023).
Artículo Google Scholar
Mahum, R. et al. Un marco robusto para generar resúmenes de video de vigilancia utilizando la combinación de momentos de Zernike y una transformación R y una red neuronal profunda. Multimed. Herramientas apl. 8213811–13835 (2023).
Artículo Google Scholar
Jan, Z. et al. Inteligencia artificial para la industria 4.0: Revisión sistemática de aplicaciones, desafíos y oportunidades. Sistema de expertos. Aplicación 216119456 (2023).
Artículo Google Scholar
Raja Santhi, A. y Muthuswamy, P. Industry 5.0 o Industry 4.0 s? Introducción a la industria 4.0 y un vistazo a las posibles tecnologías de la industria 5.0. Int. J. Interact. Des. Manuf. (Ijidem) 17947–979 (2023).
Artículo Google Scholar
Shafiq, M. et al. Evaluación continua de control de calidad durante la fabricación utilizando algoritmo de aprendizaje supervisado para la industria 4.0. Int. J. Adv. Manuf. Technol. (2023).
Rajput, DS, Meena, G., Acharya, M. y Mohbey, KK Predicción de fallas utilizando red neuronal de convolución difusa en entorno IoT con fusión de datos de detección heterogénea. Medición Sensación 26100701 (2023).
Artículo Google Scholar
Liyakat, KK S. Enfoque de aprendizaje automático utilizando redes neuronales artificiales para detectar nodos maliciosos en redes IoT. En Conferencia internacional sobre aprendizaje automático, IoT y Big Data 123–134 (Springer, 2023).
Thakkar, A. y Lohiya, R. Clasificación de ataque de datos de intrusión desequilibrados para la red IoT utilizando una red neuronal profunda basada en el aprendizaje. IEEE Internet Things J. 1011888–11895 (2023).
Artículo Google Scholar
Openai, R. GPT-4 Informe técnico. Preprint en ARXIV: 2303.08774. Ver en el artículo213 (2023).
Wang, J. et al. EL-NAS: Eficiente búsqueda de arquitectura de dominio de atención cruzada para la clasificación de imágenes hiperespectrales. Sensación remota. 154688 (2023).
Anuncios de artículos Google Scholar
Yang, T., He, Q. y Huang, L. OM-NAS: Clasificación de imagen de lesión de piel pigmentada basada en una búsqueda de arquitectura neural. Biomed. Optar. Expresar 142153–2165 (2023).
Artículo CAS PubMed PubMed Central Google Scholar
Yang, Y., Wei, J., Yu, Z. y Zhang, R. Un marco de búsqueda de arquitectura neuronal confiable para la clasificación de imágenes de neumonía utilizando tecnología blockchain. J. Supercomput. 801694-1727 (2024).
Hassan, E. et al. Enmascarar modelos R-CNN. Nilo J. Commun. Computación. Sci. 317–27 (2022).
Artículo Google Scholar
Dong, P. et al. RD-NAS: Mejora de la capacidad de clasificación SuperNet de un solo disparo a través de la destilación de clasificación de proxies de costo cero. En ICASSP 2023-2023 Conferencia internacional IEEE sobre acústica, procesamiento de habla y señales (ICASSP) 1–5 (IEEE, 2023).
Wang, J. et al. NAS-DYMC: red neuronal de convolucional múltiple dinámica basada en NAS para la detección de eventos de sonido. En ICASSP 2023-2023 Conferencia internacional IEEE sobre acústica, procesamiento de habla y señales (ICASSP) 1–5 (IEEE, 2023).
Li, J. et al. Graph Neural Network Architecture Busque para el diagnóstico de fallas de maquinaria giratoria basado en el aprendizaje de refuerzo. Mech. Syst. Proceso de señal. 202110701 (2023).
Artículo Google Scholar
Yuan, W., Fu, C., Liu, R. y Fan, X. Ssob: Buscando una arquitectura orientada a la escena para la detección de objetos submarinos. VIS. Computación. 395199–5208 (2023).
Artículo Google Scholar
Jia, X. et al. Detector de objetos rápido y preciso para la conducción autónoma basada en yolov5 mejorado. Sci. Reps. 131–13 (2023).
Anuncios de Google Scholar
Mehta, R., Jurečková, O. y Stamp, M. Un enfoque de procesamiento del lenguaje natural para la clasificación de malware. J. Comput. Virol. Tech de piratería. 20173-184 (2024).
Girdhar, N., Coustaty, M. y Doucet, A. Benchmarking Nas para la separación de artículos en periódicos históricos. En Conferencia internacional sobre bibliotecas digitales asiáticas76–88 (Springer, 2023).
Real, E., Aggarwal, A., Huang, Y. y LE, QV Evolución regularizada para la búsqueda de arquitectura del clasificador de imágenes. En Actas de la Conferencia AAAI sobre inteligencia artificial volumen 33, 4780–4789 (2019).
Liu, C. et al. Búsqueda de arquitectura neuronal progresiva. En Actas de la Conferencia Europea sobre Visión Computadora (ECCV) 19–34 (2018).
Cai, H., Chen, T., Zhang, W., Yu, Y. y Wang, J. Búsqueda de arquitectura eficiente por transformación de red. En Actas de la Conferencia AAAI sobre inteligencia artificialvol. 32 (2018).
Pham, H., Guan, M., Zoph, B., Le, Q. y Dean, J. Búsqueda eficiente de arquitectura neuronal a través de parámetros compartiendo. En Conferencia internacional sobre aprendizaje automático 4095–4104 (PMLR, 2018).
Liu, H., Simonyan, K. y Yang, Y. Darts: búsqueda de arquitectura diferenciable. Preimpresión en ARXIV: 1806.09055 (2018).
Ying, C. et al. NAS-Bench-101: Hacia la búsqueda reproducible de arquitectura neuronal. En Conferencia internacional sobre aprendizaje automático 7105–7114 (PMLR, 2019).
Dong, X. y Yang, Y. Nas Bench-201-201: Extendiendo el alcance de la búsqueda de arquitectura neuronal reproducible. Preprint en ARXIV: 2001.00326 (2020).
Krizhevsky, A. y Hinton, G. Aprender múltiples capas de características de pequeñas imágenes (Tech. Rep, Toronto, ON, Canadá, 2009).
Chrabaszcz, P., Loshchilov, I. y Hutter, F. Una variante a la baja de Imagenet como alternativa a los conjuntos de datos CIFAR. Preprint en ARXIV: 1707.08819 (2017).
Ye, P. et al. \(\beta\)-Darts: regularización de beta para la búsqueda de arquitectura diferenciable. En 2022 Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR) 10864–10873 (IEEE, 2022).
Movahedi, S. et al. \ (\ lambda \) -Darts: mitigar el colapso del rendimiento al armonizar la selección de operaciones entre las células. Preprint en ARXIV: 2210.07998 (2022).
Zheng, M. et al. ¿Puede GPT-4 realizar la búsqueda de arquitectura neural? Preimpresión en ARXIV: 2304.10970 (2023).
Achiam, J. et al. Informe técnico GPT-4. Preimpresión en ARXIV: 2303.08774 (2023).
Wang, H. et al. Búsqueda de arquitectura neuronal gráfica con GPT-4. Preimpresión en ARXIV: 2310.01436 (2023).
Hassan, E., Bhatnagar, R. y Shams, M. Y. Avance de la investigación científica en ciencias de la computación por Chatgpt y Llama-A Review. En Conferencia internacional sobre fabricación inteligente y sostenibilidad energética 23–37 (Springer, 2023).
Helber, P., Bischke, B., Dengel, A. y Borth, D. Eurosat: un nuevo conjunto de datos y un punto de referencia de aprendizaje profundo para el uso de la tierra y la clasificación de la cobertura de la tierra. IEEE J. Sel. Arriba. Aplicación Tierra obs. Sensación remota. 12(7), 2217–2226 (2019).
Anuncios de artículos Google Scholar
Rajaraman, S. et al. Redes neuronales convolucionales previamente entrenadas como extractores de características hacia la detección de parásitos de malaria mejorados en imágenes de frotis de sangre delgada. Peerj 6E4568 (2018).
Artículo PubMed PubMed Central Google Scholar
Maas, A. et al. Vectores de palabras de aprendizaje para el análisis de sentimientos. En Actas de la 49ª Reunión Anual de la Asociación de Lingüística Computacional: Tecnologías de lenguaje humano 142–150 (2011).
Powerapi. Pyjoules: Biblioteca de medición de energía basada en Python para varios dominios, incluidas las GPU NVIDIA. https://github.com/powerapi-ng/pyjoulles (2024). Consultado: 2024-05-31.
Loni, M., Sinaei, S., Zoljodi, A., Daneshtalab, M. y Sjödin, M. Deepmaker: un marco de optimización de objetivos múltiples para redes neuronales profundas en sistemas integrados. Microprocesos. Microsyst. 73102989 (2020).
Artículo Google Scholar
Suganuma, M., Kobayashi, M., Shirakawa, S. y Nagao, T. Evolución de redes neuronales convolucionales profundas utilizando programación genética cartesiana. Evol. Computación. 28141–163 (2020).
Artículo PubMed Google Scholar
Ren, J. et al. Eigen: enfoque genético de inspiración ecológica para la búsqueda de estructuras de redes neuronales desde cero. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 9059–9068 (2019).
Xie, L. y Yuille, A. Genetic CNN. En Actas de la Conferencia Internacional IEEE sobre visión por computadora 1379–1388 (2017).
Lu, Z. et al. Diseño evolutivo de criterio múltiple de redes neuronales convolucionales profundas. Preprint en ARXIV: 1912.01369 (2019).
Kandasamy, K., Neiswanger, W., Schneider, J., Poczos, B. y Xing, EP Búsqueda de arquitectura neural con optimización bayesiana y transporte óptimo. Adv. Inf. Neural. Proceso. Syst. 31 (2018).
Elsken, T., Metzen, J.-H. & Hutter, F. Búsqueda de arquitectura simple y eficiente para redes neuronales convolucionales. Preimpresión en ARXIV: 1711.04528 (2017).
Dong, X. y Yang, Y. Buscando una arquitectura neuronal robusta en cuatro horas de GPU. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 1761–1770 (2019).
Chu, X. et al. DARTS-: Salir de manera robusta del colapso de rendimiento sin indicadores. Preprint en ARXIV: 2009.01027 (2020).
Chen, X., Wang, R., Cheng, M., Tang, X. y Hsieh, C.-J. DRNAS: búsqueda de arquitectura neural de Dirichlet. Preprint en ARXIV: 2006.10355 (2020).
Hu, Y., Wang, X., Li, L. y Gu, Q. Mejora de NAS de un solo disparo con Supernet reducida y expansiva. Reconocimiento de patrones. 118108025 (2021).
Artículo Google Scholar
Chu, X., Zhang, B. y Xu, R. Fairnas: Repensar la equidad de evaluación de la búsqueda de arquitectura neuronal compartiendo peso. En Actas de la conferencia internacional IEEE/CVF sobre visión por computadora 12239–12248 (2021).
Xiao, H., Wang, Z., Zhu, Z., Zhou, J. y Lu, J. Shapley-NAS: Descubrimiento de la contribución de la operación para la búsqueda de arquitectura neural. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 11892–11901 (2022).
Yu, K., Ranftl, R. y Salzmann, M. Regularización histórica: clasificación de entrenamiento guiado de Super Net en la búsqueda de arquitectura neural. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 13723–13732 (2021).
Cavagnero, N., Robbiano, L., Caputo, B. y Avera, G. Freerea: Búsqueda de arquitectura basada en la evolución libre de capacitación. En Actas de la conferencia de invierno IEEE/CVF sobre aplicaciones de visión por computadora 1493–1502 (2023).
Zheng, X. et al. Búsqueda de arquitectura neuronal con representación de información mutua. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 11912–11921 (2022).
Strubell, E., Ganesh, A. y McCallum, A. Consideraciones de energía y política para el aprendizaje profundo en la PNL. Preprint en ARXIV: 1906.02243 (2019).
Zoph, B., Vasudevan, V., Shlens, J. y Le, Q. V. Aprender arquitecturas transferibles para el reconocimiento de imágenes escalables. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones 8697–8710 (2018).
Noticias
El ex ejecutivo de Operai se une a la IA, el sector público y los líderes de ciberseguridad que encabezan Info-Tech Live 2025 en Las Vegas
Published
5 horas agoon
15 mayo, 2025
A medida que Momentum continúa construyendo en las semanas previas a la muy esperada conferencia anual de la industria para CIO y líderes de TI, Info-Tech Research Group ha anunciado tres nuevos oradores destacados para Info-Tech Live 2025 en Las Vegas en junio. Los altavoces recién revelados incluyen Zack Kassex jefe del mercado de ir al mercado en Openai; Bob LeeCIO para Condado de Clark, Nevada; y David TyburskiVicepresidente de Seguridad de la Información y CISO en Wynn Resorts – Voces líderes en IA, innovación del sector público y ciberseguridad. Sus notas clave Ofrezca claridad, estrategia y ideas prácticas sobre los desafíos de TI más urgentes de hoy al proporcionar diversas perspectivas sobre cómo la tecnología está remodelando las industrias, las instituciones y el liderazgo en sí.
Toronto, 14 de mayo de 2025 / PRNewswire/-Info-Tech Research Group, una firma líder mundial de investigación y asesoramiento de TI, ha anunciado tres oradores destacados adicionales para su próximo Info-Tech Live 2025 en Las Vegas Conferencia de TI. Los altavoces son Zack Kassex jefe del mercado de ir al mercado en Openai; Bob LeeCIO para Condado de Clark, Nevada; y David TyburskiVicepresidente de Seguridad de la Información y CISO en Wynn Resorts. Estos oradores compartirán su experiencia en innovación de IA, liderazgo del sector público y ciberseguridad empresarial en el escenario principal del evento insignia de la firma, que tiene lugar. 10-12 de junio, 2025en Bellagio en Las Vegas.
Info-Tech Live 2025 reunirá a miles de CIO, CDO, CISO y líderes de TI durante tres días de notas clave, Insights de analistas y compromiso entre pares. La urgencia y la oportunidad que enfrentan los líderes tecnológicos hoy mientras navegan por la interrupción y la innovación se refleja en el tema de este año “Transformarlo. Transformar todo”.
“Estos altavoces destacados para Info-Tech Live 2025 en Las Vegas Refleja las prioridades y presiones en evolución que enfrentan los líderes de TI hoy, en todas las industrias y mercados “, dice el director de investigación del grupo de investigación de información de información, Gord Harrison. “Desde redefinir cómo las organizaciones se involucran con la IA, hasta la transformación de la prestación de servicios públicos, hasta la defensa de la infraestructura digital en las industrias de alto riesgo, estos líderes aportan información crítica del futuro. Juntos, sus perspectivas ayudarán a los asistentes a ir más allá de la conciencia y tomar una acción estratégica y confidencial”.
Recientemente anunciados oradores destacados para información-tech en vivo 2025 en Las Vegas:
Las últimas incorporaciones a la lista de oradores 2025 de Info-Tech ofrecen a los asistentes una gran cantidad de experiencia en décadas de liderazgo práctico, consultoría e innovación. Sus sesiones proporcionarán nuevas perspectivas sobre los desafíos empresariales actuales, desde la navegación de tecnologías emergentes y las demandas de cumplimiento hasta las estrategias de transformación de escala y alinear las inversiones de TI con el crecimiento empresarial. Los oradores recién anunciados incluyen:
- Zack Kass, Asesor global de IA, ex jefe de Go To-Mercado, OpenAI
Zack Kass es un asesor futurista y global que ayuda a Fortune 1000 empresas y gobiernos a adaptarse al panorama de IA que cambia rápidamente. Como ex jefe del mercado de ir a OpenAI, ayudó a construir y liderar a los equipos responsables de traducir la investigación en aplicaciones del mundo real. Kass ahora trabaja para desmitificar la IA y dar forma a un futuro donde la tecnología sirve a las personas y la sociedad.
- Bob LeeCIO para Condado de Clark, Nevada
Bob Lee sirve como CIO para Condado de Clark, Nevadaapoyando a más de 2.4 millones de residentes, 90,000 empresas y más de 50 millones de visitantes anualmente. Con más de 25 años de experiencia en los sectores público y privado, Leek se centra en el cambio transformador, el liderazgo inclusivo y el uso de la tecnología para mejorar los resultados para las comunidades a las que sirve.
- David TyburskiVP de seguridad de la información y director de seguridad de la información para Wynn Resorts
David Tyburski Lidera la estrategia global de ciberseguridad de Wynn Resorts, supervisando la identidad y el acceso, la gestión de riesgos y la respuesta a los incidentes. Con más de 30 años en TI y seguridad, Tyburski también asesora sobre múltiples juntas de la industria y sirve en la Junta Asesora de Tecnología de la Información del Estado de Nevada.
Info-tech en vivo 2025 en Las Vegas Proporcionará estrategias procesables e información de investigación en profundidad a los líderes y ejecutivos de TI en todas las industrias. Los asistentes tendrán la oportunidad de interactuar con los analistas expertos de Info-Tech, participar en sesiones interactivas y mesas redondas, y obtener un conocimiento crítico sobre el panorama de TI en rápida evolución. La conferencia también contará con una impresionante línea de oradores principales, talleres y eventos de redes diseñados para equipar a los asistentes con las herramientas para impulsar la transformación de TI exponencial. Se publicarán anuncios adicionales en las semanas previas a la conferencia.
Para obtener los últimos detalles, visite el Info-Tech Live 2025 en Las Vegas página, y siga el grupo de investigación de información de información sobre LinkedIn y incógnita.
Media pasa por información-Tech Live 2025 en Las Vegas
Los profesionales de los medios, incluidos periodistas, podcasters e influencers, están invitados a asistir a Info-Tech Live 2025 para obtener acceso exclusivo a la investigación, el contenido y las entrevistas con los líderes de la industria. Para aquellos que no pueden asistir en persona, Info-Tech ofrece una opción de pase digital, proporcionando acceso a notas clave en vivo, sesiones seleccionadas y entrevistas virtuales exclusivas con oradores y analistas.
Los profesionales de los medios que buscan solicitar pases en persona o digitales pueden contactar pr@infotech.com Para asegurar su lugar y cubrir los últimos avances en él para su público.
Oportunidades de expositor
Los expositores también están invitados a formar parte de Info-Tech Live y mostrar sus productos y servicios a un público altamente comprometido de tomadores de decisiones de TI. Para obtener más información sobre cómo convertirse en un expositor de información en vivo, comuníquese con events@infotech.com.
Acerca del grupo de investigación de tecnología de información
Info-Tech Research Group es una de las principales empresas de investigación y asesoramiento del mundo, que atiende con orgullo a más de 30,000 profesionales. La compañía produce una investigación imparcial y altamente relevante y brinda servicios de asesoramiento para ayudar a los líderes a tomar decisiones estratégicas, oportunas y bien informadas. Durante casi 30 años, Info-Tech se ha asociado estrechamente con los equipos para proporcionarles todo lo que necesitan, desde herramientas procesables hasta orientación de analistas, asegurando que brinden resultados medibles para sus organizaciones.
Para obtener más información sobre las divisiones de Info-Tech, visite McLean & Company para obtener servicios de investigación y asesoramiento de recursos humanos y SoftWarReviews para obtener información sobre la compra de software.
Los profesionales de los medios pueden registrarse para un acceso sin restricciones a la investigación a través de TI, recursos humanos y software y cientos de analistas de la industria a través del Programa de Insiders de Medios de la empresa. Para obtener acceso, contactar pr@infotech.com.
Grupo de investigación de tecnología de información de origen
Noticias
Operai trae GPT-4.1 y 4.1 mini a Chatgpt-Lo que las empresas deben saber
Published
10 horas agoon
14 mayo, 2025
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Operai está implementando GPT-4.1, su nuevo modelo de lenguaje grande (LLM) no inicial que equilibra el alto rendimiento con menor costo, para los usuarios de ChatGPT. La compañía está comenzando con sus suscriptores que pagan en ChatGPT Plus, Pro y Equipo, con el acceso a los usuarios de la empresa y la educación esperada en las próximas semanas.
También está agregando GPT-4.1 Mini, que reemplaza a GPT-4O Mini como el valor predeterminado para todos los usuarios de ChatGPT, incluidos los de nivel gratuito. La versión “Mini” proporciona un parámetro a menor escala y, por lo tanto, una versión menos potente con estándares de seguridad similares.
Ambos modelos están disponibles a través de la selección desplegable “Más modelos” en la esquina superior de la ventana de chat dentro de ChatGPT, dando a los usuarios flexibilidad para elegir entre modelos GPT-4.1, GPT-4.1 mini y razonamiento como O3, O4-Mini y O4-Mini-High.
Inicialmente destinado a usar solo por el software de terceros y los desarrolladores de IA a través de la interfaz de programación de aplicaciones (API) de OpenAI, se agregó GPT-4.1 a ChatGPT siguiendo fuertes comentarios de los usuarios.
El líder de investigación de la capacitación posterior de Operai, Michelle Pokrass, confirmó en X, el cambio fue impulsado por la demanda, escribiendo: “Inicialmente estábamos planeando mantener esta API de modelo solo, pero todos lo querían en Chatgpt ¡feliz codificación!”
El director de productos de Operai, Kevin Weil, publicó en X diciendo: “Lo construimos para los desarrolladores, por lo que es muy bueno para la codificación e instrucciones siguientes, ¡hágalo un intento!”
Un modelo centrado en la empresa
GPT-4.1 fue diseñado desde cero para la practicidad de grado empresarial.
Lanzado en abril de 2025 junto con GPT-4.1 Mini y Nano, esta familia modelo priorizó las necesidades de los desarrolladores y los casos de uso de producción.
GPT-4.1 ofrece una mejora de 21.4 puntos sobre GPT-4O en el punto de referencia de ingeniería de software verificado SWE-Bench, y una ganancia de 10.5 puntos en tareas de seguimiento de instrucciones en el punto de referencia MultiChallenge de Scale. También reduce la verbosidad en un 50% en comparación con otros modelos, un rasgo de los usuarios de la empresa elogió durante las pruebas tempranas.
Contexto, velocidad y acceso al modelo
GPT-4.1 admite el contexto estándar Windows para ChatGPT: 8,000 tokens para usuarios gratuitos, 32,000 tokens para usuarios más y 128,000 tokens para usuarios de Pro.
Según el desarrollador Angel Bogado Publicing en X, estos límites coinciden con los utilizados por los modelos de CHATGPT anteriores, aunque los planes están en marcha para aumentar aún más el tamaño del contexto.
Si bien las versiones API de GPT-4.1 pueden procesar hasta un millón de tokens, esta capacidad ampliada aún no está disponible en ChatGPT, aunque el soporte futuro se ha insinuado.
Esta capacidad de contexto extendida permite a los usuarios de la API alimentar las bases de código enteras o grandes documentos legales y financieros en el modelo, útil para revisar contratos de documentos múltiples o analizar grandes archivos de registro.
Operai ha reconocido cierta degradación del rendimiento con entradas extremadamente grandes, pero los casos de prueba empresarial sugieren un rendimiento sólido de hasta varios cientos de miles de tokens.
Evaluaciones y seguridad
Operai también ha lanzado un sitio web de Safety Evaluations Hub para brindar a los usuarios acceso a métricas clave de rendimiento en todos los modelos.
GPT-4.1 muestra resultados sólidos en estas evaluaciones. En las pruebas de precisión de hecho, obtuvo 0.40 en el punto de referencia SimpleQA y 0.63 en Personqa, superando a varios predecesores.
También obtuvo 0.99 en la medida “no insegura” de OpenAI en las pruebas de rechazo estándar, y 0.86 en indicaciones más desafiantes.
Sin embargo, en la prueba de jailbreak Strongject, un punto de referencia académico para la seguridad en condiciones adversas, GPT-4.1 obtuvo 0.23, detrás de modelos como GPT-4O-Mini y O3.
Dicho esto, obtuvo un fuerte 0.96 en indicaciones de jailbreak de origen humano, lo que indica una seguridad más robusta del mundo real bajo el uso típico.
En la adhesión de instrucciones, GPT-4.1 sigue la jerarquía definida de OpenAI (sistema sobre desarrollador, desarrollador sobre mensajes de usuario) con una puntuación de 0.71 para resolver conflictos de mensajes del sistema frente a usuario. También funciona bien para proteger frases protegidas y evitar regalos de soluciones en escenarios de tutoría.
Contextualización de GPT-4.1 contra predecesores
El lanzamiento de GPT-4.1 se produce después del escrutinio alrededor de GPT-4.5, que debutó en febrero de 2025 como una vista previa de investigación. Ese modelo enfatizó un mejor aprendizaje sin supervisión, una base de conocimiento más rica y alucinaciones reducidas, que caían del 61.8% en GPT-4O al 37.1%. También mostró mejoras en los matices emocionales y la escritura de forma larga, pero muchos usuarios encontraron las mejoras sutiles.
A pesar de estas ganancias, GPT-4.5 generó críticas por su alto precio, hasta $ 180 por millón de tokens de producción a través de API, y por un rendimiento decepcionante en matemáticas y puntos de referencia de codificación en relación con los modelos O-Series O de OpenAi. Las cifras de la industria señalaron que si bien GPT-4.5 era más fuerte en la conversación general y la generación de contenido, tuvo un rendimiento inferior en aplicaciones específicas del desarrollador.
Por el contrario, GPT-4.1 se pretende como una alternativa más rápida y más enfocada. Si bien carece de la amplitud de conocimiento de GPT-4.5 y un modelado emocional extenso, está mejor sintonizado para la asistencia de codificación práctica y se adhiere de manera más confiable a las instrucciones del usuario.
En la API de OpenAI, GPT-4.1 tiene un precio de $ 2.00 por millón de tokens de entrada, $ 0.50 por millón de tokens de entrada en caché y tokens de salida de $ 8.00 por millón.
Para aquellos que buscan un saldo entre velocidad e inteligencia a un costo más bajo, GPT-4.1 Mini está disponible en $ 0.40 por millón de tokens de entrada, $ 0.10 por millón de tokens de entrada en caché y tokens de salida de $ 1.60 por millón.
Los modelos Flash-Lite y Flash de Google están disponibles a partir de $ 0.075– $ 0.10 por millón de tokens de entrada y $ 0.30– $ 0.40 por millón de tokens de salida, menos de una décima parte del costo de las tasas base de GPT-4.1.
Pero si bien GPT-4.1 tiene un precio más alto, ofrece puntos de referencia de ingeniería de software más fuertes y una instrucción más precisa después, lo que puede ser crítico para los escenarios de implementación empresarial que requieren confiabilidad sobre el costo. En última instancia, el GPT-4.1 de OpenAI ofrece una experiencia premium para el rendimiento de precisión y desarrollo, mientras que los modelos Gemini de Google atraen a empresas conscientes de costos que necesitan niveles de modelos flexibles y capacidades multimodales.
Lo que significa para los tomadores de decisiones empresariales
La introducción de GPT-4.1 aporta beneficios específicos a los equipos empresariales que administran la implementación de LLM, la orquestación y las operaciones de datos:
- Ingenieros de IA Supervisando la implementación de LLM puede esperar una velocidad mejorada e instrucción de adherencia. Para los equipos que administran el ciclo de vida LLM completo, desde el modelo de ajuste hasta la resolución de problemas, GPT-4.1 ofrece un conjunto de herramientas más receptivo y eficiente. Es particularmente adecuado para equipos Lean bajo presión para enviar modelos de alto rendimiento rápidamente sin comprometer la seguridad o el cumplimiento.
- La orquestación de IA conduce Centrado en el diseño de tuberías escalable apreciará la robustez de GPT-4.1 contra la mayoría de las fallas inducidas por el usuario y su fuerte rendimiento en las pruebas de jerarquía de mensajes. Esto facilita la integración en los sistemas de orquestación que priorizan la consistencia, la validación del modelo y la confiabilidad operativa.
- Ingenieros de datos Responsable de mantener una alta calidad de datos e integrar nuevas herramientas se beneficiará de la tasa de alucinación más baja de GPT-4.1 y una mayor precisión objetiva. Su comportamiento de salida más predecible ayuda a construir flujos de trabajo de datos confiables, incluso cuando los recursos del equipo están limitados.
- Profesionales de seguridad de TI La tarea de integrar la seguridad en las tuberías de DevOps puede encontrar valor en la resistencia de GPT-4.1 a jailbreaks comunes y su comportamiento de salida controlado. Si bien su puntaje académico de resistencia de jailbreak deja espacio para mejorar, el alto rendimiento del modelo contra las exploits de origen humano ayuda a apoyar la integración segura en herramientas internas.
En estos roles, el posicionamiento de GPT-4.1 como un modelo optimizado para mayor claridad, cumplimiento y eficiencia de implementación lo convierte en una opción convincente para empresas medianas que buscan equilibrar el rendimiento con las demandas operativas.
Un nuevo paso adelante
Mientras que GPT-4.5 representaba un hito de escala en el desarrollo del modelo, GPT-4.1 se centra en la utilidad. No es el más caro o el más multimodal, pero ofrece ganancias significativas en áreas que importan para las empresas: precisión, eficiencia de implementación y costo.
Este reposicionamiento refleja una tendencia de la industria más amplia, alejada de la construcción de los modelos más grandes a cualquier costo y hacia los modelos capaces más accesibles y adaptables. GPT-4.1 cumple con esa necesidad, ofreciendo una herramienta flexible y lista para la producción para equipos que intentan integrar la IA más profundamente en sus operaciones comerciales.
A medida que OpenAI continúa evolucionando sus ofertas de modelos, GPT-4.1 representa un paso adelante en la democratización de IA avanzada para entornos empresariales. Para la capacidad de equilibrio de los tomadores de decisiones con el ROI, ofrece un camino más claro hacia el despliegue sin sacrificar el rendimiento o la seguridad.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

Related posts






















































































































































































































































































































Trending
-
Startups12 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales1 año ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos1 año ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups10 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Startups1 año ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos12 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Recursos1 año ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Noticias10 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo