Connect with us

Noticias

OpenAI Newly Released SimpleQA Helps Reveal That Generative AI Blatantly And Alarmingly Overstates What It Knows

Published

on

In today’s column, I examine closely a recently released empirical analysis by OpenAI, the maker of ChatGPT, revealing that generative AI severely overstates confidence levels regarding the responses that the AI generates. This means that when AI gives you an answer that the AI portrays for example as fully aboveboard and hunky-dory, the reality is that the response is bound to be a lot shakier than you are being led to believe.

Generative AI is pulling the wool over your eyes. The AI is giving you a snow job. You are being gaslighted by the AI.

Let’s talk about it.

This analysis of an innovative proposition is part of my ongoing Forbes.com column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here).

Dangers Of Dealing With Someone Supremely Overconfident

Before we jump into the AI side of things, I’d like to begin by reflecting on humans and the nature of human behavior associated with someone being supremely overconfident.

You ask a stranger what time it is. Turns out that you don’t have your watch, and you left your smartphone back in your car. So, you are unsure of the exact time. The person says to you in a strong and extremely confident voice that the time is 1:34 p.m. They are emphatic that they have given you the precise time of day as though there is no possible debate or discussion to be had.

Period, end of story.

Another person happens to walk by at that same moment and overhears you asking for the time. This interloper looks intently at their timepiece and tells you that it is 1:48 p.m. Whoa, something isn’t right here. The first given time was said to be 1:34 p.m. on the nose, while the subsequent passerby looked at their watch and noted that it was supposedly 14 minutes later and actually 1:48 p.m.

Upon your gentle questioning of the first person, the one that said they were abundantly irrefutably sure it was 1:34 p.m., they now cave in and admit it was just a guess. But that’s not what they said or intimated when you asked them for the time. They portrayed their answer as though it was golden. You could take that stated time to the bank, as it were.

What gives?

That person might be the type of individual who believes one hundred percent in every utterance they convey. It is their personal style. They never want to seem wimpy or waffling. If they tell you something, by gosh it is the absolute truth of the matter. You aren’t to have even the tiniest doubt in your mind about what they say to you.

Have you ever met such a supremely confident person?

I’m sure that you have. We all have. These types of people act as though they are the chosen ones who can speak with complete certainty. It doesn’t matter whether the topic at hand is big or small. They will take the most trivial aspect and still cling to their certainty. When confronted with alternative perspectives, some will back down, while others might argue until blue in the face about the oddest claims or contentions.

The problem is this.

If you don’t know that a person you are dealing with has that kind of hubris, you can end up in some precarious positions. You take their portrayal of certainty and assume it to be valid. The next thing you know, you have gotten yourself into a pickle because what they said was flimsy and fell apart.

Regrettably, you let their sense of overconfidence mislead you.

Generative AI Deals With Certainty And Uncertainty

Let’s next shift into generative AI mode.

You might not be aware that generative AI makes extensive use of certainty and uncertainty. Under the hood of generative AI, there is a whole bunch of statistical and probabilistic estimations going on, see my detailed explanation at the link here. Every response that AI generates also has a devised level of certainty, which you could say represents essentially a level of uncertainty too (i.e., 60% certainty of something, implying 40% uncertainty of that same something).

Either way, the crux is that the answers by AI are always accompanied by a kind of confidence level concerning how likely the answer is correct or not.

Most users of generative AI are oblivious to this facet. They don’t know it even exists. There’s a reason why they don’t. It is because the AI makers go out of their way to keep it out of view. They want you to have full faith in what AI generates. If the AI continually shows you a certainty or confidence level, this might scare you into thinking that AI is not completely trustworthy.

Of course, the reality is that generative AI is in fact not fully trustworthy. Any answer produced by generative AI deserves your best kind of scrutiny. Double-check the response. Triple-check if the matter is a serious one. Do not believe what the AI tells you. Always assume that there is a solid chance that the AI is wrong or has made an error, including a so-called AI hallucination (see my coverage at the link here).

The bad news then is that the preponderance of users is blindly unaware of this rather significant consideration when using generative AI, namely that the answers are not 100% certain all the time. I would dare say that 100% is a rarity. Yet you are seldom told this explicitly by the AI.

The good news is that you can tell the AI to inform you about the calculated level of confidence. In your prompts, you can directly instruct generative AI to indicate the certainty and/or uncertainty of each response. The prompting technique varies depending upon whether you want this done one-time, often, all the time, or under varying circumstances. See my tutorial on the prompting of generative AI to display confidence levels, at the link here.

There’s something else worth mentioning about this. The default response protocol being used for most of the major generative AI apps such as ChatGPT, GPT-4o, o1, Google Gemini, Anthropic Claude, Meta Llama, and others is customarily going to be to word responses with clues or hints about certainty and uncertainty.

For example, suppose the AI indicated that “the time right now is 2:05 p.m., but please know that I am not connected to a real-time clock.” You are being told two things at once. You are being given a precise time which you would naturally assume to be accurate and timely. The thing is, you would need to read the rest of the response and realize that since the AI is not connected to a real-time clock, the stated time might be off target. The wording though was a bit tricky and didn’t come out straight away and warn you to be suspicious of the claimed time. That’s what should have happened to try and maximize clarity.

Worse Still Is That Generative AI Is Overconfident

Okay, you now know that there is an internal calculation of certainty and uncertainty. That’s a handy pro tip.

I have a twist for you.

Get yourself prepared and find a comfy place to sit down.

Here’s the monumental question at play:

  • Do you think that the calculated confidence level matches with the reality of the actual answers being generated and conveyed?

Allow me to elaborate. Suppose the AI calculates that a given response is around a 90% level of certainty. Great, that seems relatively high, and you might be somewhat safe to rely upon the answer, depending upon the consequences of making such a reliance.

What if we compared the generated answer that the AI claims consisted of a 90% confidence level to a real-world answer that we had available to us? It could be that 90% was a pretty solid estimate and we are happy with the calculated certainty. On the other hand, we might discover that the answer should have been given a confidence level of say 40%, much lower than the amount estimated by AI.

Yikes, that’s disconcerting. The AI egregiously missed the mark and woefully misjudged the estimated confidence level. If you had asked the AI to show you the confidence level, and you saw that it was 90%, you might have proceeded under a misleading or false impression. The value should have been 40%.

Maybe this happens once in a blue moon, and you can rest easy. Well, I have a shocker for you. It happens a lot more than you would imagine. A heck of a lot more.

In a recent research study by OpenAI involving a new benchmark coined as SimpeQA that is intended for assessing generative AI apps, the researchers pursued on a kind of secondary basis to explore the confidence level estimations of AI. That wasn’t the mainstay of the effort. I mention this to highlight that you are encouraged to learn more about SimpleQA as a helpful benchmarking capability.

Here, I want to focus for now on the confidence level considerations.

You could say with great confidence that generative AI appears to be supremely overconfident in the responses that are being generated. Oops, that’s not good. Sad face.

Research Results Tell Quite A Story Of Woe

In an OpenAI study published online at the OpenAI official blog site, the paper entitled “Measuring Short-Form Factuality In Large Language Models” by Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, and William Fedus, OpenAI Research Paper, October 30, 2024, made these salient points (excerpts):

  • “We present SimpleQA, a benchmark that evaluates the ability of language models to answer short, fact-seeking questions.”
  • “A factuality benchmark like SimpleQA allows us to measure the scientific phenomenon known as calibration, or whether language models “know what they know.”
  • “One way to measure calibration is to directly ask the language model to state its confidence in its answer using a prompt like: “Please give your best guess, along with your confidence as a percentage that it is the correct answer.”
  • “Then we can plot the correlation between the stated confidence of the model, and how accurate the model actually was. A perfectly calibrated model would have the same actual accuracy as the stated confidence. For instance, on all prompts where the model stated a confidence of 75%, the accuracy would be 75% for a perfectly calibrated model.”
  • “However, the fact that performance is well below the line y=x means that models consistently overstate their confidence. Hence, there is a lot of room to improve the calibration of large language models in terms of stated confidence.”

I will expand upon those above points.

I earlier noted that we would be dismayed if AI said a confidence level of 90% and yet the real-world value ought to be 40%. Any large gap is going to be problematic. We won’t get overly concerned if the gap is small, let’s say if the AI estimated 90% and the real-world value was 85%, we might have a modest amount of heartburn, but not as much in the case of the much lower 40%.

In a chart provided in the above-cited research study, I used some interpolation to gauge how far off on average the AI estimated confidence level was from the desired actual accuracy. My interpolations are only rough gauges since the chart has several generative AI apps shown, thus there are a lot of variabilities involved. Nonetheless, I tried to be relatively fair by using what seemed to be the semblance of the values shown

Here’s what my eyeballing suggested:

  • ——Level of 50%————
  • AI stated level of confidence: 50%
  • Actual accuracy: 10% approximately.
  • ——Next level at 70% ————
  • AI stated level of confidence: 70%
  • Actual accuracy: 20% approximately.
  • ——Next level at 80% ————
  • AI stated level of confidence: 80%
  • Actual accuracy: 40% approximately.
  • ——Next level at 95% ————
  • AI stated level of confidence: 95%
  • Actual accuracy: 60% approximately.

The grim concern is that at a stated 95% level of confidence by AI, the reality is more akin to a 60% confidence level. That’s unnerving. So too is that at 80% the reality seems to be around 40%. Even when you get down to 50% or flip-of-the-coin, the reality is more akin to just 10%.

The hair on the back of your head ought to be standing up.

Why This Is A Big Deal Of Great Importance

I logged into ChatGPT and asked why we ought to be worried about these kinds of results and to provide a few examples.

  • My entered prompt: “Give me three examples of what could happen if the AI indicated confidence level is a lot higher than the real value.”
  • ChatGPT generated response:

“Certainly, here are three examples that illustrate the potential consequences of overconfident generative AI in different fields.”

Medical diagnosis: A generative AI tool is used by doctors to suggest possible diagnoses based on symptoms. The AI recommends a rare but severe condition with 95% confidence, but in reality, its accuracy at this confidence level is only 60%. A doctor might rely on this high-confidence suggestion and order unnecessary, costly, or invasive tests, causing patient anxiety and increasing healthcare costs. Worse, if the diagnosis is incorrect, a more likely and treatable condition might be overlooked, endangering the patient’s health.”

Investment recommendation: A financial advisor uses generative AI to analyze market data and generate investment recommendations. The AI suggests investing heavily in a stock with 95% confidence, based on recent market movements, but its true accuracy at this level is much lower. If the stock’s performance doesn’t align with the AI’s recommendation, investors could face substantial losses.”

Customer support: A tech support AI chatbot confidently advises users to perform a specific solution to fix a common software issue, rating its response at 85% confidence. In reality, the accuracy is closer to 50%. If the AI’s advice is incorrect, users may follow steps that could worsen their problem, such as misconfiguring settings, corrupting files, or spending hours troubleshooting the wrong issue. This also results in more calls to customer support to undo the AI’s guidance.”

End of ChatGPT response

Those are vivid examples of why you should be supremely careful in getting caught by AI that is supremely overconfident.

I asked ChatGPT to give us humans some overarching advice on the matter.

  • My entered prompt: “What can be done about generative AI overstating its level of confidence?”
  • ChatGPT generated response: “In practice, this miscalibration can be problematic, especially in high-stakes domains like healthcare, law, or finance, where overconfident but incorrect AI responses could lead to adverse outcomes. To address this, developers are exploring ways to improve confidence calibration, such as by incorporating explicit feedback systems, refining training protocols, and developing post-deployment accuracy testing methods.”

I would also like to add that AI makers and those fielding AI need to be extremely cautious in applying generative AI to domains that have demonstrative consequences.

The medical domain has life-or-death outcomes. The financial domain could be monetarily ruinous to someone. By and large, the AI makers try to cover their liability by stating in their licensing agreements that you aren’t supposed to use their generative AI for those situations, or that if you do then you are making that choice and it isn’t on them, see my analysis of these pronounced AI & Law matters at the link here.

Bottom Line Is Keep Your Wits About You

I said earlier that you ought to not believe generative AI at face value. That goes for the confidence levels too.

You’ve been forewarned.

I should mention that the cited study is only one particular study on a particular set of generative AI apps at a particular point in time. Please do not overgeneralize these results. At the same time, take this as a cold splash of water and a wake-up call. If you are going to ask for confidence levels, be cognizant of how to judge them. Also, the semblance of high confidence conveyed via the wording of the AI responses should be carefully scrutinized. You might be getting tricked or bamboozled.

The last word on the overall dangers of overconfidence goes to the famous astronaut Neil Armstrong: “Well, I think we tried very hard not to be overconfident because when you get overconfident, that’s when something snaps up and bites you.”

I ask that you not let generative AI reach out and bite you. That’s something you won’t relish. It could be utterly disastrous for all concerned.

And you can take that 100% to the bank.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La demanda de Elon Musk podría ser el menor de los problemas de OpenAI: su conversión planificada costará una fortuna

Published

on

Una buena regla general en la vida es nunca ponerse del lado malo de un centibillonario feliz con los litigios y con un Rolodex de firmas de abogados a su entera disposición.

Pero la segunda demanda de Elon Musk contra OpenAI, a quien hizo donaciones caritativas por un total de más de 50 millones de dólares, puede ser la menor de sus preocupaciones inmediatas. Hay una autoridad que todavía tiene mayores recursos a su alcance que el hombre propuesto para ser el primer billonario del mundo: el gobierno.

Y puede hacer que la vida de OpenAI sea un infierno si decide investigar y procesar cualquier paso en falso mientras el creador de ChatGPT intenta deshacerse de su caparazón sin fines de lucro y emerger como una corporación de beneficio público capaz de algún día enriquecer a sus accionistas.

De hecho, el Estado es realmente la única entidad capaz de implementar medidas legales para garantizar que las organizaciones sin fines de lucro no engañen al sistema. Y en cuestión de semanas las palancas del poder del gobierno estarán en manos de un aliado cercano de Musk, Donald Trump.

“Si yo fuera OpenAI y me preguntaras qué me debería preocupar más”, dice Luís Calderón Gómez, profesor asistente de la Universidad Yeshiva especializado en política fiscal Fortuna“No sería la demanda de Musk, sería la conversión”.

En una declaración a Fortunael presidente de OpenAI, Bret Taylor, prometió que la junta directiva de la organización sin fines de lucro cumpliría con su obligación fiduciaria garantizando que la empresa permanezca bien posicionada para cumplir su misión declarada.

“Si bien nuestro trabajo continúa mientras continuamos consultando a asesores financieros y legales independientes”, dijo, “cualquier reestructuración potencial garantizaría que la organización sin fines de lucro continúe existiendo y prosperando, y reciba el valor total por su participación actual en OpenAI con fines de lucro con una capacidad mejorada para llevar a cabo su misión”.

La filial con fines de lucro de Open-AI ya está valorada en 157 mil millones de dólares

Lo que está en juego es inusualmente alto para el sector de las organizaciones sin fines de lucro estadounidenses, que de otro modo estaría adormecido y que se estima representa 3,3 billones de dólares de la producción económica anual de Estados Unidos. A pesar de su importancia como empresa detrás del auge de la inteligencia artificial generativa, una presentación de OpenAI al IRS esta semana revela cuán poco valor se asigna realmente a la organización sin fines de lucro.

Gracias a la fiebre del oro provocada por el lanzamiento comercial de ChatGPT hace casi dos años, una reciente ronda de recaudación de fondos valoró a OpenAI Global, LLC, la empresa operadora, en la asombrosa cifra de 157 mil millones de dólares. A principios de este año, uno de los principales expertos de Asia en este campo, Kai-fu Lee, incluso sugirió que podría hacer historia como la primera empresa privada con un valor de 1 billón de dólares.

Para todos los efectos, opera como una empresa normal, contando con Microsoft junto con Khosla Ventures y el cofundador de LinkedIn, Reid Hoffman, como principales inversores.

Sin embargo, su accionista mayoritario, OpenAI, Inc., está clasificado como una corporación 501(c)(3) según el código tributario del Servicio de Impuestos Internos (IRS). Quedó exento de contribuir al erario público después de comprometerse a “promover la inteligencia digital de la manera que más probablemente beneficie a la humanidad en su conjunto, sin las limitaciones de la necesidad de generar un retorno financiero”.

El sector de la atención sanitaria abrió el camino para las organizaciones sin fines de lucro híbridas

Esta estructura corporativa híbrida aparentemente extraña, adoptada por OpenAI en marzo de 2019, fue el resultado principalmente de los desarrollos en el sector de la salud.

Para evitar que cerraran clínicas con dificultades financieras, lo que podría cortar el suministro de servicios médicos en su comunidad local, en 1998 el IRS comenzó a permitirles asociarse con competidores con fines de lucro siempre que la organización sin fines de lucro mantuviera el control final.

La estructura corporativa de OpenAI

Cortesía de OpenAI

Sin embargo, el fallo sigue siendo controvertido. En agosto del año pasado, Elizabeth Warren se unió a tres de sus colegas del Senado en un esfuerzo bipartidista para acabar con esta práctica después de que un estudio reciente descubriera que tres de cada cuatro clínicas sin fines de lucro gastaban menos en atención caritativa de lo que recibían en exenciones fiscales.

Como fundador y director ejecutivo de la consultora sin fines de lucro Altruist, Donald Summers sostiene que los problemas de gobernanza y la falta de un escrutinio adecuado se deben en parte a que el público en general trabaja bajo una noción anticuada e ingenua del sector caritativo.

“La gente piensa que las organizaciones sin fines de lucro son comedores de beneficencia y refugios para personas sin hogar. Pueden ser organizaciones poderosas, multimillonarias, que pueden poseer subsidiarias con fines de lucro y endeudarse”, dice Donald Summers, fundador y director ejecutivo de Altruist. Fortuna. “Simplemente no se pueden comprar ni vender en beneficio de particulares”.

Como una organización benéfica de la selva tropical que decide talar el Amazonas

El director ejecutivo de OpenAI, Sam Altman, ha atribuido sus planes de convertirse en una organización con fines de lucro (probablemente el próximo año según Fortunafuentes) como una evolución orgánica de su estructura jurídica en el tiempo. Como las donaciones no lograron seguir el ritmo de los crecientes costos para entrenar su red neuronal, la gerencia decidió que la única opción que quedaba para cumplir su misión caritativa era comenzar a recaudar dinero privado.

Desde entonces, sin embargo, ha sido más prudente con las investigaciones que publica, sin información disponible públicamente que revele todas las capacidades técnicas de su modelo GPT-4, lanzado por primera vez en 2023. También ha firmado acuerdos exclusivos con socios comerciales que los expertos decir, va en contra de los ideales que dice defender.

“Es ilegal y OpenAI es un castillo de naipes”, criticó Musk, quien cortó todos los vínculos con la empresa hace cuatro años. Describió los planes de OpenAI de renunciar a su condición de organización sin fines de lucro como una traición shakesperiana y los comparó con donar dinero a una organización benéfica para salvar la selva amazónica solo para que decidiera talar árboles para obtener madera era una idea más rentable.

Si bien el propósito principal de una organización sin fines de lucro debe ser brindar un beneficio a la sociedad en su conjunto, eso significa, por extensión, que la búsqueda de motivos capitalistas no tiene por qué estar en conflicto con su misión.

“No son necesariamente excluyentes entre sí”, dice Darryll Jones, profesor de derecho en la Universidad Florida A&M y coeditor del Blog de profesores de derecho sin fines de lucro, en una entrevista con Fortuna.

Y cuando lo son, añade, esto no tiene por qué ser un problema, siempre y cuando el objetivo de la organización sin fines de lucro tenga prioridad. “Esa es probablemente una de las razones por las que no hemos escuchado [publicly] sobre un fiscal general o el IRS desafiando OpenAI”.

“No creo que sentemos un precedente aquí”

El argumento ha sido que el cambio de OpenAI en la estructura corporativa podría dar a otras startups la misma idea, en otras palabras, con el lanzamiento como organizaciones sin fines de lucro exentas de impuestos, solo para convertirse en propiedad normal una vez que su modelo de negocio haya sido resuelto y se pueda lanzar un producto comercialmente exitoso. lanzado.

Hablando en marzo a principios de este año, Altman refutó la idea de que sus acciones incentivarían efectivamente a las empresas a jugar rápido y libremente con el código tributario a costa del público.

“Desaconsejaría fuertemente a cualquier startup que estuviera pensando en comenzar como una organización sin fines de lucro y agregar una rama con fines de lucro más adelante”, dijo. “No creo que sentemos un precedente aquí. Si hubiéramos sabido lo que iba a pasar, también lo habríamos hecho”.

La transición es complicada porque implica privatizar lo que alguna vez fue creado para el bien público. Cualquier error puede dar lugar a cuantiosas obligaciones tributarias si se viola la regla de oro de que los activos deben intercambiarse dólar por dólar.

“El principio básico es que la entidad transformadora tiene que pagar al sector caritativo una cantidad equivalente a lo que retira”, dice a esta publicación Robert Weissman, presidente de un grupo de defensa de la responsabilidad corporativa, Public Citizen. “Pero en este caso no es obvio cuál es el valor de OpenAI sin fines de lucro”.

Errar por el lado generoso

Según su declaración de impuestos 990 para el año fiscal 2023 que acaba de presentar este mes, sus activos netos sin fines de lucro cotizan por valor de unos miserables 21 millones de dólares.

Ese es el mínimo absoluto que las empresas con fines de lucro tendrían que ofrecer al Estado a cambio, pero sigue siendo una gota en el océano en comparación con la valoración de 157 mil millones de dólares de las empresas con fines de lucro.

Weissman sostiene, sin embargo, que cualquier conversión significa que el público contribuyente también debe ser compensado por el pérdida del controluna vez que la empresa es propiedad de accionistas.

Estima que la prima por renunciar a esto debería valer el 20% de la entidad con fines de lucro sobre la que tiene la última palabra. En otras palabras, desembolsarían más de 30 mil millones de dólares.

Estos fondos que OpenAI Global LLC tendría que pagar permanecerán legítimamente en manos del público y luego podrán usarse para la donación de una nueva fundación benéfica, posiblemente dedicada a la seguridad de la IA, por ejemplo.

Por ahora, sin embargo, sigue siendo un juego de adivinanzas que los banqueros de inversión tendrán que resolver en última instancia en una evaluación de un tercero. Jones, de Florida A&M, cree que OpenAI y Microsoft tendrán cuidado de pecar de generosos.

Cualquier intento potencial de estafar a los contribuyentes podría desencadenar una investigación y una posible demanda por parte del gobierno que limita la capacidad de gestión y consume tiempo y recursos, algo que el dúo no puede permitirse en la carrera con competidores de rápido movimiento como xAI de Musk.

“Después de que OpenAI hablara de lo excelente que es su tecnología, les resultará difícil reducir el precio”, argumenta Jones.

Un montón de abogados bien pagados golpeándose la cabeza

Después de años de avanzar tanto en tecnología como en legislación tributaria, la conversión resuelve un tema espinoso y es el riesgo de que ya esté incumpliendo sus obligaciones sin fines de lucro. Weissman, de Public Citizen, ha escrito repetidamente al fiscal general de California, donde se encuentra su sede, para presionarlo sobre este mismo tema.

Delaware, domicilio legal de OpenAI, parece estar tomando medidas iniciales para garantizar que no se engañe a los contribuyentes. axios informó recientemente que la fiscal general del estado, Kathleen Jennings, había presentado una solicitud oficial a la empresa para obtener información adicional con respecto a su plan de conversión.

“Es importante que mi oficina tenga la oportunidad de revisar los términos de cualquier transacción de este tipo antes de su consumación”, escribió Jennings en octubre. “Los actuales beneficiarios de OpenAI tienen interés en garantizar que los activos caritativos no se transfieran a intereses privados sin la debida consideración”.

La oficina de Delaware AG no respondió a una solicitud de Fortuna para hacer comentarios, pero su contraparte en la oficina de California ha dicho que, en principio, no comenta sobre la existencia o el progreso de una investigación.

Gómez está de acuerdo con la evaluación de Altman de que OpenAI no creará un modelo de negocio completamente nuevo para las nuevas empresas debido a la facilidad con la que podría entrar en conflicto con el gobierno si los funcionarios sienten que se ha engañado al erario público.

“No hay muchas maneras de hacer esto sin incurrir en una gran obligación tributaria y sin ser demandado por el estado, ya sea Delaware, California, el Departamento de Justicia o el IRS”, dice. Fortuna. “Así que estoy muy seguro de que hay muchos abogados a los que se les paga lote de dinero para trabajar en esto ahora mismo”.

Continue Reading

Noticias

Investigadores chinos presentan LLaVA-o1 para desafiar el modelo o1 de OpenAI

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


El modelo o1 de OpenAI ha demostrado que el escalado del tiempo de inferencia (usar más computación durante la inferencia) puede mejorar significativamente las capacidades de razonamiento de un modelo de lenguaje. LLaVA-o1, un nuevo modelo desarrollado por investigadores de varias universidades de China, lleva este paradigma a los modelos de lenguaje de visión (VLM) de código abierto.

Los primeros VLM de código abierto suelen utilizar un enfoque de predicción directa, generando respuestas sin razonar sobre el mensaje y los pasos necesarios para resolverlo. Sin un proceso de razonamiento estructurado, son menos eficaces en tareas que requieren razonamiento lógico. Las técnicas de estimulación avanzadas, como las de cadena de pensamiento (CoT), donde se anima al modelo a generar pasos de razonamiento intermedios, producen algunas mejoras marginales. Pero los VLM suelen producir errores o alucinar.

Los investigadores observaron que un problema clave es que el proceso de razonamiento en los VLM existentes no es suficientemente sistemático y estructurado. Los modelos no generan cadenas de razonamiento y muchas veces se quedan estancados en procesos de razonamiento donde no saben en qué etapa se encuentran y qué problema específico deben resolver.

“Observamos que los VLM a menudo inician respuestas sin organizar adecuadamente el problema y la información disponible”, escriben los investigadores. “Además, con frecuencia se desvían de un razonamiento lógico para llegar a conclusiones, en lugar de presentar una conclusión prematuramente y luego intentar justificarla. Dado que los modelos de lenguaje generan respuestas token por token, una vez que se introduce una conclusión errónea, el modelo generalmente continúa por un camino de razonamiento defectuoso”.

Razonamiento de varias etapas

OpenAI o1 utiliza escala de tiempo de inferencia para resolver el problema de razonamiento sistemático y estructurado y permite que el modelo haga una pausa y revise sus resultados a medida que resuelve gradualmente el problema. Si bien OpenAI no ha publicado muchos detalles sobre el mecanismo subyacente de o1, sus resultados muestran direcciones prometedoras para mejorar las capacidades de razonamiento de los modelos fundamentales.

Inspirándose en o1, los investigadores diseñaron LLaVA-o1 para realizar un razonamiento etapa por etapa. En lugar de generar una cadena de razonamiento directa, LLaVA-o1 divide el proceso de razonamiento en cuatro etapas distintas:

Resumen: El modelo primero proporciona un resumen de alto nivel de la pregunta, delineando el problema central que debe abordar.

Subtítulo: Si hay una imagen presente, el modelo describe las partes relevantes, centrándose en elementos relacionados con la pregunta.

Razonamiento: A partir del resumen, el modelo realiza un razonamiento lógico y estructurado para derivar una respuesta preliminar.

Conclusión: Finalmente, el modelo presenta un resumen conciso de la respuesta basada en el razonamiento anterior.

Sólo la etapa de conclusión es visible para el usuario; las otras tres etapas representan el proceso de razonamiento interno del modelo, similar al rastro de razonamiento oculto de o1. Este enfoque estructurado permite a LLaVA-o1 gestionar su proceso de razonamiento de forma independiente, lo que conduce a un mejor rendimiento en tareas complejas.

“Este enfoque estructurado permite al modelo gestionar de forma independiente su proceso de razonamiento, mejorando su adaptabilidad y rendimiento en tareas de razonamiento complejas”, escriben los investigadores.

Búsqueda de haz a nivel de etapa (derecha) versus otras técnicas de escalamiento de tiempo de inferencia Fuente: arXiv

LLaVA-o1 también introduce una novedosa técnica de escalado de tiempo de inferencia llamada “búsqueda de haz a nivel de etapa”. La búsqueda de haces a nivel de etapa genera múltiples resultados candidatos en cada etapa de razonamiento. Luego selecciona al mejor candidato en cada etapa para continuar el proceso de generación. Esto contrasta con el enfoque clásico del mejor de N, en el que se solicita al modelo que genere múltiples respuestas completas antes de seleccionar una.

“En particular, es el diseño de salida estructurado de LLaVA-o1 lo que hace que este enfoque sea factible, permitiendo una verificación eficiente y precisa en cada etapa”, escriben los investigadores. “Esto valida la eficacia de la producción estructurada para mejorar la escala de tiempo de inferencia”.

Entrenamiento LLaVA-o1

Datos de entrenamiento de Llama o1
Los datos de entrenamiento de LLaVA-o1 están anotados con GPT-4o Fuente: arXiv

Para entrenar LLaVA-o1, los investigadores compilaron un nuevo conjunto de datos de alrededor de 100.000 pares de imagen-pregunta-respuesta obtenidos de varios conjuntos de datos VQA ampliamente utilizados. El conjunto de datos cubre una variedad de tareas, desde la respuesta a preguntas de varios turnos hasta la interpretación de gráficos y el razonamiento geométrico.

Los investigadores utilizaron GPT-4o para generar procesos de razonamiento detallados de cuatro etapas para cada ejemplo, incluidas las etapas de resumen, título, razonamiento y conclusión.

Luego, los investigadores ajustaron Llama-3.2-11B-Vision-Instruct en este conjunto de datos para obtener el modelo LLaVA-o1 final. Los investigadores no han publicado el modelo, pero planean publicar el conjunto de datos, llamado LLaVA-o1-100k.

LLaVA-o1 en acción

Los investigadores evaluaron LLaVA-o1 en varios puntos de referencia de razonamiento multimodal. A pesar de haber sido entrenado en solo 100.000 ejemplos, LLaVA-o1 mostró mejoras de rendimiento significativas con respecto al modelo Llama base, con un aumento promedio en la puntuación de referencia del 6,9%.

Resultados LLaVA-o1
LLaVA-o1 frente a otros modelos abiertos y cerrados Fuente: arXiv

Además, la búsqueda de haces a nivel de etapa generó mejoras adicionales en el rendimiento, lo que demuestra la eficacia del escalamiento del tiempo de inferencia. Debido a limitaciones de recursos computacionales, los investigadores solo pudieron probar la técnica con un tamaño de haz de 2. Esperan mejoras aún mayores con tamaños de haz más grandes.

Sorprendentemente, LLaVA-o1 superó no sólo a otros modelos de código abierto del mismo tamaño o más grandes, sino también a algunos modelos de código cerrado como GPT-4-o-mini y Gemini 1.5 Pro.

“LLaVA-o1 establece un nuevo estándar para el razonamiento multimodal en VLM, ofreciendo un rendimiento sólido y escalabilidad, especialmente en tiempo de inferencia”, escriben los investigadores. “Nuestro trabajo allana el camino para futuras investigaciones sobre el razonamiento estructurado en VLM, incluidas posibles expansiones con verificadores externos y el uso del aprendizaje por refuerzo para mejorar aún más las capacidades complejas de razonamiento multimodal”.

Continue Reading

Noticias

Tribunales bonaerenses adoptan ChatGPT para redactar sentencias

Published

on

En mayo, el Ministerio Público de la Ciudad de Buenos Aires comenzó a utilizar IA generativa para predecir fallos en algunos casos de empleo público relacionados con demandas salariales.

Desde entonces, los funcionarios de justicia de la oficina de lo contencioso administrativo y tributario de la ciudad de Buenos Aires suben los documentos del caso al ChatGPT, que analiza patrones, ofrece una clasificación preliminar a partir de un catálogo de plantillas y redacta una decisión. Hasta ahora, ChatGPT se ha utilizado en 20 sentencias legales.

Según estudios recientes realizados por la oficina, el uso de IA generativa ha reducido el tiempo que lleva redactar una oración de una hora a aproximadamente 10 minutos.

“Nosotros, como profesionales, ya no somos los personajes principales. Nos hemos convertido en editores”, dijo Juan Corvalán, fiscal general adjunto en lo contencioso administrativo y tributario. Resto del mundo.

La introducción de herramientas de IA generativa ha mejorado la eficiencia en la oficina, pero también ha generado preocupaciones dentro del poder judicial y entre expertos legales independientes sobre posibles sesgos, el tratamiento de datos personales y la aparición de alucinaciones. Preocupaciones similares han resonado más allá de las fronteras de Argentina.

“Nosotros, como profesionales, ya no somos los personajes principales. Nos hemos convertido en editores”.

“Cualquier uso inconsistente, como compartir información sensible, podría tener un costo legal considerable”, dijo Lucas Barreiro, abogado especializado en protección de datos personales y miembro de Privaia, asociación civil dedicada a la defensa de los derechos humanos en la era digital. dijo Resto del mundo.

Los jueces de EE. UU. han expresado su escepticismo sobre el uso de la IA generativa en los tribunales, y el juez federal de Manhattan, Edgardo Ramos, dijo a principios de este año que “Se ha demostrado que ChatGPT es un recurso poco confiable”. En Colombia y los Países Bajos, el uso de ChatGPT por parte de los jueces fue criticado por expertos locales. Pero no todo el mundo está preocupado: un juez de un tribunal de apelaciones del Reino Unido que utilizó ChatGPT para redactar parte de una sentencia dijo que era “muy útil”.

Para Corvalán, el paso a la IA generativa es la culminación de una transformación de años dentro de la Fiscalía General de la Ciudad de Buenos Aires. En 2017, Corvalán reunió a un grupo de desarrolladores para entrenar un sistema impulsado por inteligencia artificial llamado PROMETEA, cuyo objetivo era automatizar tareas judiciales y acelerar los procedimientos de los casos. El equipo utilizó más de 300.000 fallos y expedientes de casos relacionados con protección de vivienda, bonificaciones de empleo público, ejecución de multas impagas y denegación de licencias de taxi a personas con antecedentes penales.

Los casos en los que se utilizaba no variaban mucho y las resoluciones tendían a estandarizarse. Aún se requería que el personal legal revisara las decisiones del programa. En poco tiempo, la productividad en la oficina aumentó casi un 300%, y los profesionales jurídicos podían procesar alrededor de 490 casos por mes, frente a unos 130.

“Nunca tuvo la intención de reemplazar a los humanos. Siempre hay supervisión. Más bien, es una forma de repensar nuestros trabajos”, afirmó Corvalán.

PROMETEA podría predecir resultados con un 90% de precisión en menos de 20 segundos, según un informe de la fiscalía de la ciudad. La implementación de PROMETEA fue un punto de inflexión, dijo Melisa Rabán, secretaria de la procuraduría general adjunta para asuntos contenciosos administrativos y tributarios.

“Llegaron casos más complejos y pudimos trabajar en ellos adecuadamente en lugar de realizar trabajos automatizables”, dijo Rabán Resto del mundo.

Pero la eficiencia del programa tuvo un costo: cada nueva categoría de delito para la que se implementó PROMETEA requirió capacitación adicional y desarrollo de algoritmos. A principios de este año, Corvalán comenzó a eliminar PROMETEA en favor de ChatGPT. Las 20 sentencias que ha redactado han sido revisadas por un abogado y aprobadas por el fiscal adjunto. El poder judicial ahora está ampliando el programa a otras unidades, incluida la oficina de adquisiciones, que gestiona las quejas de los ciudadanos.

“Este proyecto trata de democratizar la IA generativa”, dijo Sofia Tammaro, empleada de la fiscalía general adjunta y desarrolladora principal del proyecto. Resto del mundo. En Argentina, que se ha quedado atrás del mundo desarrollado en el acceso a avances tecnológicos de vanguardia, eso no es poca cosa.

“Cualquier uso inconsistente, como compartir información confidencial, podría tener un costo legal considerable”.

A los expertos les preocupa que muchos usuarios no tengan la capacitación y la alfabetización digital necesarias para implementar la tecnología que cambia rápidamente, lo que podría generar prejuicios contra las comunidades subrepresentadas, entre otras cuestiones.

“Si bien algunos pueden mitigarse, otros surgirán, porque en el corazón mismo de los desarrolladores hay valoraciones subjetivas que permean el diseño del modelo”, afirmó Barreiro.

El equipo de Corvalán está tratando de frenar algunos de los riesgos asociados con los modelos de IA, incluida la prevalencia del robo y la piratería de datos. “Todavía estamos trabajando en un proceso de anonimización de los datos confidenciales encontrados en los casos”, dijo Tammaro.

Las alucinaciones también podrían plantear importantes riesgos legales. Los casos en los que los sistemas de IA generan información falsa o irrelevante ocurren alrededor del 17% de las veces en herramientas legales de generación de IA, según un estudio de Stanford de 2024. Para Corvalán, estos sólo pueden mitigarse mediante el uso de programas que tengan un menor margen de error, como PROMETEA, para casos sensibles, incluidos los relacionados con la violencia de género y doméstica.

“PROMETEA está integrada en nuestros procesos. Su huella nunca desaparecerá”, dijo Roberto Betancur, director de TI y modernización del Ministerio Público de Buenos Aires. Resto del mundo. “Nos dio una guía para entender cómo se toman las decisiones legales”.

Por ahora, PROMETEA se utiliza para fallos relacionados con el empleo público y para gestionar investigaciones que involucren material de abuso sexual infantil. Es probable que su uso disminuya con el tiempo.

“PROMETEA es como Blockbuster en un mundo donde Netflix está surgiendo. Estas transformaciones están sucediendo a escala global”, afirmó Corvalán.

Continue Reading

Trending