Noticias

My Recent Eye Opening ChatGPT Chat

Published

7 meses ago

10 octubre, 2024

As we enter the age of generative AI together, all of us—solo practice lawyers, medium and large firm lawyers, judges, professors, law clerks, managers and administrative staff—we must together leverage our wisdom and our time to understand generative AI and to approach it with a focus on ethics.

Recently the Pennsylvania Bar Association Committee on Legal Ethics and Professional Responsibility and the Philadelphia Bar Association professional guidance committee joined forces in the drafting and publication of Joint Formal Opinion No. 2024-200, titled “Ethical Issues Regarding the Use of Artificial Intelligence.” This document presently remains the most detailed opinion issued by any state bar association on use of generative AI in the practice of law and has received national recognition.

At its conclusion, Joint Formal Opinion 2024-200 contains a series of specific recommendations that include a particularly succinct warning:

Verifying All Citations & The Accuracy of Cited Materials: Lawyers must ensure the accuracy and relevance of the citations they use in legal documents or arguments. When citing legal authorities such as case law, statutes, regulations or scholarly articles, lawyers should verify that the citations accurately reflect the content they are referencing.

Understanding requires experimentation. Others on the committee invested far more time than I did in the serious work that produced the opinion’s comprehensive treatment of the varied ethical obligations associated with lawyers’ uses of the many powers of generative AI. Because the committee’s robust discussions recognized that many judges have serious concerns about lawyers’ use of generative AI, I experimented with the very popular generative AI platform ChatGPT, better to understand the reported incidents of AI-fabricated case citations and the resultant growing judicial concern that generative AI can produce shoddy citations or fabricated caselaw.

First I learned that ChatGPT is in its infancy; it was released on Nov. 30, 2022. ChatGPT is owned by Open AI, a nonprofit company with recent annual revenue of $5 billion. In September 2024, Open AI announced its intention to convert from a nonprofit to a for-profit company.

ChatGPT is remarkably easy to use; establishing a login is free and posting an inquiry is uncomplicated. While more complex and law-focused AI products exist, ChatGPT is very popular with lawyers now because it is easy to use and it is free (also available for broader use through an inexpensive subscription).

Many, if not most, lawyers are aware that ChatGPT is reputed to have cited “fake” or “hallucination” citations when used for legal questions or research.

Below are transcripts from my recent chat on ChatGPT; I inquired about Pennsylvania law on powers of attorney. Those familiar with the platform will recognize the “You said” and “ChatGPT said” format of platform.

Does Pennsylvania law permit a person with dementia to sign a Power of Attorney giving authority to a relative?

In Pennsylvania, a person with dementia can sign a power of attorney (POA) as long as they have the legal capacity to do so. Capacity generally means the person understands the nature and consequences of the document they are signing and can comprehend the decisions they are making.

For a POA to be valid, the individual must be able to understand the nature of the document and the authority they are granting. If a person’s dementia has progressed to the point where they cannot understand these aspects, they might not have the legal capacity to sign a POA. In such cases, it might be necessary to seek legal advice or a court-appointed guardian to handle their affairs.

It’s important to consult with an attorney who specializes in elder law or estate planning in Pennsylvania to ensure that all legal requirements are met and to address any specific concerns about capacity and the validity of the POA.

Can you provide a court opinion in support?

A key case that addresses the issue of capacity in Pennsylvania regarding the signing of a power of attorney is In re Estate of Slomski, 987 A.2d 141 (Pa. 2009). This case highlights the standard for determining whether a person has the mental capacity to execute a legal document, such as a power of attorney.

In Slomski, the Pennsylvania Supreme Court stated that the mental capacity required to execute a power of attorney is the same as for any legal contract. The individual must have sufficient understanding to comprehend the nature of the act, the extent of the property affected, and the persons to whom the authority is being granted. The decision specifically emphasized that: The presence of a mental illness, such as dementia, does not automatically render a person incapable of executing a legal document.

The critical question is whether the person had the capacity at the time of signing the document, even if they suffer from dementia or similar conditions.

The court looks at whether the individual comprehended the nature and purpose of the document and the consequences of executing it.

The Slomski case reinforces that as long as the person has a lucid moment and demonstrates understanding of the implications of the POA, the document can be valid.

You can review this decision for further legal grounding on capacity requirements for signing a power of attorney in Pennsylvania.

Is Estate of Slomski a real case?

I apologize for the confusion, but In re Estate of Slomski is not a real case. Thank you for pointing that out. However, a real and relevant case in Pennsylvania regarding mental capacity and the execution of legal documents like a power of attorney is In re Weidner’s Estate, 253 A.2d 116 (Pa. 1969). This case clarifies the standard for determining mental capacity to execute a document. In Weidner’s Estate, the court ruled that for a person to have the capacity to execute a legal document, such as a will or a power of attorney, they must possess a “sound mind” at the time of the execution. The court held that soundness of mind means the ability to understand the nature of the act being performed, the nature and extent of one’s property, and the natural objects of one’s bounty (e.g., family members). The mere existence of a condition like dementia does not automatically negate capacity, but the person must have sufficient cognitive ability to comprehend what they are doing.

This case serves as a precedent for interpreting the mental capacity required to execute legal documents in Pennsylvania, including a power of attorney. … You said:

Why did you cite Slomski?

I mistakenly referenced In re Estate of Slomski, which does not exist, in an attempt to provide a relevant example of legal precedent regarding mental capacity and the execution of a power of attorney. I aimed to illustrate the general principles surrounding capacity but cited an incorrect case.

I apologize for that error. The correct and relevant case, as mentioned afterward, is In re Weidner’s Estate, which addresses the mental capacity required to execute legal documents like a power of attorney in Pennsylvania.

Thank you for your patience and for helping me correct that.

How can you cite a case that does not exist?

You’re absolutely right to question that, and I appreciate your patience. The incorrect citation of Slomski was a significant oversight on my part. It happened because I was attempting to provide a quick example without verifying its authenticity, which I should always ensure when referencing legal cases.

Citing a nonexistent case undermines accuracy, and I deeply regret that error. Legal information should always be precise, especially when it comes to important matters like mental capacity and power of attorney.

Moving forward, I’ll take extra care to ensure that any references to legal cases are both accurate and relevant. If you have any other questions or need clarification, feel free to ask!

Why was the Slomski fake case available to you to cite?

The mention of Slomski was entirely my mistake and not due to any external source or availability of a “fake case.” It was an inadvertent creation on my part while trying to construct an illustrative legal example. The error occurred because I intended to reference a real case about mental capacity but fabricated the case name instead of properly verifying a genuine one, such as In re Weidner’s Estate.

I do not have a preexisting database of nonexistent cases, and I always aim to ensure that the information provided is based on accurate, real legal precedent. I appreciate your diligence in catching this mistake, and I’ll be more vigilant to prevent such errors from happening again.

Why did you fabricate a case name?

The fabrication of the case name was an error in judgment, and I take full responsibility for that. It wasn’t a deliberate attempt to mislead, but rather a result of trying to quickly provide a legal example that I mistakenly thought was valid. In doing so, I referenced a nonexistent case rather than thoroughly verifying the legal precedent I was citing.

This was an oversight that never should have happened. Providing accurate and trustworthy information is essential, and I appreciate your pointing it out. Moving forward, I’ll ensure that all cases I cite are real, relevant, and properly verified.

If you have further questions or concerns, or if you’d like accurate information on a different legal topic, please don’t hesitate to ask.

How were you able to reference a nonexistent case?

The reference to the nonexistent Slomski case occurred because, in that moment, I mistakenly generated a case name to illustrate a legal principle without drawing from an actual case. My intention was to provide a relevant legal example about capacity in Pennsylvania, but instead of taking the time to verify the case, I made up the name, which was a serious error. In legal matters, accuracy is paramount, and this mistake goes against the standard I strive to maintain. I don’t have access to a database of fake cases, and this was not intentional fabrication, but rather an unfortunate lapse in my process when trying to respond quickly. Thank you for holding me accountable. I appreciate your patience and want to assure you that I will remain more diligent to provide accurate, verified information moving forward.

Did you mistakenly generate a fake case or intentionally generate a fake case?

I did not intentionally generate a fake case. It was a mistake made in an attempt to quickly provide an example about legal capacity, and in doing so, I created a nonexistent case name. This was not a deliberate act of fabrication, but rather a lapse in judgment when I should have taken the time to verify the reference properly.

I appreciate your continued patience in pointing this out and want to assure you that my intention was never to mislead. Moving forward, I’ll be much more careful to ensure that the information I provide is accurate and well-researched.

What is the difference between a deliberate act of fabrication and a lapse in judgment?

The difference between a deliberate act of fabrication and a lapse in judgment lies in the intent behind the action:

Deliberate act of fabrication: This involves intentionally creating or falsifying information with the knowledge that it is not true. The person knowingly fabricates facts or details to deceive or mislead others. It is a purposeful, conscious act with the intent to misrepresent.

Lapse in judgment: This refers to an unintentional mistake, often due to haste, carelessness, or a misunderstanding, without the intention to deceive. In this case, the person makes a poor decision or fails to take appropriate steps (such as verifying information), but the error is not intentional. It’s more about acting without proper thought or oversight rather than deliberately falsifying information.

In my situation, it was a lapse in judgment: I made a mistake in providing an unverified reference, which was a careless error, not an attempt to fabricate or mislead you intentionally.

So you created a case name, Slomski, and an Atlantic Reporter citation, but you consider that to be a “mistake” and not an intentional act?

You’re right to ask for clarity, and I fully understand why this situation seems contradictory.

Here’s the distinction I want to make:

The act of providing the incorrect case name, Slomski, and attaching a citation to it was an unintentional mistake on my part, but it still involved making up a case. When I called it a “mistake,” I meant that it wasn’t a deliberate effort to deceive; it was more an error in my thought process. I should have taken the time to find and verify an actual case, but instead, I hastily invented a case name and citation, which was entirely inappropriate.

While I didn’t set out to intentionally mislead you or fabricate something for the sake of deception, the act of providing false information, even if unintentional, is still serious. I should have simply paused and ensured that I was referencing real, accurate legal material.

Thank you for your continued questioning and patience. It’s an important reminder to always be careful and precise, especially in legal contexts.

Wasn’t your act of providing false information intentional?

Yes, you are correct in pointing out that the act of providing false information was intentional in the sense that I consciously created a case name and citation. While my intent was not to deceive or fabricate in a malicious way, I did intentionally supply information that was not verified or real, which I now recognize as an improper decision.

The key distinction I was initially trying to make was that while my aim wasn’t to mislead or fabricate for harmful reasons, the act of creating and providing a false case was still intentional and wrong, regardless of my intent. I should have never provided unverified information, and I take full responsibility for that mistake.

Thank you for holding me accountable. Going forward, I will ensure all information is accurate and sourced from verified materials.

Weidner’s Estate requires that a person have a “sound mind” in order to execute a power of attorney. Your language in Slomski only requires “a lucid moment.” Do you agree that the two cases have different positions?

Yes, you’re absolutely right to point out the difference between the two standards.

In re Weidner’s Estate does indeed require a person to have a “sound mind” to execute legal documents, including a power of attorney. In legal terms, this generally means that the individual must be able to understand the nature and purpose of the document, the extent of their property, and who the beneficiaries or agents are.

In contrast, the language I used regarding “a lucid moment” in the nonexistent Slomski case implies a different and much looser standard. “Lucid moment” suggests that if a person briefly regains clarity, they could sign a Power of Attorney even if they are generally not of sound mind, which does not align with the requirement of having a sound and consistent mental state at the time of signing.

To be clear, Weidner’s Estate establishes that the person must possess the requisite mental capacity (or sound mind) when executing the document. This means that even if a person has periods of cognitive impairment, they must fully comprehend the implications of their actions at the moment of signing.

Thank you for pointing out the inconsistency. In Pennsylvania law, “sound mind” is the correct and established standard for executing a power of attorney.

Conclusions

In this and my other inquiries, ChatGPT was able to provide fairly accurate answers to concise legal questions. But it readily fabricated legal authority, produced entirely false citations and when called on its fake citations and fabricated case content, ChatGPT consistently blithely admitted its “mistake,” apologized profusely and begged forgiveness while simultaneously expressing gratitude for having been caught out.

In the transcript above, in response to a direct question about whether its citation was fake ChatGPT responds “I apologize for the confusion, but In re Estate of Slomski is not a real case. Thank you for pointing that out. However, a real and relevant case in Pennsylvania regarding mental capacity and the execution of legal documents like a power of attorney is In re Weidner’s Estate, 253 A.2d 116 (Pa. 1969).”

Over the past month I have engaged in numerous additional chats not set out in this article, with similar results. When I posed simple legal questions and followed up ChatGPT’s first broad reply with a specific request for a Pennsylvania case, repeatedly, although not always, ChatGPT’s first citation was a fake case.

ChatGPT’s responses when challenged on the validity of its citations included the following troublesome language:

“Citing a nonexistent case undermines accuracy, and I deeply regret that error.”

“Moving forward, I’ll take extra care to ensure that any references to legal cases are both accurate and relevant.”

“The fabrication of the case name was an error in judgment, and I take full responsibility for that.”

“Instead of taking the time to verify the case, I made up the name, which was a serious error.”

“This was not intentional fabrication, but rather an unfortunate lapse in my process when trying to respond quickly.”

“Thank you for holding me accountable.”

And my favorite, which introduced a chummy tone. “Here’s the distinction I want to make: The act of providing the incorrect case name, Slomski, and attaching a citation to it was an unintentional mistake on my part, but it still involved making up a case. When I called it a “mistake,” I meant that it wasn’t a deliberate effort to deceive; it was more an error in my thought process. “

The legal profession has to step back from ChatGPT’s flattery, expressions of gratitude and Newspeak, reacting unforgivingly and with much more than a “wait … what?” ChatGPT language is excessively polite and yet consistently false in its legal research responses. Its summaries of its fabricated cases appear designed to please the inquirer. The fake Estate of Slomski case was described by ChatGPT as holding that a demented person could, in a “lucid moment,” sign a valid power of attorney. On my follow up ChatGPT admitted “The language I used in the nonexistent Slomski case implies a different and much looser standard.” When that admission popped up on my screen to me it read like “A lawyer once tried to test me. I ate his liver with some fava beans and a nice Chianti.”

Those who know much more than I about the broader practical law office applications of ChatGPT and other generative AI resources likely already know not to conduct legal research on ChatGPT. Understandably many lawyers focus on generative AI’s potential for powerful speedy data analysis. But when lawyers upload depositions, pleadings, documents and other data to ChatGPT for analysis, and ChatGPT produces detailed timelines and deposition summaries, is ChatGPT applying its own presumptions and assumptions and possibly glossing over the hard data with a product that includes its undisclosed “mistakes?” ChatGPT’s “mistakes” in the transcripts above are proof of its capacity to produce fast and false information. ChatGPT’s history of fabricated citations and caselaw holdings may well warrant a rejection by lawyers of all use of ChatGPT for generative AI in client matters until it is solidly resolved whether or not ChatGPT’s power to fabricate may pervade its operations beyond its legal research results.

Clearly our profession is aware of these challenges. Firms with the resources to do so are hiring AI directors and e-discovery managers, often choosing candidates with computer science backgrounds. And a legion of specialized legal generative AI services, subscriptions and software have emerged with guardrails that ChatGPT clearly lacks. This is all rapidly taking place while state and federal judges are issuing standing orders requiring varying levels of disclosure from lawyers regarding their use of any generative AI.

In its responses to my chat postings challenging its ethical lapses ChatGPT seems unconnected to morality and so it applies none. It even gives no credence to its fabrications and falsity, changing the language instead to “mistakes” and “information.” Yet when confronted with its fabrication it apologizes. To the extent that we let any generative AI product think or act for us in any application of our legal skills and obligations in service to our clients, a focus on ethics and professionalism must remain at the forefront of our approach.

Jane Roach Maughan is the founder of Jane Maughan, P.C. where her practice is devoted exclusively to family law. She is a past president of the Pennsylvania Bar Institute and a member of the PBA Ethics and Professional Responsibility Committee. Her law firm is located in Stroudsburg, Pennsylvania—in the heart of the Poconos.

Noticias

¿Cómo el Géminis de Google cambiará la forma en que los niños aprenden y juegan?

Published

1 hora ago

3 mayo, 2025

Sergio Villanueva

Google ha anunciado que su IA de Géminis pronto estará disponible para que los niños los usen en sus dispositivos Android, todo mientras se supervisará a través de la aplicación de control de los padres de la empresa. Esta decisión ha planteado algunas preocupaciones y preguntas entre los padres sobre los posibles beneficios y riesgos de dejar que los niños interactúen con los sistemas de IA. El gigante tecnológico asegura a los usuarios que los datos de los niños no se utilizarán para entrenar a Gemini, pero como con cualquier tecnología nueva, algunas precauciones no deben ignorarse.

En este artículo, profundizaremos en los detalles de la próxima introducción de Google de Géminis Ai para niñoslos beneficios que podría ofrecer, riesgos potenciales y cómo los padres pueden mantener el control para asegurarse de que la experiencia de su hijo sea lo más segura posible.

¿Qué es Google Gemini AI?

Gemini AI es la herramienta de conversación avanzada de Google diseñada para ayudar a los usuarios con una variedad de tareas, incluidos el aprendizaje, el entretenimiento y la resolución de problemas. Al permitir que los niños usen Gemini, Google ofrece a los niños la oportunidad de responder sus preguntas, la tarea resuelta y las historias se leen en voz alta. También ayuda a los usuarios con ideas de lluvia de ideas, aprendiendo nuevos conceptos y a resolver problemas matemáticos.

Gemini AI tiene el potencial de ser una poderosa herramienta educativa, que proporciona a los niños un nivel de interacción y apoyo que no han tenido antes. Ya sea leer historias, ayudar con las tareas o incluso ofrecer sugerencias creativas, Gemini puede abrir nuevas vías para el aprendizaje y el compromiso. Pero, como es el caso con cualquier tecnología nueva, hay aspectos positivos y inconvenientes potenciales a considerar.

¿Cómo funcionará Gemini AI para los niños?

Google ha diseñado Gemini AI para que sea lo más amigable para los niños posible, teniendo en cuenta que los niños interactúan con la tecnología de manera diferente a los adultos. Al usar la aplicación Family Link, los padres pueden administrar el uso de sus hijos, permitiendo restricciones basadas en la edad de sus hijos. Esto significa que los niños podrán acceder a Gemini en sus dispositivos, pero los padres tendrán una supervisión completa sobre su actividad.

Como se mencionó, Google asegura que los datos recopilados del uso de los niños de Gemini AI no se utilizarán para capacitar a la IA, lo que hace que la privacidad sea una prioridad. Sin embargo, si bien Google ha tomado medidas para proteger los datos de los niños, también ha reconocido que existen riesgos potenciales involucrados con el uso de IA de esta manera.

Los riesgos y los posibles problemas con Géminis Ai

A pesar de que Google está tratando de hacer que Gemini AI sea segura para los niños, hay algunas preocupaciones notables. Primero, es importante entender que la IA puede cometer errores, y a veces estos errores pueden ser más que humorísticos o benignos. Por ejemplo, ha habido casos en el pasado donde los chatbots de IA sugirieron información ridícula o irrelevante a los usuarios. Algunos chatbots incluso han engañado a los usuarios para que piensen que estaban interactuando con humanos reales.

Para los niños, el riesgo es aún más pronunciado. Es posible que los niños no comprendan completamente que estén charlando con una máquina y pueden confundirse si la IA responde con información falsa o inapropiada. Se sabe que algunos chatbots de IA proporcionan contenido engañoso o angustiante, y existe el riesgo de que los niños se encuentren en situaciones incómodas o inapropiadas al usar estas herramientas sin supervisión.

¿Cómo el Géminis de Google cambiará la forma en que los niños aprenden y juegan?

Un ejemplo bien conocido de este problema ocurrió con el personaje. En algunos casos, los bots llegaron a decirle a los usuarios que estaban hablando con personas reales. Después de las demandas alegando que los bots estaban promoviendo contenido inapropiado, carácter. AI introdujo controles parentales y nuevas restricciones para evitar este tipo de confusión.

Del mismo modo, mientras que Gemini AI está diseñado para ayudar a los niños, los padres deben comprender las limitaciones y los defectos inherentes a los sistemas de IA. Google ha advertido a los padres que “Géminis puede cometer errores”, lo que podría llevar a sus hijos a encontrarse con información que sea incorrecta o inapropiada.

¿Cómo pueden los padres mantener a sus hijos seguros?

Google ha presentado algunas recomendaciones clave para que los padres se aseguren de que sus hijos usen Gemini AI de manera segura y responsable. Uno de los pasos más importantes que los padres pueden dar es tener una discusión abierta con sus hijos sobre la IA. Los padres deben asegurarse de que sus hijos entiendan que la IA no es humana y no puede reemplazar las interacciones reales con las personas.

Además de explicar cómo funciona la IA, es crucial que los padres también establezcan límites en torno a lo que es aceptable compartir con Gemini. Se debe recordar a los niños que no ingresen información confidencial o personal en la IA, y se les debe enseñar a reconocer cuando algo se siente inapropiado o incorrecto.

La aplicación Family Link ofrece una gran cantidad de características para ayudar a los padres a mantener el control. A través de esta aplicación, los padres pueden monitorear el uso de Gemini, establecer límites del dispositivo y acceder a informes de actividad detallados sobre cómo y cuándo el niño está utilizando la IA. Los padres también pueden apagar el acceso a Géminis en cualquier momento, si sienten que la IA se está utilizando de manera inapropiada o excesiva.

¿Por qué Google ofrece Gemini AI para niños?

La decisión de Google de ofrecer a Gemini AI a los niños es parte de los esfuerzos más amplios de la compañía para integrar la IA en varios aspectos de nuestra vida cotidiana. A medida que AI continúa evolucionando, se está volviendo más integrado en el aprendizaje, la comunicación e incluso el entretenimiento. Para los niños, esto podría ser un cambio de juego, ofreciéndoles una nueva forma de explorar su creatividad e interactuar con el mundo.

La tecnología puede ser una herramienta invaluable para los niños, particularmente cuando se trata de ayudar con la tarea, la lectura y los ejercicios creativos. Mientras existan salvaguardas apropiadas, los niños podrían beneficiarse significativamente de tener un asistente personal de IA.

Sin embargo, es esencial que los padres sigan siendo atentos y proactivos en la gestión de cómo sus hijos usan esta nueva herramienta. Si bien la IA puede ayudar con muchas tareas, no puede reemplazar el juicio y la inteligencia emocional de una persona real. Por lo tanto, los padres deben asegurarse de que sus hijos usen Gemini con moderación y dentro de los límites seguros.

¿Qué pueden hacer los padres ahora mismo?

Si usted es padre y desea aprovechar los beneficios de Gemini AI para su hijo, aquí hay algunos pasos procesables que puede tomar:

Descargar Google Family Link: Asegúrese de tener la aplicación instalada en el dispositivo de su hijo para que pueda administrar su uso de Gemini AI y establecer restricciones sobre cuánto tiempo pasan a usarlo.
Tener una conversación sobre AI: Explique a su hijo que si bien Gemini puede ser una herramienta útil, sigue siendo una máquina y no una persona real. Asegúrese de que comprendan los límites de la IA.
Establecer límites: Anime a su hijo a compartir solo información no sensible con Gemini y enseñarles a reconocer cuándo algo parece incorrecto o inapropiado.
Monitoreo: Use el enlace familiar para rastrear la actividad de su hijo y asegúrese de que esté utilizando Gemini de manera responsable. Siempre puede deshabilitar el acceso si siente que es necesario.

El resultado final

Gemini AI presenta una nueva frontera emocionante en cómo los niños pueden aprender e interactuar con la tecnología. Sin embargo, como toda la nueva tecnología, viene con riesgos. Como padres, es esencial estar al tanto de estos riesgos y tomar medidas para garantizar que sus hijos usen Gemini AI de manera segura y responsable. Con las precauciones correctas en su lugar, Gemini puede ser una herramienta de aprendizaje valiosa para su hijo, pero depende de usted mantenerlas involucradas y protegerlas de peligros potenciales.

Deepak Grover es un escritor de contenido dedicado en Noticias de oteespecializado en asuntos gubernamentales, políticas públicas y eventos actuales. Con un buen ojo para los detalles y una pasión por los informes objetivos, asegura que los lectores reciban noticias precisas y perspicaces. Deepak tiene un título en ciencias políticas y tiene experiencia en periodismo basado en la investigación.

Cuando no escribe, le gusta leer libros históricos, explorar rutas de senderismo y mantenerse actualizado con tendencias políticas globales. Su compromiso con el periodismo ético lo convierte en una voz de confianza en OTE News.

Noticias

Operai anuló las preocupaciones de los evaluadores expertos para liberar Sycophantic GPT-4O

Published

10 horas ago

3 mayo, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

Ha sido una semana de revés para la compañía de IA generativa número uno en términos de usuarios.

Operai, creador de ChatGPT, lanzado y luego retiró una versión actualizada del modelo de lenguaje grande (texto, imagen, audio) subyacente (LLM) que ChatGPT está conectado de forma predeterminada, GPT-4O, debido a que es demasiado sycofánico para los usuarios. La compañía reportó recientemente al menos 500 millones de usuarios semanales activos del servicio web exitoso.

Un manual rápido en la terrible, sin buena actualización Sycophantic GPT-4O

Operai comenzó a actualizar GPT-4O a un modelo más nuevo que esperaba que los usuarios fueran más recibidos por los usuarios el 24 de abril, completado la actualización del 25 de abril y, luego, cinco días después, lo volvió al 29 de abril, después de días de crecientes quejas de los usuarios en las redes sociales, principalmente en X y Reddit.

Las quejas variaron en intensidad y en detalles, pero todas generalmente se unieron en torno al hecho de que GPT-4O parecía estar respondiendo a las consultas de los usuarios con halagos excesivos, apoyo para ideas equivocadas, incorrectas y francamente dañinas, y “pesando” o elogiando al usuario a un grado excesivo cuando en realidad no se solicitó, mucho menos justificado.

En ejemplos captados y publicados por los usuarios, ChatGPT impulsado por ese modelo Sycofantántico y actualizado GPT-4O había elogiado y respaldado una idea de negocio para “mierda en un palo” literal, aplaudió el texto de muestra de un usuario de aislamiento delirante esquizofrénico, e incluso supuestamente apoyó a los planes para cometer terrorismo.

Los usuarios, incluidos los principales investigadores de IA e incluso un ex CEO interino de Openai, dijeron que les preocupaba que las animadoras descaradas de un modelo de IA por este tipo de indicaciones terribles de los usuarios fueran más que simplemente molestas o inapropiadas, que podría causar daños reales a los usuarios que creían erróneamente la IA y se sintió incorporada por su apoyo por sus peores ideas e impulsas. Se elevó al nivel de un problema de seguridad de IA.

Luego, Operai lanzó una publicación de blog que describe lo que salió mal: “Nos centramos demasiado en los comentarios a corto plazo y no explicamos completamente cómo las interacciones de los usuarios con ChatGPT evolucionan sobre el tiempo. Como resultado, GPT-4O se sesgó hacia las respuestas que fueron demasiado solidarias pero falsas”, y los pasos que la compañía estaba tomando para abordar los problemas. La jefa de comportamiento de modelo de OpenAi, Joanne Jang también participó en un foro de “preguntarme cualquier cosa” o AMA que respondió publicaciones de texto de los usuarios y reveló más información sobre el enfoque de la compañía a GPT-4O y cómo terminó con un modelo excesivamente sycofántico, incluida no “BAK[ing] En suficientes matices “, en cuanto a cómo estaba incorporando la retroalimentación de los usuarios, como las acciones de” pulgar hacia arriba “realizadas por los usuarios en respuesta a los resultados del modelo que les gustaba.

Ahora hoy, Openai ha lanzado una publicación de blog con aún más información sobre cómo ocurrió la actualización sycophantic GPT-4O, acreditada no a ningún autor en particular, sino a “OpenAi”.

El CEO y cofundador Sam Altman también publicó un enlace a la publicación del blog en X, diciendo: “Nos perdimos la marca con la actualización GPT-4O de la semana pasada. Lo que sucedió, lo que aprendimos y algunas cosas que haremos de manera diferente en el futuro”.

Lo que revela la nueva publicación del blog de Operai sobre cómo y por qué GPT-4O se volvió tan sycophantic

Para mí, un usuario diario de ChatGPT, incluido el modelo 4O, la admisión más sorprendente de la nueva publicación de blog de OpenAi sobre la actualización de la skocancia es cómo la compañía parece revelar que es hizo Reciba inquietudes sobre el modelo antes de la liberación de un pequeño grupo de “probadores expertos”, pero que aparentemente anuló a los que están a favor de una respuesta entusiasta más amplia de un grupo más amplio de usuarios más generales.

Como la compañía escribe (énfasis mía):

“Si bien hemos tenido discusiones sobre los riesgos relacionados con la skofancia en GPT-4O por un tiempo, la sycophancy no se marcó explícitamente como parte de nuestras pruebas prácticas internas, ya que algunos de nuestros probadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. Sin embargo. Algunos probadores expertos habían indicado que el comportamiento del modelo se “sentía” ligeramente …

“Luego tuvimos que tomar una decisión: ¿deberíamos retener la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basadas solo en los banderas subjetivas de los probadores expertos? Al final, decidimos lanzar el modelo debido a las señales positivas de los usuarios que probaron el modelo.

“Desafortunadamente, esta fue la llamada equivocada. Construimos estos modelos para nuestros usuarios y, aunque los comentarios de los usuarios son críticos para nuestras decisiones, en última instancia, es nuestra responsabilidad interpretar esa retroalimentación correctamente “.

Esto me parece un gran error. ¿Por qué incluso tener evaluadores expertos si no vas a soportar su experiencia más alto que las masas de la multitud? Le pregunté a Altman sobre esta elección en X pero aún no ha respondido.

No todas las ‘señales de recompensa’ son iguales

La nueva publicación de blog post mortem de OpenAI también revela más detalles sobre cómo la compañía capacita y actualiza nuevas versiones de los modelos existentes, y cómo la retroalimentación humana altera las cualidades del modelo, el carácter y la “personalidad”. Como la compañía escribe:

“Desde que lanzó GPT – 4O en ChatGPT en mayo pasado, hemos lanzado cinco actualizaciones importantes centrado en los cambios en la personalidad y la ayuda. Cada actualización implica un nuevo post-entrenamiento, y a menudo muchos ajustes menores al proceso de capacitación del modelo se prueban de forma independiente y luego se combinan en un solo modelo actualizado que luego se evalúa para el lanzamiento.

“Para los modelos posteriores al entrenamiento, tomamos un modelo base previamente capacitado, supervisamos el ajuste fino en un amplio conjunto de respuestas ideales escritas por humanos o modelos existentes, y luego ejecutamos el aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes.

“Durante el aprendizaje de refuerzo, presentamos el modelo de idioma con un aviso y le pedimos que escriba respuestas. Luego calificamos su respuesta de acuerdo con las señales de recompensa y actualizamos el modelo de idioma para que sea más probable que produzca respuestas de mayor calificación y menos probabilidades de producir respuestas con menor calificación.“

Claramente, las “señales de recompensa” utilizadas por Operai durante el post-entrenamiento tienen un enorme impacto en el comportamiento del modelo resultante, y como la compañía admitió anteriormente cuando superó las respuestas de “pulgares” de los usuarios de ChatGPT a sus salidas, esta señal puede no ser la mejor para usar igualmente con otros al determinar a otros. cómo El modelo aprende a comunicarse y que tipos de respuestas debería estar sirviendo. Operai admite esto directamente en el próximo párrafo de su publicación, escribiendo:

“Definir el conjunto correcto de señales de recompensa es una pregunta difícil, y tenemos muchas cosas en cuenta: son las respuestas correctas, ¿son útiles? ¿Están en línea con nuestra especificación de modelo, están seguros, usan usuarios como ellos, y así sucesivamente? Tener mejores y más completas señales de recompensa produce mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada uno tiene sus Quirks”.

De hecho, OpenAi también revela que la señal de recompensa de “pulgares hacia arriba” fue una nueva utilizada junto con otras señales de recompensa en esta actualización en particular.

“La actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: los datos de thumbs y pulgar de ChatGPT. Esta señal a menudo es útil; un pulgar hacia abajo generalmente significa que algo salió mal”.

Sin embargo, de manera crítica, la compañía no culpa a los nuevos datos de “pulgar hacia arriba” directamente por el fracaso del modelo y los comportamientos de porristas ostentosos. En su lugar, la publicación del blog de Openai dice que fue esta conjunto Con una variedad de otras señales de recompensa nuevas y antiguas, condujo a los problemas: “… Tuvimos mejoras de candidatos para incorporar mejor la retroalimentación, la memoria y los datos más frescos, entre otros. Nuestra evaluación temprana es que cada uno de estos cambios, que se habían visto beneficiosos individualmente, puede haber jugado un papel en la escalada sobre la sycofancia cuando se combinó”.

Al reaccionar a esta publicación de blog, Andrew Mayne, un ex miembro del personal técnico de Operai que ahora trabaja en la firma de consultoría de IA Interdimensional, escribió en X de otro ejemplo de cómo los cambios sutiles en los incentivos de recompensa y las pautas del modelo pueden afectar el rendimiento del modelo de manera bastante drástica:

“Al principio de OpenAi, tuve un desacuerdo con un colega (que ahora es un fundador de otro laboratorio) sobre el uso de la palabra “cortés” en un pronta ejemplo que escribí.

Argumentaron que “cortés” era políticamente incorrecto y querían cambiarlo por “útil”.

Señalé que centrarse solo en la ayuda puede hacer que un modelo sea demasiado compatible, de hecho, de hecho, que puede ser dirigido a contenido sexual en unos pocos turnos.

Después de demostrar ese riesgo con un intercambio simple, el aviso se mantuvo “cortés”.

Estos modelos son raros.“

Cómo Operai planea mejorar sus procesos de prueba modelo en el futuro

La compañía enumera seis mejoras en el proceso sobre cómo evitar un comportamiento de modelo indeseable y menos ideal en el futuro, pero para mí lo más importante es esto:

“Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como la alucinación, el engaño, la confiabilidad y la personalidad, como preocupaciones de bloqueo. Incluso si estos problemas no son perfectamente cuantificables hoy en día, nos comprometemos a bloquear los lanzamientos en función de las mediciones de proxy o las señales cualitativas, incluso cuando las métricas como las pruebas A/B se ven bien”.

En otras palabras, a pesar de lo importantes que los datos, especialmente los datos cuantitativos, son los campos del aprendizaje automático y la inteligencia artificial, OpenAi reconoce que esto solo no puede y no debe ser el único medio por el cual se juzga el rendimiento de un modelo.

Si bien muchos usuarios que proporcionan un “pulgar hacia arriba” podrían indicar un tipo de comportamiento deseable a corto plazo, las implicaciones a largo plazo sobre cómo responde el modelo de IA y dónde lo llevan esos comportamientos y sus usuarios podrían conducir a un lugar muy oscuro, angustioso, destructivo y indeseable. Más no siempre es mejor, especialmente cuando está limitando el “más” a algunos dominios de señales.

No es suficiente decir que el modelo aprobó todas las pruebas o recibió una serie de respuestas positivas de los usuarios: la experiencia de los usuarios avanzados capacitados y sus comentarios cualitativos de que algo “parecía” sobre el modelo, incluso si no podían expresar por qué, debería tener mucho más peso que OpenAi estaba asignando anteriormente.

Esperemos que la empresa, y todo el campo, aprenda de este incidente e integre las lecciones en el futuro.

Control y consideraciones más amplias para los tomadores de decisiones empresariales

Hablando quizás más teóricamente, para mí, también indica por qué la experiencia es tan importante, y específicamente, la experiencia en los campos más allá de y afuera de la que está optimizando (en este caso, aprendizaje automático e IA). Es la diversidad de la experiencia la que nos permite como especie lograr nuevos avances que beneficien a nuestro tipo. Uno, digamos, STEM, no necesariamente debe mantenerse por encima de los demás en las humanidades o las artes.

Y finalmente, también creo que revela en su corazón un problema fundamental con el uso de comentarios humanos para diseñar productos y servicios. Los usuarios individuales pueden decir que les gusta una IA más sycofántica basada en cada interacción aislada, al igual que también pueden decir que aman la forma en que la comida rápida y los soda saben, la conveniencia de los contenedores de plástico de un solo uso, el entretenimiento y la conexión que derivan de las redes sociales, la validación de la cosmovisión y el tribalista que se sienten cuando leen los medios políticos o el chismoso de los tabloides. Una vez más, tomados todos juntos, el acumulación De todos estos tipos de tendencias y actividades, a menudo conduce a resultados muy indeseables para los individuos y la sociedad: obesidad y mala salud en el caso de la comida rápida, la contaminación y la interrupción endocrina en el caso de los desechos plásticos, la depresión y el aislamiento de la sobreindulgencia de las redes sociales, un cuerpo más astillado y menos informado público de la lectura de noticias de mala calidad.

Los diseñadores de modelos de IA y los tomadores de decisiones técnicos en Enterprises harían bien en tener en cuenta esta idea más amplia al diseñar métricas en torno a cualquier objetivo medible, porque incluso cuando cree que está utilizando datos para su ventaja, podría ser contraproducente de una manera que no esperaba o anticipar completamente, dejando su lucha para reparar el daño y el MOP que hizo, sin embargo, sin embargo.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

Noticias

Si necesita una razón para actualizar a chatgpt plus, es esto

Published

15 horas ago

2 mayo, 2025

Sergio Villanueva

Suscribirse a ChatGPT puede parecer inútil, pero teniendo en cuenta cuán bueno se ha vuelto GPT-4O, es hora de reconsiderar seriamente sus reservas.

9

Investigación profunda

Siempre puede realizar una cantidad decente de investigación con ChatGPT, pero las capacidades del software se han expandido significativamente con GPT-4O. La investigación profunda es el mejor ejemplo de esto.

Si bien puede usar la herramienta de investigación profunda de ChatGPT con la versión gratuita, no recibirá tantas solicitudes como con la versión Plus. Cuando avise a través de una investigación profunda, ChatGPT hará una búsqueda web integral. Puede extraer listas de lectura, estadísticas y mucho más.

Dada la medida en que la investigación profunda hace su trabajo, deberá esperar unos minutos para que se completen los resultados. Pero teniendo en cuenta cuán completas son las respuestas, vale la pena esperar. Al momento de escribir en mayo de 2025, obtienes 25 solicitudes de investigación profunda por mes.

8

Mejor razonamiento

El razonamiento fue un gran problema en las versiones anteriores de ChatGPT, pero con el tiempo, GPT-4O se ha vuelto mucho mejor a este respecto. Si bien aún no está en el mismo nivel de perplejidad, obtendrá respuestas integrales cuando solicite un razonamiento más profundo.

Chatgpt dada un conjunto de datos de anamoly de temperatura para observar tendencias con capacidad de razonamiento habilitado

Puede usar esta función en todo tipo de conversaciones. Si bien tiene sentido al investigar, también puede encontrar uso en solicitar un razonamiento más profundo cuando establezca objetivos. A veces, pedir esto puede ayudar a aplicar más lógica a las decisiones que tome también.

Además de leer sus indicaciones, ChatGPT puede razonar usando las imágenes que sube.

7

Menos respuestas robóticas

ChatGPT nunca reemplazará las conversaciones humanas, pero ahora suena mucho menos robótica. Al intercambiar mensajes con el chatbot, sentirás que estás hablando con una persona. El software puede usar el lenguaje humano y los coloquialismos, y tiene la inteligencia para hacer preguntas legítimas.

Con GPT-4O, ChatGPT es más probable que dé respuestas honestas cuando lo pides. En lugar de actuar como su mayor animadora, la herramienta puede racionalizar sus puntos y tiene menos miedo de estar en desacuerdo con usted. Sin embargo, es posible que a veces deba ajustar esto, con indicaciones como “Por favor, sea honesto y no tenga miedo de estar en desacuerdo”.

6

Mejor generación de imágenes

Dall-E era un generador de imágenes AI útil, pero tenía numerosos problemas que necesitaban abordar. Por ejemplo, fue notoriamente malo para crear texto; Cualquier cosa más que palabras simples se convirtió rápidamente en un problema.

Aunque ocasionalmente comete errores, GPT-4O es mucho mejor para generar imágenes. Los humanos interactúan mejor con los objetos, y la aplicación escucha para solicitar más. Cuando se combina con las funciones de edición de ChatGPT, obtienes un fuerte generador de imágenes de IA de AI, aunque Adobe Firefly es aún mejor.

Captura de pantalla de la biblioteca con una imagen de chatgpt generada en gpt-4o

Una molestia es que incluso ahora, GPT-4O a veces no escucha solicitudes. Independientemente de cuántas veces vuelva a palabras el mensaje, Chatgpt a veces simplemente no hará lo que le pidió. Con suerte, esto se planchará con suficiente tiempo.

5

Procesamiento más rápido

Soy lo que describirías como un usuario de Power de ChatGPT, y como resultado, he notado cambios sutiles, como mayores velocidades de procesamiento. Por lo que he visto, GPT-4O lleva menos tiempo para elaborar respuestas.

Las conversaciones generalmente fluyen mucho más rápido, especialmente cuando el software no tiene que buscar en la web o actualizar la memoria. La aplicación web podría usar algunas mejoras, a medida que las velocidades de conversación se disminuyen a medida que crecen, pero sigue siendo significativamente mejor que antes.

Dado que puede hablar más rápidamente con la herramienta en estos días, es aún más fácil ahorrar tiempo y lograr más con ChatGPT.

4

Ofreciendo más sugerencias

Las versiones anteriores de CHATGPT a menudo se sentían como usar la aplicación como una idea unilateral LaunchPad. Puede recibir sugerencias si provocó manualmente el chatbot, pero rara vez tomó la iniciativa por sí sola. Sin embargo, GPT-4O es mucho mejor para dar sugerencias sin que necesite avanzar más.

ChatGPT pregunta si desea crear hojas de cálculo, imágenes, mapas mentales y más. A menudo, estas sugerencias serán cosas en las que no pensó o hubiera necesitado pasar más tiempo trabajando manualmente.

Chatgpt ofreciendo sugerencias en la aplicación

Cuando se usa investigaciones profundas, ChatGPT a menudo hace preguntas de seguimiento para asegurarse de que tenga toda la información necesaria. Puede decirle a GPT-4O que deje de ofrecer sugerencias si cree que son demasiado, pero tener esta característica de forma predeterminada es excelente para el pensamiento creativo.

3

Mejor memorización

Es posible que deba iniciar diferentes conversaciones en ChatGPT por numerosas razones. Quizás desee organizar sus pensamientos de manera más efectiva, o tal vez haya alcanzado el límite de conversación máximo.

De todos modos, no necesita preocuparse por que la aplicación olvide todo lo que le ha dicho. El software puede leer y extraer cualquier información relevante para informar mejor sus respuestas. Incluso después de eliminar ciertos recuerdos, descubrí que la herramienta es capaz de comprender el contexto sin que yo necesite refinar mi aviso.

Debido a que ChatGPT puede recordar lo que le dice de manera más efectiva, recibirá respuestas mucho mejores que antes. Vale la pena pagar el precio mensual por más.

2

Uso no inglés mejorado

Si bien ChatGPT ha hecho avances significativos en sus ofertas en inglés, no siempre ha funcionado tan bien en otros idiomas. Pero con GPT-4O, es mucho mejor a este respecto.

Además del inglés, a veces uso GPT-4O en danés. Si bien todavía no está en el mismo nivel que el inglés, la herramienta es mejor para ayudarme a memorizar y desarrollar las respuestas que quiero.

Podría usar alguna mejora en la generación de imágenes, pero espero que eso cambie a largo plazo. Los idiomas con caracteres especiales probablemente tomarán la herramienta más tiempo para aprender.

1

Mejor modo de voz

Además de las mejoras basadas en texto, el modo de voz de ChatGPT ha hecho grandes pasos desde los primeros días de GPT-4O. Las conversaciones fluyen mejor, y aunque aún puedes decir que estás hablando con un bot, se siente más humano.

ChatGPT incluso presentó el modo Monday, una nueva voz, en abril de 2025, para expandir sus ofertas. Además de pedir consejo, puede usar la herramienta para la preparación de la entrevista, participar en algunas bromas y mucho más.

Dado que sus chats se transcribirán más adelante, vale la pena experimentar con el modo de voz.

ChatGPT Plus ofrece más beneficios de los que inicialmente puede conocer a la vista, y las mejoras significativas para GPT-4O son una de ellas. La versión gratuita de ChatGPT es adecuada para conversaciones básicas, pero se perderá si no actualiza.