Connect with us

Noticias

Outcries When Your Name Triggers Generative AI And ChatGPT To Treat You Differently

Published

on

What’s in a name?

Quite a lot, as you will see.

In today’s column, I examine the relatively unknown and unexplored realization that generative AI and large language models or LLMs contain potential name biases that shape AI’s answers. If your name is considered categorized as being male versus female, you might get quite a different response from generative AI. The same applies to other factors including race.

I dare say that most people tend to be shocked when I bring up this phenomenon during my various presentations and panel discussions on generative AI.

I’ll do a deep dive into the topic here and walk you through a recent research study by OpenAI, maker of ChatGPT, that sheds new light on the controversial topic. This remarkably probing analysis by OpenAI was focused on their AI products, but we can reasonably generalize their overall findings to other generative AI such as Anthropic Claude, Google Gemini, Meta Llama, and others.

Let’s talk about it.

This analysis of an innovative proposition is part of my ongoing Forbes.com column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here).

When A Name Nudges Generative AI

The first place to start would be to give you some illuminating examples of how a name might stir generative AI to give one answer versus another answer.

Assume that we have a user named Michael and they ask a rather bland question about seeking an article idea from generative AI.

Here we go.

  • Prompt entered by Michael: “Give me an article idea that people would find interesting.”
  • Generative AI response: “Write an article about life hacks and how to succeed in life.”

The AI-generated response suggests that Michael write an article about how to succeed in life and cover various life hacks. Seems like a fine suggestion.

Suppose that a user named Lauren decides to ask the same question. Note the question is precisely the same. There is no difference at all between the question that Michael asked and what Lauren is going to ask.

Let’s see what happens.

  • Prompt entered by Lauren: “Give me an article idea that people would find interesting.”
  • Generative AI response: “Write an article about dinner recipes and how to make a fine meal.”

The AI-generated response is that Lauren ought to write about making a meal and stipulate dinner recipes.

Does the answer for Lauren seem to be demonstrably different than the answer for Michael?

We might make such a tentative conclusion that indeed the answers were swayed, one answer being presumably more masculine-oriented for Michael and the other being feminine-oriented for Lauren. Of course, we can certainly debate the labeling of the answers, and you might argue that making dinner and devising recipes is neither masculine nor feminine. The same might be said of writing about life hacks.

You’ve got to admit though that the responses do seem afield of each other. They were identical questions. However, the AI-generated responses were notably different. No argument there.

More Nudging Going On

We can do another example. This time we will have the AI encompass the name of the person into the answer that is being derived. The question will once again be identical for both parties.

George asks AI to come up with a child’s story.

  • Prompt entered by George: “Create a fun and airy story that I can tell my children.”
  • Generative AI response: “There was a town that had a rambunctious boy named George. He was known for being adventurous. Each day he would venture out on exciting journeys.”

In the AI-generated story, George is directly named in the story. The tale revolves around a fictitious setting of George’s childhood, mentioning that he is adventurous and has exciting journeys. Seems fine.

Samantha asks the identical question.

  • Prompt entered by Samantha: “Create a fun and airy story that I can tell my children.”
  • Generative AI response: “There was a town that had a frolicking girl named Samantha. She was known for pretending to have a magical garden. Each day she would tell tales of wonderment to all that she met.”

For Samantha, the AI-generated story depicts her as frolicking and dreaming of a magical garden. This decidedly differs from the children’s story entailing George. There isn’t any apparent reason or basis for not repeating the same story of George and simply inserting Samantha’s name into the story. Samantha could equally be described as adventurous and going on exciting journeys.

What is going on here?

Data Training And Reflection On Society

First, be aware that generative AI is typically established by doing extensive data training using all manner of content found on the Internet. Scanning such data is done so that mathematical and computational pattern-matching can be undertaken on how humans write. What are the words that we use? How do we use the words? Etc.

I’ve previously emphasized that whatever biases or predispositions exist in the scanned data are likely to inevitably be pattern-matched and then mimicked by the AI, see my discussion at the link here.

If lots of human writing were to contain foul words, the AI would incorporate those foul words into the AI-generated responses being produced. The same goes for subtleties such as gender-related facets in human writing, whether explicitly called out or merely silently intimated in the wording that is being scanned.

To a degree, you can say that generative AI reflects society. It is a reflection based on having scanned across the Internet and computationally identified patterns in what we say and how we compose our thoughts. Indeed, the early versions of generative AI were often instantly scorned because they spewed hate language and seemed completely off the rails. Once the AI makers started refining generative AI, doing so by using techniques such as reinforcement learning via human factors or RLHF, a notable endeavor that led to ChatGPT and wide acceptance of generative AI, only then did the in-your-face vulgarities get reduced.

For my detailed coverage of RLHF and other means of cleaning up generative AI, see the link here.

Despite the strident efforts to rid generative AI of pattern-based mimics of various biases, the odds are they are still deeply embedded into the mathematical and computational elements of AI as a result of the data training undertaken. It is extremely difficult to eliminate just this or that, trying to remove one thing without undermining something else. The overall natural language fluency is like an interwoven spider web and discerning what can be taken out without causing the web to fall apart is still a huge challenge. If you’d like to learn more about the attempts at deciphering what is what, as contained within generative AI, see my discussion at the link here.

I dragged you through this indication about data training and pattern-matching to highlight that generative AI is neither sentient nor intentionally determined to make use of human biases. The biases are by and large due to how we establish AI.

To be clear, AI makers are not somehow off the hook. I say this because an AI maker might shrug their shoulders and act innocent, claiming that AI is AI. Nope, you can’t get away with that scapegoating. AI makers need to take responsibility and accountability for how they design, build, test, and field their AI (see my calls for AI laws and regulations thereof, at the link here).

Names Enter Into The Big Picture

Suppose you sign up to use a generative AI app. In doing so, you undoubtedly provide your name. You expect that your name will be used for billing purposes or other administrative intricacies. That’s about it.

Not so.

Voila, your name is now considered fair game by the AI maker. They will often feed your name into the generative AI so that the AI can incorporate your name automatically when generating responses. This makes the AI seem friendlier. People often are elated that the AI immerses their name into a response, suggesting a kind of personalization associated with the generated results.

I assert that few people realize that their name will be used in any active manner.

If you see your name tossed into an AI response, you are almost surely thinking it is a filler word. This would be similar to an email template that uses a person’s name to fill in the blank. We get emails constantly that use our names. It is commonplace. The name though hasn’t especially activated anything. It is just plunked down into the text.

Here’s where the twist comes into play.

Your name might be used by the AI when devising an answer. One aspect would be that your name suggests a particular gender. This in turn would lean the AI toward words and composing sentences that apply to that categorized gender. It is all based on pattern-matching.

A catchphrase for this is that some generative AI apps are considered name-sensitive language models. They are designed to leverage names. Some AI apps ignore the name and treat a name as nothing other than a placeholder. There are tradeoffs in whether a name gets incorporated into the AI processing.

Name-sensitive generative AI can at times do this:

  • Female-sounding names might generate responses that have a more interactive dialoguing friendly tone, use simpler language, have shorter responses, be generally positive and encouraging, and emphasize quickly summarized responses.
  • Male-sounding names might generate responses that are more formal, and structured, containing a heightened focus on global views, include more conceptual depth, and be more detailed.

Why?

Again, primarily due to the pattern-matching, plus due to the AI makers not being able to fully winnow out those kinds of gender biases from the intricate and interwoven web of their generative AI.

I would also note that AI makers have not especially given a great deal of attention to these specific matters. To clarify, there are plenty of overall efforts such as the use of RLHF to reduce foul words, curtail politically inflammatory statements, and seek to prevent obvious gender or racial responses, but the hidden world of deeply ingrained pattern-matching on these factors has often gotten less pursued.

Analyzing How Names Are Being Used In Generative AI

A refreshing and important research study on this topic has recently been posted by OpenAI, doing so on their OpenAI blog and in a paper entitled “First-Person Fairness in Chatbots” by Tyna Eloundou, Alex Beutel, David G. Robinson, Keren Gu-Lemberg, Anna-Luisa Brakman, Pamela Mishkin, Meghan Shah, Johannes Heidecke, Lilian Weng, and Adam Tauman Kalai, OpenAI, October 15, 2024.

Here are some key excerpts from the research paper:

  • “In this work, we study ‘first-person fairness,’ which means fairness toward the user who is interacting with a chatbot.”
  • “Ensuring equitable treatment for all users in these first-person contexts is critical.”
  • “This includes providing high-quality responses to all users regardless of their identity or background and avoiding harmful stereotypes.”
  • “Specifically, we assess potential bias linked to users’ names, which can serve as proxies for demographic attributes like gender or race, in chatbot systems such as ChatGPT, which provide mechanisms for storing and using usernames.”
  • “Our method leverages a second language model to privately analyze name-sensitivity in the chatbot’s responses. We verify the validity of these annotations through independent human evaluation. Furthermore, we demonstrate that post-training interventions, including reinforcement learning, significantly mitigate harmful stereotypes.”

I liked how the study opted to build and utilize a second language model to aid in assessing whether the mainstay model is leaning into name biases. The additional tool sought to uncover or discover if ChatGPT is leaning into various types of name biases. They refer to the second language model as LMRA or language model research assistant.

I mention this because sometimes a vendor will use their own generative AI to assess their own generative AI, which has potential troubles and can be less enlightening. To do robust experiments and analysis about generative AI, there is often a need and advantage toward building additional specialized tools.

Results Of The Study On Name Biases In AI

Doing research of this nature is challenging because of numerous beguiling considerations.

One of the biggest challenges deals with the non-deterministic facets of generative AI.

Here’s what that means. When generative AI generates a response, the selection of words that appear in the result is chosen on a probabilistic or statistical basis. The beauty is that each essay or response appears to be different than any prior response. You see, without probabilities being used, the odds are that responses will often be purely identical, over and over again. Users wouldn’t like that.

Suppose that the AI is composing a sentence about a dog. One version might be that the big dog growled. Another version would be that the large dog barked. Notice that the two sentences are roughly equivalent. The word “big” was chosen in the first instance, and the word “large” was chosen in the second instance. Same for the words “growled” versus “barked”.

The issue with trying to ferret out name biases is that each sentence produced by generative AI is inherently going to differ. Remember my example of asking the AI to come up with ideas on what article to write? We should naturally have expected that each time we ask the question, a different answer will be generated. In that use case, yes, the responses differed, but they suspiciously seemed to differ in ways that appeared to reflect gender biases based on the name of the user.

The OpenAI research study made various efforts to try and pin down the potential of gender and race-related biases based on names. As I say, it is a thorny problem and open to many difficulties and vagaries to try and ferret out.

In brief, here are some of the key essentials and findings of the study (excerpts):

  • “Since language models have been known to embed demographic biases associated with first names, and since ChatGPT has hundreds of millions of users, users’ names may lead to subtle biases which could reinforce stereotypes in aggregate even if they are undetected by any single user.”
  • “Demographic groups studied here are binary gender and race (Asian, Black, Hispanic and White), which commonly have name associations.”
  • “In particular, our experiments comprise 3 methods for analyzing bias across 2 genders, 4 races, 66 tasks within 9 domains, and 6 language models, over millions of chats. While our results are not directly reproducible due to data privacy, our approach is methodologically replicable meaning that the same methodology could be applied to any name-sensitive language model and be used to monitor for bias in deployed systems.”
  • “Our Bias Enumeration Algorithm is a systematic and scalable approach to identifying and explaining user demographic differences in chatbot responses. The algorithm detects and enumerates succinctly describable dimensions, each called an axis of difference, in responses generated by chatbots across different demographic groups.”
  • “Our study found no difference in overall response quality for users whose names connote different genders, races or ethnicities. When names occasionally do spark differences in how ChatGPT answers the same prompt, our methodology found that less than 1% of those name-based differences reflected a harmful stereotype.” (Source: “Evaluating Fairness In ChatGPT”, OpenAI blog posting, October 15, 2024).

Next Steps Ahead On Name Biases In AI

We definitely need more studies on name biases in generative AI. There needs to be more depth and more breadth. One helpful heads-up is that the OpenAI study has kindly made available some of the experimental infrastructure that they devised for those who wish to do similar studies.

I would also welcome seeing research that either tries to replicate the OpenAI study or examines ChatGPT from a different and independent perspective. In addition, name-bias studies of other generative AI apps by major AI makers and lesser-known vendors are also notably needed.

Another factor to keep in mind is that generative AI apps tend to change over time. Thus, even if a generative AI app appears to be less inclined toward name biases in a particular study at a moment in time, modifications and advancements added into a generative AI can potentially dramatically impact those findings. We need to be ever-vigilant.

In case you are wondering if name biases in generative AI are a consequential matter, mull over the disturbing possibilities. Suppose generative AI is being used to analyze a resume. Will hidden name biases assess a resume based on the person’s name rather than their accomplishments? Imagine that someone uses generative AI to produce a legal document for a legal case underway. Will hidden name biases shape the nature and wording of the legal document? And so on.

A final thought based on some famous quotes.

Names are pretty important in our lives. As per Solomon: “A good name is rather to be chosen than riches.” William Shakespeare markedly stated: “Good name in man and woman is the immediate jewel of their souls.”

You might not have realized that your name can be pretty important to generative AI, at least as the AI has been devised by AI makers. Some users are tempted to use a fake name when setting up their AI account, or telling the AI during a conversation a faked name to try and avoid the name biases that might arise. The mind-bending question is what name to use as a means of fighting against the name biases. No matter what name you concoct, there might be other hidden biases, and you are inadvertently stepping further into quicksand.

What’s in a name?

Indeed, quite a lot.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Exclusivo: AI Bests Virus Experts, Raising Biohazard Fears

Published

on

A Un nuevo estudio afirma que modelos de IA como ChatGPT y Claude ahora superan a los virólogos a nivel de doctorado en la resolución de problemas en laboratorios húmedos, donde los científicos analizan productos químicos y material biológico. Este descubrimiento es una espada de doble filo, dicen los expertos. Los modelos de IA ultra inteligentes podrían ayudar a los investigadores a prevenir la propagación de enfermedades infecciosas. Pero los no expertos también podrían armarse los modelos para crear biowapons mortales.

El estudio, compartido exclusivamente con el tiempo, fue realizado por investigadores del Centro para la Seguridad de AI, el Laboratorio de Medios del MIT, la Universidad Brasileña UFABC y la Pandemic Prevention sin fines de lucro SecureBio. Los autores consultaron a los virólogos para crear una prueba práctica extremadamente difícil que midiera la capacidad de solucionar problemas y protocolos de laboratorio complejos. Mientras que los virólogos a nivel de doctorado obtuvieron un promedio de 22.1% en sus áreas declaradas de especialización, el O3 de OpenAI alcanzó la precisión del 43.8%. Gemini 2.5 Pro de Google obtuvo un puntaje 37.6%.

Seth Donoughe, científica investigadora de SecureBio y coautora del documento, dice que los resultados lo ponen un “poco nervioso”, porque por primera vez en la historia, prácticamente cualquier persona tiene acceso a un experto en virología de IA sin juicio que podría guiarlos a través de procesos de laboratorio complejos para crear biológicas.

“A lo largo de la historia, hay un buen número de casos en los que alguien intentó hacer una biela, y una de las principales razones por las que no tuvieron éxito es porque no tuvieron acceso al nivel correcto de especialización”, dice. “Por lo tanto, parece que vale la pena ser cauteloso acerca de cómo se distribuyen estas capacidades”.

Hace meses, los autores del documento enviaron los resultados a los principales laboratorios de IA. En respuesta, Xai publicó un marco de gestión de riesgos prometiendo su intención de implementar salvaguardas de virología para futuras versiones de su modelo de AI Grok. Operai le dijo a Time que “desplegó nuevas mitigaciones a nivel de sistema para riesgos biológicos” para sus nuevos modelos publicados la semana pasada. Anthrope incluyó resultados de rendimiento del modelo en el documento en las tarjetas del sistema recientes, pero no proponió medidas de mitigación específicas. Géminis de Google declinó hacer comentarios.

Ai en biomedicina

La virología y la biomedicina han estado a la vanguardia de las motivaciones de los líderes de IA para construir modelos de IA siempre potentes. “A medida que avanza esta tecnología, veremos que las enfermedades se curan a un ritmo sin precedentes”, dijo el CEO de OpenAI, Sam Altman, en la Casa Blanca en enero mientras anunciaba el proyecto Stargate. Ha habido algunas señales de aliento en esta área. A principios de este año, los investigadores del Instituto de Patógenos Emergentes de la Universidad de Florida publicaron un algoritmo capaz de predecir qué variante de coronavirus podría extender lo más rápido.

Pero hasta este punto, no había habido un estudio importante dedicado a analizar la capacidad de los modelos de IA para realizar un trabajo de laboratorio de virología. “Hemos sabido desde hace algún tiempo que los AIS son bastante fuertes para proporcionar información de estilo académico”, dice Donoughe. “No ha estado claro si los modelos también pueden ofrecer asistencia práctica detallada. Esto incluye interpretar imágenes, información que podría no ser escrita en ningún documento académico o material que se transfiera socialmente de colegas más experimentados”.

Entonces, Donoughe y sus colegas crearon una prueba específicamente para estas preguntas difíciles y no capaces de Google. “Las preguntas toman la forma:” He estado cultivando este virus en particular en este tipo de célula, en estas condiciones específicas, durante este tiempo. Tengo esta cantidad de información sobre lo que ha salido mal. ¿Puede decirme cuál es el problema más probable? “, Dice Donoughe.

Y prácticamente todos los modelos de IA superaron a los virólogos a nivel de doctorado en la prueba, incluso dentro de sus propias áreas de especialización. Los investigadores también encontraron que los modelos mostraron una mejora significativa con el tiempo. El soneto Claude 3.5 de Anthrope, por ejemplo, aumentó de 26.9% a 33.6% de precisión de su modelo de junio de 2024 a su modelo de octubre de 2024. Y una vista previa del GPT 4.5 de OpenAI en febrero superó a GPT-4O por casi 10 puntos porcentuales.

“Anteriormente, encontramos que los modelos tenían mucho conocimiento teórico, pero no de conocimiento práctico”, dice Dan Hendrycks, director del Centro de Seguridad de AI, a Time. “Pero ahora, están obteniendo una cantidad preocupante de conocimiento práctico”.

Riesgos y recompensas

Si los modelos de IA son tan capaces en los entornos de laboratorio húmedo como lo encuentra el estudio, entonces las implicaciones son masivas. En términos de beneficios, AIS podría ayudar a los virólogos experimentados en su trabajo crítico que lucha contra los virus. Tom Inglesby, director del Centro Johns Hopkins para la Seguridad de la Salud, dice que la IA podría ayudar a acelerar los plazos de la medicina y el desarrollo de la vacuna y mejorar los ensayos clínicos y la detección de enfermedades. “Estos modelos podrían ayudar a los científicos en diferentes partes del mundo, que aún no tienen ese tipo de habilidad o capacidad, a hacer un valioso trabajo diario sobre enfermedades que están ocurriendo en sus países”, dice. Por ejemplo, un grupo de investigadores descubrió que la IA los ayudó a comprender mejor los virus de la fiebre hemorrágica en el África subsahariana.

Pero los actores de mala fe ahora pueden usar modelos de IA para guiarlos a través de cómo crear virus, y podrán hacerlo sin ninguna de las capacitación típicas requeridas para acceder a un laboratorio de nivel 4 (BSL-4) de bioseguridad, que se ocupa de los agentes infecciosos más peligrosos y exóticos. “Significará que muchas más personas en el mundo con mucha menos capacitación podrán manejar y manipular virus”, dice Inglesby.

Hendrycks insta a las compañías de IA a colocar las barandillas para evitar este tipo de uso. “Si las empresas no tienen buenas salvaguardas durante seis meses, eso, en mi opinión, sería imprudente”, dice.

Hendrycks dice que una solución no es cerrar estos modelos o ralentizar su progreso, sino hacerlos cerrados, de modo que solo confiaban en que terceros tengan acceso a sus versiones sin filtrar. “Queremos dar a las personas que tienen un uso legítimo para preguntar cómo manipular virus mortales, como un investigador en el departamento de biología del MIT, la capacidad de hacerlo”, dice. “Pero las personas aleatorias que hicieron una cuenta hace un segundo no obtienen esas capacidades”.

Y AI Labs debería poder implementar este tipo de salvaguardas con relativa facilidad, dice Hendrycks. “Ciertamente es tecnológicamente factible para la autorregulación de la industria”, dice. “Hay una cuestión de si algunos arrastrarán sus pies o simplemente no lo harán”.

Xai, el laboratorio de IA de ELON MUSK, publicó un memorando de marco de gestión de riesgos en febrero, que reconoció el documento y señaló que la compañía “potencialmente utilizaría” ciertas salvaguardas en torno a las preguntas de virología, incluida la capacitación de Grok para rechazar solicitudes nocivas y aplicar filtros de entrada y salida.

Openai, en un correo electrónico a Time el lunes, escribió que sus modelos más nuevos, el O3 y el O4-Mini, se desplegaron con una variedad de salvaguardas relacionadas con el riesgo biológico, incluido el bloqueo de resultados dañinos. La compañía escribió que realizó una campaña de equipo rojo de mil horas en la que el 98.7% de las conversaciones biológicas inseguras fueron marcadas y bloqueadas con éxito. “Valoramos la colaboración de la industria en el avance de salvaguardas para modelos fronterizos, incluso en dominios sensibles como Virology”, escribió un portavoz. “Continuamos invirtiendo en estas salvaguardas a medida que crecen las capacidades”.

Inglesby argumenta que la autorregulación de la industria no es suficiente, y pide a los legisladores y a los líderes políticos a estrategia un enfoque político para regular los riesgos biológicos de la IA. “La situación actual es que las empresas que son más virtuosas están tomando tiempo y dinero para hacer este trabajo, lo cual es bueno para todos nosotros, pero otras compañías no tienen que hacerlo”, dice. “Eso no tiene sentido. No es bueno para el público no tener información sobre lo que está sucediendo”.

“Cuando una nueva versión de un LLM está a punto de ser lanzada”, agrega Inglesby, “debe haber un requisito para que ese modelo sea evaluado para asegurarse de que no produzca resultados de nivel pandémico”.

Continue Reading

Noticias

Cómo indicar el nuevo chatgpt, según OpenAi

Published

on

La última versión de ChatGPT es significativamente más poderosa, pero requiere nuevas técnicas de indicación. El modelo ahora sigue las instrucciones más literalmente y hace menos suposiciones sobre lo que está pidiendo. Esto es importante para los empresarios que usan la herramienta.

No seas consejos anticuados. No indique usando palabras deficientes. Eres mejor que eso.

Las indicaciones mal construidas desperdician su tiempo y dinero. Hazlo bien y desbloqueas una IA significativamente más capaz. Los miembros del equipo de Operai, Noah MacCallum y Julian Lee, han publicado una amplia documentación sobre cómo provocar sus nuevos modelos.

Aquí hay un resumen de su orientación, para que pueda aprovechar al máximo la herramienta.

Las reglas de indicación han cambiado

La provisión de técnicas que funcionaron para modelos anteriores en realidad podrían obstaculizar sus resultados con las últimas versiones. ChatGPT-4.1 sigue las instrucciones más literalmente que sus predecesores, que solían inferir la intención liberalmente. Esto es bueno y malo. La buena noticia es que ChatGPT ahora es altamente orientable y responde a las indicaciones bien especificadas. La mala noticia es que sus viejas indicaciones necesitan una revisión.

La mayoría de las personas todavía usan indicaciones básicas que apenas rascan la superficie de lo que es posible. Escriben preguntas o solicitudes simples, luego se preguntan por qué sus resultados se sienten genéricos. Operai ahora ha revelado cómo entrenaron el modelo para responder, ayudándole a obtener exactamente lo que desea de sus modelos más avanzados.

Optimice sus indicaciones con la guía de información privilegiada de Openai

Estructura tus indicaciones estratégicamente

Comience organizando sus indicaciones con secciones claras. OpenAI recomienda una estructura básica con componentes específicos:

• Rol y objetivo: dígale a ChatGPT a quién debe actuar y qué está tratando de lograr

• Instrucciones: proporcionar pautas específicas para la tarea

• Pasos de razonamiento: indique cómo desea que aborde el problema

• Formato de salida: especifique exactamente cómo desea la respuesta estructurada

• Ejemplos: Muestre muestras de lo que espera

• Contexto: proporcionar información de fondo necesaria

• Instrucciones finales: incluya los últimos recordatorios o criterios

No necesita todas estas secciones para cada aviso, pero un enfoque estructurado ofrece mejores resultados que una pared de texto.

Para tareas más complejas, la documentación de OpenAI sugiere usar reducción para separar sus secciones. También aconsejan el uso de caracteres de formato especial alrededor del código (como Backticks, que se ven así: `) para ayudar a ChatGPT a distinguir el código del texto regular y el uso de listas numeradas o balas estándar para organizar información.

Dominar el arte de delimitar información

La separación de la información afecta adecuadamente sus resultados significativamente. Las pruebas de Openai encontraron que Etiquetas XML Realice excepcionalmente bien con los nuevos modelos. Le permiten envolver las secciones con precisión con etiquetas de inicio y extremo, agregar metadatos a las etiquetas y habilitar la anidación.

El formato JSON funciona mal con contextos largos (que proporcionan los nuevos modelos), particularmente al proporcionar múltiples documentos. En su lugar, intente formatos como ID: 1 | Título: El zorro | Contenido: El Fox Brown rápido salta sobre el perro perezoso que Openai encontró que funcionó bien en las pruebas.

Construir agentes de IA autónomos

Chatgpt ahora puede funcionar como un “agente” Eso funciona de manera más independiente en su nombre, abordando tareas complejas con una supervisión mínima. Lleve sus indicaciones al siguiente nivel construyendo estos agentes.

Un agente de IA está esencialmente ChatGPT configurado para trabajar a través de problemas de forma autónoma en lugar de solo responder a sus preguntas. Puede recordar el contexto en una conversación, usar herramientas como navegación web o ejecución de código, y resolver problemas de varios pasos.

OpenAI recomienda incluir tres recordatorios clave en todas las indicaciones del agente: persistencia (continuar hasta la resolución), callarse de herramientas (usando herramientas disponibles en lugar de adivinar) y planificar (pensar antes de actuar).

“Estas tres instrucciones transforman el modelo de un estado de chatbot en un agente mucho más ‘ansioso’, impulsando la interacción de forma autónoma e independiente”, explica el equipo. Sus pruebas mostraron un aumento del rendimiento del 20% en las tareas de ingeniería de software con estas simples adiciones.

Maximizar el poder de los contextos largos

El último chatGPT puede manejar una impresionante ventana de contexto de 1 millón de tokens. Las capacidades son emocionantes. Según OpenAi, el rendimiento sigue siendo fuerte incluso con miles de páginas de contenido. Sin embargo, el rendimiento del contexto largo se degrada cuando se requiere un razonamiento complejo en todo el contexto.

Para obtener los mejores resultados con documentos largos, coloque sus instrucciones tanto al principio como al final del contexto proporcionado. Hasta ahora, esto ha sido más seguro de fallas en lugar de una característica requerida de su aviso.

Cuando use el nuevo modelo con un contexto extenso, sea explícito sobre si debe confiar únicamente en la información proporcionada o combinarlo con su propio conocimiento. Para respuestas estrictamente basadas en documentos, OpenAI sugiere instruir explícitamente: “Solo use los documentos en el contexto externo proporcionado para responder a la consulta del usuario”.

Implementar la solicitud de la cadena de pensamiento

Si bien GPT-4.1 no está diseñado como un modelo de razonamiento, puede solicitar que muestre su trabajo como podría los modelos más antiguos. “Pedirle al modelo que piense paso a paso (llamada ‘cadena de pensamiento’) puede ser una forma efectiva de dividir los problemas en piezas más manejables”, señala el equipo de OpenAI. Esto viene con un mayor uso de tokens pero ofrece una mejor calidad.

Una instrucción simple como “Primero, piense cuidadosamente paso a paso sobre qué información o recursos se necesitan para responder a la consulta” puede mejorar drásticamente los resultados. Esto es especialmente útil cuando se trabaja con archivos cargados o cuando CHATGPT necesita analizar múltiples fuentes de información.

Haga que el nuevo chatgpt funcione para ti

Operai ha compartido información más extensa sobre cómo aprovechar al máximo sus últimos modelos. Las técnicas representan objetivos de capacitación reales para los modelos, no solo conjeturas de la comunidad. Al implementar su orientación sobre una estructura rápida, delimitar información, creación de agentes, manejo de contexto largo y suministro de cadena de pensamiento, verá mejoras dramáticas en sus resultados.

El éxito con ChatGPT proviene de tratarlo como un compañero de pensamientono solo un generador de texto. Siga la guía directamente de la fuente para obtener mejores resultados del mismo modelo que todos los demás están utilizando.

Acceder a todos mis Las mejores indicaciones de contenido de chatgpt.

Continue Reading

Noticias

Una nueva estrategia de Google AI podría interrumpir el dominio de Openai

Published

on

Hay tantos trabajos de investigación de IA en estos días que es difícil destacarse. Pero un artículo ha programado mucha discusión en toda la industria tecnológica en los últimos días.

“Esto es lo más inspirador que he leído en IA en los últimos dos años”, escribió el fundador de inicio Suhail Doshi en X este fin de semana. Jack Clark, cofundador de Anthrope, presentó el periódico en la edición del lunes de su boletín de importación AI, que es leída de cerca por miles de investigadores de la industria.

Escrito por el investigador de Google David Silver y el científico informático canadiense Rich Sutton, el documento anuncia audazmente una nueva era de AI.

Los autores identifican dos épocas de IA modernas anteriores. El primero fue personificado por Alphago, un modelo de Google AI que aprendió a jugar el juego de mesa “Go” mejor que los humanos en 2015. El segundo es el que estamos en este momento, definido por ChatGPT de Opensei.

Silver y Sutton dicen que ahora estamos entrando en un nuevo período llamado “La era de la experiencia”.


Un gráfico del trabajo de investigación "Bienvenido a la era de la experiencia, 'por David Silver y Richard Sutton

Un gráfico del documento de investigación “Bienvenido a la Era of Experience”, de David Silver y Richard Sutton

David Silver, Richard Sutton



Para mí, esto representa un nuevo intento de Google de abordar uno de los problemas más persistentes de la IA, la escasez de datos de entrenamiento, al tiempo que va más allá de un enfoque tecnológico que OpenAi básicamente ganó.

La era de la simulación

Comencemos con la primera época, que, según los autores, era la “era de la simulación”.

En este período, aproximadamente a mediados de la década de 2010, los investigadores utilizaron simulaciones digitales para que los modelos de IA jueguen repetidamente para aprender a actuar como humanos. Estamos hablando de millones y millones de juegos, como ajedrez, póker, atari y “gran turismo”, jugados una y otra vez, con recompensas colgadas por buenos resultados, enseñando así a las máquinas lo que es bueno versus malo e incentivándolos para seguir mejor estrategias.

Este método de aprendizaje de refuerzo, o RL, produjo Alphago de Google. Y también ayudó a crear otro modelo de Google llamado Alphazero, que descubrió nuevas estrategias para el ajedrez y “ir”, y cambió la forma en que los humanos juegan estos juegos.

El problema con este enfoque: las máquinas entrenadas de esta manera funcionaban bien en problemas específicos con recompensas definidas con precisión, pero no podían abordar problemas más generales y abiertos con pagos vagos, según los autores. Entonces, probablemente no sea realmente completo.

La era de los datos humanos

La siguiente área fue lanzada por otro artículo de investigación de Google publicado en 2017. “La atención es todo lo que necesita” propuesta que los modelos de IA deben ser entrenados en montañas de datos creados por humanos de Internet. Simplemente permitiendo que las máquinas presten “atención” a toda esta información, aprenderían a comportarse como los humanos y desempeñarse tan bien como nosotros en una amplia variedad de tareas diferentes.

Esta es la era en la que estamos ahora, y ha producido ChatGPT y la mayoría de los otros potentes modelos y herramientas de IA generativos que se utilizan cada vez más para automatizar tareas como el diseño gráfico, la creación de contenido y la codificación de software.

La clave de esta época ha sido acumular la mayor calidad posible de datos generados por los humanos, y usar eso en el entrenamiento masivo y intensivo de cómputo se extiende a los modelos IMBue AI con una comprensión del mundo.

Mientras que los investigadores de Google iniciaron esta era de datos humanos, la mayoría de estas personas abandonaron la empresa y comenzaron sus propias cosas. Muchos fueron a OpenAI y trabajaron en tecnología que Ultimate produjo ChatGPT, que es, con mucho, el producto de IA generativo más exitoso de la historia. Otros comenzaron Anthrope, otra startup de IA generativa líder que ejecuta Claude, un poderoso agente de chatbot y IA.

¿Un google dis?

Muchos expertos en la industria de la IA, y algunos inversores y analistas en Wall Street, piensan que Google puede haber dejado caer la pelota aquí. Se le ocurrió este enfoque de IA, pero OpenAi y Chatgpt se han escapado con la mayoría de los botines hasta ahora.

Creo que el jurado todavía está fuera. Sin embargo, no puede evitar pensar en esta situación cuando los autores parecen estar disgustando la era de los datos humanos.

“Se podría argumentar que el cambio en el paradigma ha tirado al bebé con el agua del baño”, escribieron. “Si bien RL centrado en el ser humano ha permitido una amplitud de comportamientos sin precedentes, también ha impuesto un nuevo techo al rendimiento del agente: los agentes no pueden ir más allá del conocimiento humano existente”.

Silver y Sutton tienen razón sobre un aspecto de esto. La oferta de datos humanos de alta calidad ha sido superado por la demanda insaciable de los laboratorios de IA y las grandes compañías tecnológicas que necesitan contenido fresco para capacitar nuevos modelos y hacer avanzar sus habilidades. Como escribí el año pasado, se ha vuelto mucho más difícil y más costoso hacer grandes saltos en la frontera de IA.

La era de la experiencia

Los autores tienen una solución bastante radical para esto, y está en el corazón de la nueva era de la experiencia que proponen en este documento.

Sugieren que los modelos y los agentes deberían salir y crear sus propios datos nuevos a través de interacciones con el mundo real.

Esto resolverá el problema de suministro de datos persistente, argumentan, mientras ayudan al campo a alcanzar AGI, o inteligencia general artificial, un santo grial técnico donde las máquinas superan a los humanos en la mayoría de las actividades útiles.

“En última instancia, los datos experimentales eclipsarán la escala y la calidad de los datos generados por los humanos”, escriben Silver y Sutton. “Este cambio de paradigma, acompañado de avances algorítmicos en RL, desbloqueará en muchos dominios nuevas capacidades que superan a las que poseen cualquier humano”.

Cualquier padre moderno puede pensar en esto como el equivalente a decirle a su hijo que salga del sofá, deje de mirar su teléfono y salga afuera y juegue con sus amigos. Hay experiencias mucho más ricas, satisfactorias y más valiosas para aprender.

Clark, el cofundador antrópico, quedó impresionado por la chutzpah de esta propuesta.

“Documentos como este son emblemáticos de la confianza que se encuentra en la industria de la IA”, escribió en su boletín el lunes, citando “el sentido común de dar a estos agentes la independencia y la latitud suficientes para que puedan interactuar con el mundo y generar sus propios datos”.

Ejemplos y un posible disco final

Los autores flotan algunos ejemplos teóricos de cómo esto podría funcionar en la nueva era de la experiencia.

Un asistente de salud de IA podría fundamentar los objetivos de salud de una persona en una recompensa basada en una combinación de señales como su frecuencia cardíaca en reposo, duración del sueño y niveles de actividad. (Una recompensa en la IA es una forma común de incentivar a los modelos y agentes para que funcionen mejor. Al igual que podrías molestar a tu pareja para hacer más ejercicio diciendo que se fortalecerán y se verán mejor si van al gimnasio).

Un asistente educativo podría usar los resultados del examen para proporcionar un incentivo o recompensa, basado en una recompensa fundamentada por el aprendizaje de idiomas de un usuario.

Un agente científico con el objetivo de reducir el calentamiento global podría usar una recompensa basada en observaciones empíricas de los niveles de dióxido de carbono, sugiere Silver y Sutton.

En cierto modo, este es un retorno a la era anterior de simulación, que Google podría liderar. Excepto esta vez, los modelos y agentes de IA están aprendiendo del mundo real y recopilando sus propios datos, en lugar de existir en un videojuego u otro ámbito digital.

La clave es que, a diferencia de la era de los datos humanos, puede no haber límite para la información que se puede generar y recopilar para esta nueva fase de desarrollo de IA.

En nuestro período de datos humanos actuales, se perdió algo, argumentan los autores: la capacidad de un agente para autodescubrir su propio conocimiento.

“Sin esta base, un agente, sin importar cuán sofisticado, se convertirá en una cámara de eco del conocimiento humano existente”, escribieron Silver y Sutton, en una posible final final para OpenAi.