Noticias
Las verificaciones de datos de ChatGPT pueden reducir la confianza en titulares precisos, según un estudio
Un estudio reciente publicado en el Actas de la Academia Nacional de Ciencias investiga cómo los grandes modelos lingüísticos, como ChatGPT, influyen en las percepciones de las personas sobre los titulares de las noticias políticas. Los hallazgos revelan que, si bien estos sistemas de inteligencia artificial pueden señalar con precisión información falsa, sus resultados de verificación de hechos no ayudan constantemente a los usuarios a discernir entre noticias verdaderas y falsas. En algunos casos, el uso de verificaciones de datos mediante IA incluso condujo a una menor confianza en los titulares verdaderos y a una mayor creencia en los dudosos.
Los modelos de lenguaje grande (LLM), como ChatGPT, son sistemas avanzados de inteligencia artificial diseñados para procesar y generar texto similar al humano. Estos modelos se entrenan en vastos conjuntos de datos que incluyen libros, artículos, sitios web y otras formas de comunicación escrita. A través de esta capacitación, desarrollan la capacidad de responder a una amplia gama de temas, imitar diferentes estilos de escritura y realizar tareas como resúmenes, traducción y verificación de hechos.
La motivación detrás de este estudio surge del creciente desafío de la desinformación en línea, que socava la confianza en las instituciones, fomenta la polarización política y distorsiona la comprensión pública de cuestiones críticas como el cambio climático y la salud pública. Las plataformas de redes sociales se han convertido en focos de rápida difusión de información falsa o engañosa, superando a menudo la capacidad de las organizaciones tradicionales de verificación de datos para abordarla.
Los LLM, con su capacidad para analizar y responder al contenido rápidamente y a escala, se han propuesto como una solución a este problema. Sin embargo, si bien estos modelos pueden proporcionar correcciones fácticas, se sabía poco sobre cómo las personas interpretan y reaccionan ante sus esfuerzos de verificación de hechos.
“La rápida adopción de los LLM para diversas aplicaciones, incluida la verificación de hechos, generó preguntas apremiantes sobre su eficacia y consecuencias no deseadas”, dijo el autor del estudio Matthew R. DeVerna, candidato a doctorado en el Observatorio de Medios Sociales de la Universidad de Indiana. “Si bien estas herramientas demuestran capacidades impresionantes, se sabía poco sobre cómo la información que proporcionan influye en el juicio y el comportamiento humanos. Si bien confiamos en que dicha tecnología se puede utilizar para mejorar la sociedad, debe hacerse con cuidado y esperamos que este trabajo pueda ayudar a diseñar sistemas basados en LLM que puedan mejorar los espacios digitales”.
Los investigadores diseñaron un experimento controlado aleatorio en el que participaron 2159 participantes, cuya muestra reflejaba la demografía de la población de Estados Unidos en términos de género, edad, raza, educación y afiliación política. Los participantes se dividieron en dos grupos: uno evaluó la exactitud de los titulares (“grupo de creencias”) y el otro indicó su voluntad de compartirlos en las redes sociales (“grupo de intercambio”).
Cada grupo encontró 40 titulares de noticias políticas, divididos equitativamente entre afirmaciones verdaderas y falsas. Estos titulares también fueron equilibrados en cuanto al sesgo partidista, lo que garantiza una combinación equitativa de contenido favorable a demócratas y republicanos. Los participantes fueron asignados a una de cuatro condiciones: un grupo de control sin información de verificación de datos, un grupo al que se le mostraron verificaciones de datos generadas por IA mediante ChatGPT, un grupo que podía elegir si ver las verificaciones de datos de IA y un grupo al que se le presentó verificaciones de datos humanas tradicionales.
Las verificaciones de datos de ChatGPT se generaron utilizando un mensaje estandarizado y se etiquetaron como “verdadero”, “falso” o “inseguro” según la respuesta del modelo. Se informó a los participantes de los grupos de IA que la información de verificación de datos procedía de ChatGPT. Aquellos en el grupo de verificación humana de hechos recibieron evaluaciones claras y concisas de las afirmaciones, respaldadas por detalles sobre la credibilidad de la fuente de noticias.
El estudio encontró que el impacto de la verificación de datos generada por IA en los juicios y comportamientos de los participantes fue mixto y, a menudo, contraproducente. Si bien ChatGPT identificó con precisión el 90% de los titulares falsos como falsos, tuvo problemas con los titulares verdaderos, etiquetando solo el 15% como verdadero y expresando incertidumbre sobre la mayoría. Esta incertidumbre provocó efectos indeseables: los participantes tenían menos probabilidades de creer en titulares verdaderos clasificados erróneamente como falsos y más probabilidades de creer en titulares falsos cuando la IA expresaba incertidumbre.
Por ejemplo, los participantes del grupo de creencias que estuvieron expuestos a las verificaciones de datos de ChatGPT mostraron un discernimiento reducido en comparación con el grupo de control. Tenían un 12,75% menos de probabilidades de creer en titulares verdaderos marcados incorrectamente como falsos y un 9,12% más de probabilidades de creer en titulares falsos cuando ChatGPT no estaba seguro. De manera similar, en el grupo que compartía, los participantes tenían más probabilidades de compartir titulares falsos etiquetados como inciertos por la IA.
“El público debe ser consciente de que estos modelos a veces pueden proporcionar información inexacta, lo que puede llevarlos a conclusiones incorrectas”, dijo DeVerna a PsyPost. “Es importante que aborden la información de estos modelos con cautela”.
Por el contrario, las verificaciones de hechos humanas tradicionales mejoraron significativamente la capacidad de los participantes para distinguir entre titulares verdaderos y falsos. Aquellos expuestos a la verificación de datos humanos tenían un 18,06% más de probabilidades de creer titulares verdaderos y un 8,98% más de probabilidades de compartirlos en comparación con el grupo de control.
La opción de ver verificaciones de datos de IA también reveló un sesgo de selección. Los participantes que eligieron ver información de verificación de datos generada por IA tenían más probabilidades de compartir titulares tanto verdaderos como falsos, lo que sugiere que es posible que ya se hayan formado opiniones sobre los titulares antes de consultar a la IA. Este comportamiento estuvo influenciado por las actitudes de los participantes hacia la IA, ya que aquellos con opiniones positivas sobre la IA tenían más probabilidades de creer y compartir contenido después de ver las verificaciones de hechos.
“Proporcionamos algunas pruebas que sugieren que las personas pueden estar ignorando información precisa de verificación de datos de ChatGPT sobre titulares falsos después de elegir ver esa información”, dijo DeVerna. “Esperamos comprender mejor los mecanismos en juego aquí en trabajos futuros”.
Como ocurre con toda investigación, existen algunas limitaciones. En primer lugar, el estudio se basó en una versión específica de ChatGPT y un conjunto limitado de titulares, que pueden no capturar completamente las complejidades de la desinformación del mundo real. El entorno de la encuesta del experimento también difiere de la naturaleza dinámica y acelerada de las interacciones en las redes sociales.
“Nuestro estudio se basó en una versión específica, ahora obsoleta, de ChatGPT y presentó a los participantes una única respuesta del modelo”, señaló DeVerna. “Los resultados pueden variar con otros LLM o en entornos más interactivos. Las investigaciones futuras se centrarán en examinar estas dinámicas en contextos más realistas”.
“Esperamos comprender mejor los riesgos y beneficios potenciales de la tecnología basada en LLM para mejorar los espacios digitales y maximizar su beneficio para la sociedad. Estamos trabajando para comprender cómo interactúan los humanos con esta tecnología, cómo mejorar la precisión del modelo y cómo dichas intervenciones escalan a redes masivas como las plataformas de redes sociales”.
El estudio, “La información de verificación de hechos de modelos lingüísticos grandes puede disminuir el discernimiento de los titulares”, fue escrito por Matthew R. DeVerna, Harry Yaojun Yan, Kai-Cheng Yang y Filippo Menczer.