Noticias

¿Qué tienen en común la IA y tu abuela? Ambos se están volviendo geriátricos, encuentra un estudio

Published

on

Un estudio innovador publicado en la edición navideña de la Revista médica británica ha planteado una pregunta inesperada y alarmante: ¿podría IA avanzada modelos como ChatGPT o Géminis desarrollar deterioros cognitivos similar a la etapa inicial demencia en humanos? Los investigadores probaron algunos de los principales modelos de lenguaje (LLM) del mundo utilizando la ampliamente respetada Evaluación Cognitiva de Montreal (MoCA), una herramienta diseñada para detectar el deterioro cognitivo temprano en humanos, y los resultados fueron nada menos que sorprendentes.

Las debilidades cognitivas de la IA al descubierto

El estudio, realizado por un equipo de neurólogos y especialistas en inteligencia artificial dirigido por la Dra. Emilia Kramer de la Universidad de Edimburgo, evaluó varios LLM destacados, entre ellos:

  • ChatGPT-4 y 4o por AbiertoAI
  • Claudio 3.5 “Soneto” por antrópico
  • Géminis 1.0 y 1.5 por Alfabeto

Los investigadores administraron el MoCA, una prueba cognitiva de 30 puntos desarrollada originalmente para uso humano. Las IA se evaluaron en categorías que incluían atención, memoria, razonamiento visuoespacial y dominio del lenguaje.

Hallazgos clave: desglose de los resultados

El estudio reveló disparidades significativas en las capacidades cognitivas de los principales modelos lingüísticos cuando se los sometió a la Evaluación Cognitiva de Montreal (MoCA). A continuación se ofrece un vistazo más de cerca al desempeño de cada IA, destacando sus fortalezas y vulnerabilidades:

  1. ChatGPT-4o (OpenAI)
    • Puntuación general: 26/30 (Umbral de superación).
    • Fortalezas: Destacó en tareas que involucran atención, comprensión del lenguaje y abstracción. Completó con éxito la prueba de Stroop, demostrando una fuerte flexibilidad cognitiva.
    • Debilidades: Tuvo dificultades con tareas visoespaciales como conectar números y letras en orden y dibujar un reloj.
  2. Claude 3.5 “Soneto” (Antrópico)
    • Puntuación general: 22/30.
    • Fortalezas: Moderadamente bueno en tareas basadas en el lenguaje y resolución de problemas básicos.
    • Debilidades: Mostró limitaciones en la retención de la memoria y desafíos de razonamiento de varios pasos, y se quedó corto en los ejercicios visuoespaciales.
  3. Géminis 1.0 (Alfabeto)
    • Puntuación general: 16/30.
    • Fortalezas: Mínimo, con éxito esporádico en tareas sencillas de denominación.
    • Debilidades: No pudo recordar ni siquiera secuencias básicas de palabras y tuvo un desempeño pésimo en el razonamiento visoespacial y en actividades basadas en la memoria, lo que refleja una incapacidad para procesar información estructurada.
  4. Géminis 1.5 (Alfabeto)
    • Puntuación general: 18/30.
    • Fortalezas: Ligeras mejoras en tareas básicas de razonamiento y lenguaje en comparación con su predecesor.
    • Debilidades: Continuó teniendo un rendimiento inferior en áreas que requieren interpretación visuoespacial, secuenciación y retención de memoria, manteniéndose muy por debajo del umbral de aprobación.

Estos resultados subrayan marcadas diferencias entre los modelos, destacando particularmente ChatGPT-4o como el sistema más capaz de esta línea. Sin embargo, incluso el desempeño más fuerte reveló brechas críticas, particularmente en tareas que simulan desafíos cognitivos del mundo real.

Tabla de instantáneas de rendimiento

Para visualizar mejor los resultados, aquí hay un resumen de las métricas de rendimiento:

Modelo Puntuación general Fortalezas clave Principales debilidades
ChatGPT-4o 26/30 Comprensión del lenguaje, atención. Tareas visoespaciales, retención de memoria.
Claudio 3.5 22/30 Resolución de problemas, abstracción. Razonamiento de varios pasos, análisis visuoespacial.
Géminis 1.0 16/30 Tareas de nombres (esporádicas) Memoria, razonamiento visoespacial, pensamiento estructurado.
Géminis 1.5 18/30 Ganancias de razonamiento incremental Fallos similares a Gemini 1.0, mínima mejora

Esta tabla no solo resalta las brechas, sino que también plantea preguntas sobre el diseño fundamental de estos modelos de IA y sus aplicaciones en escenarios del mundo real. Sirvió en tareas que requieren habilidades visuoespaciales, como vincular secuencias de números y letras o dibujar un reloj analógico configurado para un tiempo específico. Como lo expresó el Dr. Kramer, “Nos sorprendió ver el mal desempeño de Géminis, particularmente en tareas básicas de memoria como recordar una secuencia simple de cinco palabras”.

La IA lucha por pensar como los humanos

La prueba MoCA, un elemento básico en las evaluaciones cognitivas desde la década de 1990, evalúa diversas habilidades necesarias para el funcionamiento diario. A continuación se muestra un desglose del rendimiento de los modelos en las categorías principales:

Categoría Aspectos destacados del rendimiento
Atención Fuerte en ChatGPT-4o pero débil en los modelos Gemini.
Memoria ChatGPT-4o retuvo 4/5 palabras; Géminis falló.
Idioma Todos los modelos sobresalieron en tareas relacionadas con el vocabulario.
visuoespacial Todos los modelos tuvieron problemas, con Géminis en la parte inferior.
Razonamiento Claude y ChatGPT mostraron un rendimiento moderado.

Un caso atípico sorprendente fue la prueba de Stroop, que mide la capacidad de un sujeto para procesar estímulos conflictivos (por ejemplo, identificar el color de la tinta de palabras que no coinciden como “ROJO” escrito en verde). Solo ChatGPT-4o tuvo éxito, mostrando una capacidad superior de flexibilidad cognitiva.

Implicaciones para la medicina: una revisión de la realidad

Estos hallazgos pueden remodelar el diálogo en torno al papel de la IA en cuidado de la salud. Si bien los LLM como ChatGPT han demostrado un potencial significativo en campos como el diagnóstico, sus limitaciones en la interpretación visual complejo y datos contextuales resaltar una vulnerabilidad crítica. Por ejemplo, el razonamiento visuoespacial es fundamental para tareas como leer escáneres médicos o interpretar relaciones anatómicas, tareas en las que estos modelos de IA fallan espectacularmente.

Citas notables de los autores del estudio:

  • “Estos hallazgos arrojan dudas sobre la idea de que la IA pronto reemplazará a los neurólogos humanos”. comentó el Dr. Kramer.
  • Otro coautor añadió: “Ahora nos enfrentamos a una paradoja: cuanto más inteligentes parecen estos sistemas, más descubrimos sus sorprendentes defectos cognitivos”.

¿Un futuro de IA con limitación cognitiva?

A pesar de sus deficiencias, los LLM avanzados siguen siendo herramientas valiosas para ayudar a los expertos humanos. Sin embargo, los investigadores advierten contra una dependencia excesiva de estos sistemas, particularmente en contextos de vida o muerte. La posibilidad de una “IA con trastornos cognitivos”, como dice el estudio, abre una vía completamente nueva de cuestiones éticas y tecnológicas.

Como concluyó el Dr. Kramer, “Si los modelos de IA muestran vulnerabilidades cognitivas ahora, ¿qué desafíos podríamos enfrentar a medida que se vuelvan más complejos? ¿Podríamos crear sin darnos cuenta sistemas de IA que imiten los trastornos cognitivos humanos?

Este estudio arroja luz sobre los límites incluso de los sistemas de IA más avanzados y exige una exploración urgente de estos problemas a medida que continuamos integrando la IA en dominios críticos.

¿Qué sigue?

Es probable que los hallazgos de este estudio alimenten el debate en las industrias médica y tecnológica. Las preguntas clave a abordar incluyen:

  • ¿Cómo pueden los desarrolladores de IA abordar estas debilidades cognitivas?
  • ¿Qué salvaguardias deberían implementarse para garantizar la confiabilidad de la IA en la medicina?
  • ¿Podría la formación especializada mejorar el rendimiento de la IA en áreas como el razonamiento visuoespacial?

La conversación está lejos de terminar y, a medida que la IA continúa evolucionando, también debe hacerlo nuestra comprensión de sus capacidades y vulnerabilidades.

El estudio se publica en el Revista médica británica

¿Tienes una reacción? Comparte tus pensamientos en los comentarios.

¿Disfrutaste este artículo? Suscríbase a nuestro boletín gratuito para obtener historias interesantes, contenido exclusivo y las últimas noticias.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version