Noticias
CHATGPT-4 para abordar las preguntas frecuentes centradas en el paciente en la práctica clínica de degeneración macular relacionada con la edad

Un grupo diverso de médicos oculares evaluó las respuestas de ChatGPT-4 a preguntas frecuentes sobre AMD como coherente, objetiva, integral y segura. El dominio de coherencia se evaluó más alto, seguido de seguridad, realidad y amplitud. Si bien las puntuaciones Likert fueron generalmente agradables a nivel de grupo, las calificaciones de los evaluadores fueron variables, con más de la mitad de las preguntas que obtuvieron una puntuación inferior a 4 dentro de los dominios de hecho e integridad. Los comentarios de texto libre identificaron áreas de déficit, y un número sustancial de preguntas obtenidas por debajo de un nivel de “acuerdo” en los dominios de calidad clave, especialmente con respecto a la realidad, la especificidad y la aplicabilidad de la información, y su contextualización.
Rendimiento de ChatGPT-4 al responder a las preguntas frecuentes en AMD
Ferro Desideri et al. [15] Comparó los tres LLM en responder asesoramiento médico general (15 preguntas) y consejos relacionados con inyecciones intravítreas (13 preguntas) para AMD y utilizaron tres especialistas en Retina para evaluar su precisión y suficiencia (amplitud). Específico para el rendimiento de ChatGPT, los autores encontraron que las respuestas de 12/15 a las preguntas generales de asesoramiento médico se consideraron precisas y suficientes, y las otras tres respuestas fueron parcialmente precisas y suficientes. Para las preguntas relacionadas con las inyecciones intravítreas, las respuestas 10/13 se consideraron precisas y suficientes, y tres fueron parcialmente precisas y suficientes. Estos resultados sugirieron una visión optimista de las respuestas LLM. Sin embargo, su estudio no informó sobre qué características de las respuestas se consideraron solo parcialmente precisas. Además, aunque los autores informaron un alto nivel de suficiencia de las respuestas (análogos a la amplitud en nuestro trabajo actual), nuestros resultados demostraron calificaciones más bajas en este dominio de calidad. El enfoque metodológico también difería, ya que nuestro estudio utilizó una escala Likert, que proporciona más granularidad que su calificación descriptiva trinarizada. Como se indica en los métodos, una escala de 5 puntos permite la expresión de puntos de vista más “extremos” y opiniones más templadas (y, por lo tanto, granularidad), en relación con una escala de 3 puntos, al tiempo que mantiene una mayor eficiencia y una confiabilidad de prueba potencialmente mejor en comparación con escalas más grandes, como una escala de 10 puntos, como una escala de 10 puntos, como una escala de 10 puntos [20].
Cheong et al. [16] Evaluó las respuestas de varios chatbots, incluido el chatgpt-4, con las preguntas relacionadas con la mácula y la retina. Tres especialistas en la retina capacitados en becas evaluaron las respuestas de chatbot utilizando una escala Likert de 3 puntos (0–2) y resumieron los puntajes en los grados para reflejar un enfoque de consenso para la evaluación. Descubrieron que el 83.3% de las respuestas de ChatGPT-4 a las preguntas de AMD eran “buenas” (su calificación más alta), sin ninguna de las respuestas consideradas “pobres” (su calificación más baja). ChatGPT-4 (y 3.5) superó a los otros chatbots en el estudio, y los autores concluyeron que son potencialmente capaces de responder preguntas relacionadas con enfermedades retinianas, como la AMD. Diferencias entre nuestro presente estudio y el trabajo de Cheong et al. [16] incluyó el alcance de las preguntas y el método de clasificación. Su lista de preguntas de AMD se relacionó principalmente temáticamente con el tratamiento y el asesoramiento asociado, como las vitaminas y los procesos relacionados con las inyecciones intravítreas, con algunas preguntas altamente específicas (como una pregunta relacionada con verteporfina (Visudyne, Bausch y Lomb, Ontario, Canadá) y Ranibizumab (Lucentis, novartis AG, Basel, suiza); no es probable que el Chatbot, no sea el Chatbot, lo que usa el Chatbot, lo que usa el Chatbot. término). Si bien su enfoque de consenso fue útil para obtener una impresión general de calidad, no facilitó el análisis de la variabilidad entre los calificadores.
Muntean et al. [17] realizó un estudio que comparó las respuestas de ChatGPT-4, Palm2 y tres oftalmólogos con preguntas de escenario específicas, incorporando una viñeta de fondo (como la que Asker de la pregunta es un paciente con AMD) que puede ser relevante para formular el resultado. Utilizando estas permutaciones, los autores analizaron los resultados de 133 preguntas a lo largo de seis ejes de calidad, algunos de los cuales se superpusieron con nuestros dominios de calidad. Utilizando dos revisores de oftalmólogos, los autores informaron resultados muy positivos para las respuestas de ChatGPT 4, con el 88-100% de las respuestas que obtuvieron una puntuación perfecta de 5 (en una escala Likert de 5 puntos) que fueron más altas en comparación con nuestros resultados. Las diferencias clave entre su metodología y el presente estudio podrían explicar las diferencias en los resultados. Una diferencia fue la amplitud del sistema y el usuario indica la entrada de Muntean et al. [17]que incluye varias advertencias importantes, dos de las cuales fueron para preguntarle al chatbot para explicar por qué una pregunta puede no tener sentido en lugar de responder una pregunta confusa o incorrecta, y no compartir información falsa si el chatbot no sabe la respuesta. Hubo muchos casos en el presente estudio en los que la información no era precisa o relevante para la pregunta, lo que podría abordarse mediante la inclusión de estas indicaciones. Prefañar y contextualizar la pregunta podría ayudar a proporcionar asesoramiento más relevante y seguro en las respuestas. A pesar del optimismo en la mayoría de los dominios de calidad, Muntean et al. [17] También resalte los déficits relacionados con las respuestas en términos de su reflejo del consenso clínico y científico (es decir, el conocimiento médico contemporáneo y correcto) y no falta información importante, similar a las críticas planteadas en nuestros resultados.
En general, la literatura previa relacionada con el uso de chatbot en AMD ha sido principalmente positiva, especialmente con respecto a la precisión y la integridad de las respuestas. Sin embargo, nuestro estudio fue relativamente menos positivo, posiblemente debido a una mayor diversidad de calificadores, una gama más amplia de preguntas y el uso de una escala Likert de 5 puntos en más dominios de calidad. Como era de esperar, si bien la coherencia era el dominio mejor calificado, su importancia es posiblemente menor que la de seguridad y realidad, ya que estos reflejan los riesgos potenciales para la comunidad con el uso de chatbot no supervisado.
Variabilidad en las evaluaciones entre evaluadores y por grupo profesional
El equipo diverso de evaluadores en el presente estudio indica que la precisión o utilidad de los chatbots puede diferir dependiendo del entorno clínico y la base de pacientes. Por ejemplo, las prácticas optométricas generales tienen más probabilidades de ver a los pacientes en riesgo de AMD o con etapas anteriores de AMD. Por el contrario, las clínicas de oftalmología especializadas tienen más probabilidades de ver pacientes con etapas más avanzadas de AMD y aquellos que requieren tratamientos, como inyecciones intravítreas. Otros servicios específicos, como clínicas de baja visión y configuraciones de atención colaborativa, también pueden afectar la base de pacientes y la información esperada del chatbot [22, 23].
El grupo optometrista devolvió clasificaciones más bajas en comparación con el grupo de oftalmólogo. Una explicación para esto puede ser la actitud más conservadora del grupo optometrista, que comprendía a los médicos que trabajan en un entorno principalmente académico. Las críticas relacionadas con la integridad de las respuestas de chatbot pueden reflejar un hábito profesional de cubrir más información y contenido, dado más tiempo de asistencia por parte del grupo profesional. El entorno clínico académico puede reflejar una actitud más crítica del grupo optometrista en el presente estudio, buscando un lenguaje más preciso con respecto a los resultados de chatbot.
Otra explicación es la posible heterogeneidad entre todos los evaluadores, y la aceptabilidad de diferentes niveles de precisión de las declaraciones de chatbot. Aunque existen pautas para el cuidado de pacientes con AMD [24,25,26]las diferencias a nivel profesional también pueden inyectar sesgos en la interpretación de las salidas de chatbot. A pesar de las pautas autorizadas, también se sabe que el consenso sobre las declaraciones sobre la AMD y entre las profesiones puede ser difícil de lograr, debido a la amplia heterogeneidad de las prácticas clínicas y la presentación del paciente. [27].
Separar dominios de calidad en la evaluación de las respuestas de chatbot
Se esperaba la coherencia que se calificó más alto, dada la naturaleza de la tecnología LLM Chatbot [28]. Este dominio de la calidad de respuesta de chatbot tiende a estar altamente calificado dentro de la literatura en muchos campos. Un problema notable fue la falta de citas en algunas de las respuestas. [29].
En cuanto a la seguridad, una característica de muchas de las respuestas fueron recomendaciones para buscar asesoramiento experto de un profesional de la atención. Esto fue particularmente importante para las preguntas temáticas del tratamiento. Sin embargo, varias preguntas fueron calificadas de manera pobre en seguridad por otras razones, especialmente debido a los malos consejos sobre pruebas o intervenciones innecesarias. Un ejemplo que fue criticado repetidamente fueron las pruebas genéticas, que, en el momento del estudio, no es una prueba clínica de rutina para AMD [30].
La fáctica también tenía muchas preguntas con calificaciones subóptimas. Un problema planteado por Muntean et al. [17] fue el papel de las indicaciones del sistema para garantizar una respuesta apropiada, y las respuestas a nuestro enfoque destacaron aún más fallas de prominencia de la información. Varias de las respuestas de chatbot pueden haber sido estrictamente ciertas, pero estaban muy alejadas de la práctica clínica rutinaria, y la falta de priorización de información importante significaba que los hechos no estaban representados con precisión.
El problema de la prominencia de la información también se reflejó en puntajes de baja integridad. Las respuestas de chatbot a veces incluirían información de nicho, como ayudas de baja visión y telescopios. Muntean et al. [17] Intentó evitar esta limitación agregando el escenario de un paciente para prefacionar la pregunta. Sin embargo, nuevamente, un laico que usa la tecnología LLM puede no tener la experiencia para agregar esta información para optimizar la respuesta. Una limitación de los LLM previamente capacitados es la información potencial anticuada, donde las tecnologías y tratamientos emergentes no pueden incluirse en las respuestas.
Limitaciones
Hemos descrito previamente las limitaciones del enfoque de calificación subjetiva para evaluar las respuestas de LLM [18]. Las combinaciones de Likert de múltiples puntos u otras escalas granulares y tener más alumnos pueden ayudar a superar los datos subjetivos sesgados. Aunque las escalas Likert de 5 puntos son más granulares que las escalas trinarias, todavía existe el potencial de los efectos de techo o piso [31]. Esto se vio con muchas de las preguntas con un puntaje de 4 o más. Los estudios de esta naturaleza también carecen de una verdad fundamental, en lugar de depender de la validez determinada por los expertos. Los estándares de referencia están disponibles al comparar diferentes LLM o resultados expertos generados por humanos, pero también tienen problemas con la subjetividad.
Nuestra lista de preguntas fue comisariada de varias fuentes autorizadas y, en gran parte, se simplificó para fines de brevedad. Como se describió anteriormente, cómo se ingresan las preguntas en los chatbots pueden contribuir a la generación de respuesta. Nuestro objetivo era mantener las preguntas simples y amplias. Los estudios futuros con más granularidad podrían proporcionar más información.
Finalmente, comprender más a fondo la implementación clínica requeriría la entrada del usuario final, como los pacientes en riesgo o que tienen AMD. Junto con una mayor consulta de partes interesadas, existen desafíos éticos bien documentados que ocurren en paralelo a los problemas clínicos de precisión, con muchas preocupaciones como la privacidad y la seguridad, la propiedad intelectual, la transparencia y la responsabilidad, el sesgo y la explicabilidad, entre otros [32]. Esta es otra consideración para los médicos antes del despliegue generalizado.