Noticias

RENDIMIENTO DE CHATGPT y Microsoft Copilot en Bing al responder preguntas de ultrasonido obstétrico y analizar informes de ultrasonido obstétrico

Published

on

Este estudio evaluó la precisión y consistencia de los modelos AI (CHATGPT-3.5, CHATGPT-4.0 y Copilot) para responder preguntas de ultrasonido obstétrico y analizar informes de ultrasonido obstétrico. CHATGPT-3.5 y CHATGPT-4.0 demostraron una precisión y consistencia superiores al responder 20 preguntas relacionadas con el ultrasonido en comparación con el copiloto. Sin embargo, no hubo diferencia estadística entre los modelos (PAG> 0.05 para todos), lo que puede deberse al pequeño tamaño de la muestra. En el análisis e interpretación de los informes de ultrasonido obstétrico, tanto ChatGPT-3.5 como ChatGPT-4.0 exhibieron una precisión significativamente mayor que el copiloto (PAG<0.05), con todos los modelos que muestran alta consistencia.

Estos modelos de lenguaje avanzado han demostrado potencial como ayudas clínicas, ofreciendo respuestas claras y típicamente precisas a cuestiones médicas que son comprensibles por los proveedores de atención médica y los pacientes. Mientras observa su capacidad, es importante caracterizar sus limitaciones16. En este estudio, CHATGPT-3.5, CHATGPT-4.0 y Copilot pueden proporcionar respuestas inconsistentes o no completamente correctas. Por ejemplo, las respuestas de Copilot a la madurez placentaria y la frecuencia del examen de ultrasonido durante el embarazo, la respuesta de ChatGPT-3.5 al índice de líquidos amnióticos y la respuesta de ChatGPT-4.0 al nivel II de madurez placentaria, que se ha informado tres veces pero utilizando diferentes descripciones y resultó en algunas respuestas correctas y incorrectas. La sugerencia final para muchas respuestas generadas por estos modelos fue consultar con la atención médica. Se puede encontrar que los modelos similares a CHATGPT-3.5, CHATGPT-4.0 y Copilot pueden generar texto coherente y gramaticalmente correcto, pero pueden no tener la capacidad de distinguir entre cada paciente, combinar el historial médico del paciente y combinar con los últimos avances en esta tecnología, como lo hacen los expertos humanos en campos específicos.

Para el análisis de los informes de ultrasonido obstétrico, tres LLM pudieron identificar la mayoría de los indicadores anormales y demostrar una alta repetibilidad. La precisión de ChATGPT-3.5, CHATGPT-4.0 y Copilot fue del 83.86%, 84.13%y 77.51%, respectivamente, mientras que su consistencia fue del 87.30%, 93.65%y 90.48%, respectivamente. Sin embargo, al identificar las anormalidades en las mediciones de crecimiento fetal, tres LLM mostraron una precisión más baja, con ChatGPT-3.5 al 59.38%, CHATGPT-4.0 a 60.42%y copiloto al 50.00%. El estudio de Rahsepar AA et al.13demostró que los errores proporcionados por LLM podrían deberse a su capacitación en diversos contenido de Internet, como artículos, libros, Wikipedia, noticias y sitios web, en lugar de literatura e información científica. Otra razón podría ser que los estándares para las mediciones de crecimiento fetal varían en diferentes etnias17lo que hace que los LLM se referen a los estándares que pueden no alinearse con la población incluida en este estudio. En el estudio de Shen Y et al., Se señaló que estos LLM no participan en interacciones para aclarar las preguntas que se les pide que proporcionen respuestas precisas. En cambio, tienden a asumir lo que el usuario quiere escuchar, lo que puede resultar en información inexacta o incompleta16. Además, vale la pena señalar la seguridad de los modelos de IA utilizados en el campo de la medicina. Si el modelo se ve afectado por ataques adversos o insumos erróneos, puede conducir a una interpretación incorrecta de los informes, lo que puede tener graves consecuencias en la toma de decisiones médicas18,19,20.

En dos casos de análisis de informes de ultrasonido obstétrico, Copilot identificó incorrectamente una distancia mayor de 2 cm entre la placenta y el sistema operativo cervical como anormal, etiquetando la condición como “placenta previa” y sugiriendo que podría provocar sangrado durante el parto. La difusión de tal información incorrecta puede causar angustia emocional para la mujer embarazada y toda su familia. Un estudio sugirió que debemos ser cautelosos sobre las aplicaciones potenciales de las aplicaciones complejas de procesamiento del lenguaje natural en la atención médica21. Los resultados de la investigación de Ayers JW et al. demostró que ChatGPT puede proporcionar respuestas empáticas y de alta calidad a las preguntas del paciente planteadas en los foros en línea, con el 78.6% de los evaluadores que prefieren las respuestas de chatbot22. Sin embargo, los estudios han destacado que es crucial reconocer que las respuestas de chatbot pueden no ser siempre precisas, ya que sus conjuntos de datos de entrenamiento pueden contener información sesgada, lo que puede conducir a respuestas alucinadas13. Estos son similares a nuestros resultados de investigación, donde los LLM pudieron analizar cada informe de ultrasonido y proporcionar recomendaciones y opiniones detalladas, aunque los resultados de sus análisis no fueron del todo precisos.

Al comparar los resultados de análisis de los informes de ultrasonido entre ChatGPT-3.5, ChatGPT-4.0 y Copilot, se descubrió que, aunque ChATGPT demostró una precisión general más alta que el copiloto, cada software tiene sus propias fortalezas y debilidades. Las respuestas generadas por ChatGPT-3.5 fueron más concisas y claras, y también proporcionaron recomendaciones para cada informe. Las respuestas generadas por ChatGPT-4.0 fueron muy detalladas e integrales, y se proporcionó un resumen al final de cada respuesta. Las respuestas de Copilot analizaron cada elemento de acuerdo con la estructura de los informes de ultrasonido, lo que resulta en recomendaciones finales más detalladas e integrales.

Hay varias limitaciones para este estudio. Primero, solo se diseñaron veinte preguntas relacionadas con la ecografía obstétrica y se analizaron 110 informes de ultrasonido obstétrico. Expandir el tamaño de la muestra, especialmente con muestras de diferentes modalidades, validaría mejor la estabilidad y la precisión de la aplicación de LLM en el campo de la medicina. En segundo lugar, los avances recientes en las redes de fusión de decisiones han mostrado un éxito significativo en la clasificación de imágenes, especialmente en la fusión multimodal y la toma de decisiones de tareas múltiples23,24. En este estudio, solo se analizaron datos textuales relacionados con la ultrasonido obstétrico. Los datos multimodales se explorarían en futuras investigaciones, lo que puede producir resultados diferentes. Tercero, la evaluación de las respuestas generadas por los LLMS fue realizada por médicos de ultrasonido con diferentes antigüedad. Los estudios futuros podrían incluir obstetras o expertos en medicina materna fetal, que son altamente calificadas y competentes en la interpretación de ultrasonidos obstétricos y pueden proporcionar orientación clínica experta.

En resumen, estos modelos de inteligencia artificial (CHATGPT-3.5, CHATGPT-4.0 y Copilot de Microsoft en Bing) tienen el potencial de ayudar a los flujos de trabajo clínicos al mejorar la educación del paciente y la comunicación clínica del paciente en torno a problemas comunes de ultrasonido obstétrico. Sin embargo, dadas las respuestas inconsistentes y a veces inexactas, así como las preocupaciones de ciberseguridad, la supervisión del médico es crucial en el uso de estos modelos.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version