Un reciente estudio revela que la inteligencia artificial (IA) presenta fallos significativos en el diagnóstico inicial de pacientes, alcanzando un porcentaje de error que supera el 80%. Esta cifra alarmante sugiere que la IA todavía no está lista para ser utilizada en contextos clínicos de manera autónoma.
Los modelos de lenguaje generativo, conocidos como LLM (por sus siglas en inglés), han demostrado cierta mejora en sus capacidades diagnósticas cuando se les proporciona información clínica exhaustiva. Sin embargo, según la investigación llevada a cabo por Mass General Brigham, un reconocido sistema sanitario en Boston, los LLM fallan en ofrecer diagnósticos diferenciales adecuados en la mayoría de los casos. Esto es crucial, ya que el diagnóstico diferencial es el primer paso que los médicos deben realizar para identificar enfermedades y diferenciarlas de otras que presenten síntomas similares.
El estudio, publicado en la revista médica de acceso abierto JAMA Network Open, concluye que los modelos actuales aún carecen de la capacidad de razonamiento necesaria para ser aplicados de forma segura en la práctica clínica. El coautor del estudio, Marc Succi, enfatiza que, a pesar de los avances tecnológicos, los LLM de uso general no están preparados para el uso clínico sin supervisión y garantias de seguridad.
Para realizar su investigación, el equipo analizó 21 LLM, incluyendo versiones recientes de Claude, DeepSeek, Gemini, GPT y Grok. Estos modelos fueron evaluados utilizando 29 viñetas clínicas estandarizadas mediante un instrumento innovador llamado PrIME-LLM. Este herramienta mide la eficacia de los modelos en diversas etapas del razonamiento clínico: desde el diagnóstico inicial hasta la planificación del tratamiento.
Durante las pruebas, los investigadores proporcionaron información a los modelos de forma escalonada, empezando con datos básicos como la edad, sexo y síntomas del paciente, y posteriormente añadiendo hallazgos de exploraciones físicas y resultados de laboratorio. Esta metodología tenía como objetivo simular un entorno real de atención médica, donde el diagnóstico diferencial es esencial para avanzar en el tratamiento. A pesar de que los modelos alcanzaban una alta precisión en diagnósticos finales, su rendimiento en la generación de diagnósticos diferenciales y en el manejo de la incertidumbre fue notablemente insuficiente.
Arya Rao, uno de los autores del estudio, afirmó que al evaluar los LLM de manera escalonada, la investigación reposiciona estos modelos como médicos en lugar de estudiantes en un examen. Aunque los modelos demostraron ser competentes en identificar diagnósticos finales una vez que se cuenta con toda la información, mostraron dificultades en las fases iniciales del diagnóstico, donde la información es limitada.
Los resultados del estudio indicaron que más del 80% de los LLM no lograron proporcionar un diagnóstico diferencial adecuado. Sin embargo, los mensajes alcanzados en las conclusiones destacan la importancia del juicio clínico humano. Susana Manso García, experta en salud digital, subrayó la relevancia de los resultados al advertir que la IA, aunque prometedora, no debe ser utilizada para tomar decisiones clínicas sin supervisión humana. Por lo tanto, la recomendación para la ciudadanía es abordar estas tecnologías con precaución y consultar siempre con profesionales de la salud ante cualquier inquietud relacionada con su bienestar.
Discussion Questions
- ¿Cuáles son las implicaciones éticas de utilizar inteligencia artificial en el diagnóstico médico, considerando los errores significativos mencionados en el estudio?
- ¿En qué medida crees que la supervisión humana puede mitigar los errores cometidos por los LLM en el diagnóstico diferencial?
- ¿Qué papel debería jugar la formación y la educación médica en la integración de la IA en la práctica clínica?
- ¿Cómo podrían los sistemas de salud preparar a los profesionales para trabajar con LLM y otras tecnologías emergentes en el diagnóstico?
- ¿Qué aspectos de la atención al paciente podrían verse afectados si se confía demasiado en la inteligencia artificial para la toma de decisiones médicas?