GPT-4 en radiología: por qué el formato de explicación de un LLM cambia la precisión diagnóstica de los médicos
Philipp Spitzer y colegas publicaron el 23 de abril de 2026 en npj Digital Medicine un ensayo aleatorizado que compara tres formatos de explicación de GPT-4 sobre la precisión diagnóstica de 101 radiólogos estadounidenses, evaluando cada uno 20 casos (2 020 evaluaciones). Las explicaciones en chain-of-thought mejoran la precisión en 12,2 puntos porcentuales frente al control (p = 0,001), mientras que el formato de diagnóstico diferencial — intuitivamente médico — no aporta nada significativo e induce un marcado sesgo de automatización cuando el modelo se equivoca. Lectura importante porque desplaza la pregunta: ya no se trata solo de "¿es bueno el LLM?", sino de "¿cómo hacerle decir lo que sabe sin imponer sus errores?".
El contexto
Los large language models (LLM, modelos generativos de lenguaje entrenados sobre corpus masivos de texto) alcanzaron en 2024-2025 un rendimiento diagnóstico elevado en casos radiológicos. GPT-4 (el modelo multimodal de OpenAI desplegado a finales de 2023), Med-PaLM 2, Claude y sus sucesores superan ahora rutinariamente el 70-80 % de precisión en benchmarks públicos como el NEJM Image Challenge o MedQA. La pregunta de investigación ha cambiado: ya no es "¿funcionan estos modelos?", sino "¿cómo integrarlos en un flujo de trabajo donde realmente complementen al radiólogo en lugar de reemplazarlo o engañarlo?".
Varios estudios en 2024-2025 han comenzado a documentar un fenómeno contraintuitivo: un LLM solo puede ser más preciso que el binomio radiólogo + LLM, porque el médico sobreconfía en el modelo cuando este se equivoca (sesgo de automatización) o rechaza sus buenas sugerencias sin entenderlas. La ayuda a la decisión médica no es un tema nuevo — los sistemas expertos de los años 1980-1990 como MYCIN o INTERNIST tropezaron con este mismo muro: un sistema que da una respuesta no dice por qué, y un médico que no entiende por qué no sabe cuándo confiar. Los LLM aportan aquí una novedad técnica mayor: pueden generar una explicación en lenguaje natural junto a su predicción, en varios formatos diferentes. ¿Pero qué formato? Ningún ensayo aleatorizado a gran escala había comparado esos formatos hasta ahora.
El método
El estudio está dirigido por Philipp Spitzer y Daniel Hendriks (co-primeros autores), en colaboración con un equipo clínico del departamento de radiología de la LMU de Múnich (Jan Rudolph, Sarah Schlaeger, Jens Ricke, Boj Friedrich Hoppe) y Stefan Feuerriegel (LMU). Preregistro público en AsPredicted (referencia 4tgb-sr3z), aprobación ética LMU EK-MIS-2024-320.
El diseño es un ensayo aleatorizado en grupos paralelos (between-subjects). 101 radiólogos estadounidenses certificados, con una experiencia media de 13,6 años (desviación típica 8,0), se asignan aleatoriamente a uno de los cuatro brazos. Cada radiólogo evalúa luego 20 casos radiológicos extraídos del NEJM Image Challenge, presentados como imagen más viñeta clínica corta. El diagnóstico se captura en texto libre — sin opciones múltiples — y luego se codifica manualmente para erratas. Total: 2 020 evaluaciones.
Los cuatro brazos son los siguientes. Control (n = 24): sin apoyo LLM, búsqueda en internet permitida pero sin uso de LLM. Salida estándar (n = 24): GPT-4 proporciona un diagnóstico sin explicación ("el diagnóstico más probable es X"), longitud media 62,7 palabras. Diagnóstico diferencial (n = 30): GPT-4 proporciona las cinco hipótesis más probables, clasificadas, con una breve justificación para cada una, longitud media 208,6 palabras. Chain-of-thought (n = 23): GPT-4 proporciona su razonamiento paso a paso antes del diagnóstico final, longitud media 188,6 palabras.
El término chain-of-thought (CoT, a veces traducido como "cadena de pensamiento") designa una técnica de prompting en la que se pide explícitamente al modelo que descomponga su razonamiento en etapas antes de responder. Documentada desde 2022 en los LLM generalistas (Wei et al.), mejora el rendimiento en tareas de razonamiento y — punto central de este artículo — la legibilidad del razonamiento por parte de un usuario humano.
El modelo utilizado es GPT-4 en su versión multimodal (capaz de procesar imagen más texto). GPT-4 solo obtiene 75 % en estos 20 casos en salida estándar, 80 % en chain-of-thought, y 65 % top-1 / 80 % top-5 en diagnóstico diferencial.
Los resultados
El resultado principal es un efecto heterogéneo marcado según el formato de explicación.
El formato chain-of-thought mejora significativamente la precisión de los radiólogos: +12,2 puntos porcentuales frente al control (intervalo de confianza al 95 %: 5,3 a 19,2; p = 0,001). Es el efecto más fuerte observado en el estudio.
Los formatos salida estándar y diagnóstico diferencial no aportan nada estadísticamente significativo frente al control: respectivamente +5,0 pp (IC 95 %: -1,8 a 11,8; p = 0,150) y +2,5 pp (IC 95 %: -4,0 a 9,0; p = 0,446). Contraintuitivo: el diagnóstico diferencial, pese a ser un formato cercano al razonamiento médico tradicional, es el menos útil.
Comparado directamente con los demás formatos, el chain-of-thought sigue en cabeza: +7,2 pp frente a salida estándar (p = 0,040) y +9,7 pp frente a diagnóstico diferencial (p = 0,004). GPT-4 solo supera a todos los grupos de radiólogos, incluidos los asistidos por GPT-4 bajo cualquier formato. Es un resultado que merece leerse con mucha precaución (ver limitaciones), pero es coherente con una parte creciente de la literatura 2024-2025.
La adherencia a las sugerencias del LLM es reveladora. Cuando GPT-4 se equivoca, los radiólogos del brazo diagnóstico diferencial adoptan aun así su diagnóstico el 80 % de las veces; los del brazo salida estándar, el 30,6 %; los del brazo chain-of-thought, el 30,4 %. Esta brecha sugiere un mecanismo preciso: un diferencial estructurado en cinco hipótesis presenta una apariencia de exhaustividad metodológica que desarma el juicio crítico del radiólogo. Es el modo de fallo clásico del sesgo de automatización (la tendencia documentada de los humanos a sobreconfiar en sistemas automatizados, sobre todo cuando estos parecen rigurosos).
Traducción clínica. Sobre 1 000 casos radiológicos de dificultad comparable, un radiólogo no asistido resolvería correctamente unos 600 casos. El mismo radiólogo asistido por GPT-4 con chain-of-thought resolvería 722, y el mismo radiólogo asistido por GPT-4 con salida estándar o diagnóstico diferencial resolvería solo entre 605 y 625 — sin diferencia práctica. Pero cuando el LLM se equivoca (y se equivoca alrededor del 25 % de las veces en este benchmark), el formato diagnóstico diferencial conduce a casi el doble de errores adoptados que los otros dos formatos.
Lo que está bien
Tres fortalezas específicas.
El diseño aleatorizado preregistrado. El estudio está preregistrado públicamente en AsPredicted antes de la recolección de datos, lo que cierra la puerta al p-hacking y a la elección post-hoc de análisis favorables. Esta exigencia metodológica sigue lejos de ser sistemática en la literatura LLM-clínica y merece reconocimiento — la mayoría de las evaluaciones de modelos clínicos siguen siendo retrospectivas, post-hoc, y eligen sus métricas tras ver los datos.
El comparador es justo. El grupo control no está privado de todo: tiene acceso a Internet, PubMed, cualquier documentación que no sea un LLM. Es el comparador correcto — el del radiólogo de 2026 en su práctica real. Las comparaciones LLM-contra-nada, comunes en la literatura previa, sobrestimaron sistemáticamente la contribución de los LLM al privar a los médicos de sus recursos habituales.
El tamaño de muestra es creíble. 101 radiólogos certificados con 13,6 años de experiencia media y 2 020 evaluaciones independientes constituyen una muestra comparable a los grandes estudios de ayuda a la decisión en radiología. La potencia estadística para detectar un efecto de 12 pp es sólida. También es uno de los pocos estudios del campo que recluta radiólogos seniors en lugar de residentes.
Lo que está menos bien
Tres limitaciones precisas a tener en cuenta.
Es un vignette study, no un flujo de trabajo clínico real. Los radiólogos responden a 20 casos aislados, con contexto mínimo, sin historia clínica completa, sin secuencia de casos comparables el mismo día, sin presión temporal realista. La validez ecológica es limitada — un radiólogo que lee 80 escáneres de guardia nocturna no se parece a un radiólogo que responde a 20 viñetas a su ritmo desde su despacho. Los autores lo reconocen y piden estudios en condiciones reales. Cualquier extrapolación a desenlaces de paciente (mortalidad, morbilidad, exámenes evitados) queda por hacer.
Contaminación probable de GPT-4. Los casos provienen del NEJM Image Challenge, que es público y antiguo. GPT-4 ha visto muy probablemente estos casos y sus soluciones durante su entrenamiento. Los autores proponen una prueba de memorización y concluyen que las puntuaciones de similitud son bajas, pero la dependencia sigue siendo un modo de fallo clásico: es el data leakage aplicado a un LLM, que ninguna prueba simple de similitud detecta perfectamente. La puntuación absoluta de GPT-4 (75-80 %) debe pues leerse con esa reserva en mente — el rendimiento en clínica sobre casos verdaderamente inéditos será probablemente más bajo.
El diseño between-subjects debilita las comparaciones entre brazos. Como cada radiólogo solo ve un formato, las diferencias observadas entre brazos pueden reflejar parcialmente diferencias entre radiólogos en lugar de entre formatos — sobre todo con efectivos de 23 a 30 por brazo. Un diseño within-subjects (cada radiólogo prueba cada formato sobre casos comparables) sería mucho más potente y es explícitamente sugerido por los autores como continuación. Con 23 sujetos en el brazo chain-of-thought, un solo radiólogo especialmente competente cambia la media del brazo de manera no despreciable. Es el modo de fallo clásico del sesgo de población bajo muestreo limitado.
Mención adicional: un único momento de medida, sin seguimiento longitudinal, y la información sobre financiación y conflictos de intereses no es accesible en la versión preprint consultada.
Lo que cambia
Para la comunidad de investigación IA-salud, la señal es clara: el formato de explicación no es un detalle de UX, es un determinante mayor del rendimiento del binomio humano-IA. La literatura sobre LLM clínicos se ha concentrado masivamente en la puntuación bruta del modelo ("¿la IA vence al médico?") descuidando que en la práctica el médico mantendrá el mando y que su precisión dependerá de la manera en que el modelo se expresa. Las futuras evaluaciones deberían comparar sistemáticamente varios formatos de explicación, como los ensayos clínicos comparan las dosis de un medicamento. Es una nueva dimensión de evaluación a integrar en guías emergentes como TRIPOD-LLM o CLAIM.
Para los clínicos, el mensaje es paradójicamente alentador y preocupante. Alentador: un formato de explicación bien elegido puede aportar 12 puntos de precisión diagnóstica, clínicamente sustancial en un dominio donde cada punto cuenta. Preocupante: el formato intuitivamente "médico" (diagnóstico diferencial) es precisamente el que induce la sobreconfianza más peligrosa cuando el modelo se equivoca. Cualquier despliegue de un LLM clínico deberá validarse en condiciones reales para su formato específico, no solo por su rendimiento bruto. Chain-of-thought no es una receta universal: funcionó aquí, en este contexto, con este modelo.
Para los pacientes y el público, la enseñanza es más sutil. La IA en radiología no es ni la revolución mágica de los comunicados de prensa ni el placebo temido por los escépticos. Es una tecnología que puede ayudar, que puede perjudicar, y cuyo impacto real depende de elecciones de interfaz que la mayoría de los proveedores comerciales no documentan. Preguntar al hospital qué modelo se utiliza, en qué formato y con qué validación local se vuelve una pregunta legítima.
Para profundizar
El artículo de Spitzer y colegas es de acceso abierto en Nature, DOI 10.1038/s41746-026-02619-0. El preregistro público AsPredicted está en aspredicted.org/4tgb-sr3z. Para el contexto del chain-of-thought prompting, véase Wei et al., NeurIPS 2022 (arXiv:2201.11903). Sobre el sesgo de automatización en medicina, el informe HAS francés "Buenas prácticas para la evaluación clínica de dispositivos médicos que integran inteligencia artificial" (diciembre de 2024) sigue siendo una referencia clave. Para el rendimiento bruto de GPT-4 en los benchmarks médicos, la evaluación NEJM Image Challenge (Buckley et al., npj Digital Medicine 2024) es un buen punto de partida.