Cuando el texto se come la imagen: lo que el estudio Restrepo 2026 revela sobre la fragilidad contextual de los VLMs clínicos en MIMIC-CXR

David Restrepo (CentraleSupélec-Université Paris-Saclay e IHU PRISM, Gustave Roussy) y su equipo publicaron en arXiv el 17 de mayo de 2026 una evaluación de ocho modelos vision-language clínicos sobre 1 000 radiografías torácicas extraídas de MIMIC-CXR. El resultado es incómodo: cuando el texto clínico proporcionado al modelo contradice la imagen — un informe de paciente sano adjunto a una radiografía patológica, o al revés —, entre el 31 % y el 66 % de las decisiones inicialmente correctas se convierten en errores. Por el contrario, sustituir la imagen por la de otro paciente apenas cambia nada. La imagen sola apenas supera el azar (0,50–0,68 de exactitud), mientras que el texto solo iguala el rendimiento multimodal. La conclusión central es contundente: estos VLMs, incluidos los frontera GPT-5 y Gemini 3 Pro y las variantes médicamente adaptadas MedGemma, funcionan esencialmente como clasificadores de informes, con la imagen como decorado. Lectura importante porque descalifica estos modelos como ayuda autónoma a la lectura, y propone una metodología de stress-test reutilizable.

El contexto

Los modelos vision-language (VLMs, vision-language models) son la clase de modelos generativos que combinan una entrada de imagen y una entrada de texto y producen una salida textual. En la versión más simple, se les muestra una radiografía y se les pregunta «¿esta imagen muestra una patología?». En la versión clínica, la entrada se enriquece con elementos del historial del paciente (motivo de examen, antecedentes, informes anteriores), lo que se acerca a las condiciones de lectura de un radiólogo. La promesa marketing desde 2024, sostenida por los anuncios de GPT-4V, MedGemma, Med-PaLM-M, es que un VLM bien entrenado puede integrar ambas fuentes y razonar clínicamente como un humano.

Varios trabajos recientes (Sim et al. ACL 2025, Deng et al. CVPR 2025 «Words or vision: Do VLMs have blind faith in text?») ya han sugerido que los VLMs generalistas otorgan un peso excesivo al texto en el razonamiento multimodal. Pero esos estudios se quedaron en tareas no clínicas. Este artículo lleva la crítica al terreno de la radiología torácica, y añade dos dimensiones ausentes de las evaluaciones estándar: la robustez frente a un informe anterior sin relación con la pregunta, y la estabilidad frente a reformulaciones semánticamente equivalentes del prompt. Estas dos variables son precisamente lo que un sistema RAG (retrieval-augmented generation, que inyecta automáticamente documentos relevantes) o un agente clínico (LLM que orquesta una cascada de herramientas) harán variar en la práctica sin que un médico pueda controlarlo.

El método

El estudio está dirigido por David Restrepo (equipo MICS, CentraleSupélec-Université Paris-Saclay, y Cancer Data Science Unit del IHU PRISM en Gustave Roussy), con Ira Ktena (Ellison Institute of Technology, Oxford), Maria Vakalopoulou y Stergios Christodoulidis (CentraleSupélec), y Enzo Ferrante (CONICET, Buenos Aires). Preprint arXiv 2605.17436 depositado el 17 de mayo de 2026, DOI 10.48550/arXiv.2605.17436, bajo licencia CC BY 4.0. Código y scripts de evaluación en GitHub. Financiación pública: programa Marie Skłodowska-Curie COFUND de la Unión Europea (DeMythif.AI, n.º 101127936) y programa France 2030 / ANR IA Cluster DATAIA (ANR-23-IACL-0003). Cómputo en Jean Zay (IDRIS-CNRS) y Ruche (Mesocentre Paris-Saclay). Sin conflicto de interés comercial declarado.

El conjunto de datos es un subconjunto equilibrado de MIMIC-CXR-JPG (PhysioNet): 1 000 radiografías torácicas frontales, 500 normales (etiqueta No Finding) y 500 con una sola patología entre cinco objetivos de la nomenclatura CheXpert (derrame pleural 30,2 %, atelectasia 25,6 %, cardiomegalia 21,8 %, edema 18,8 %, consolidación 3,6 %). Los casos con múltiples patologías coexistentes se excluyen para evitar la ambigüedad de etiquetas.

Se prueban ocho modelos: cuatro VLMs generalistas open-weights (Qwen2-VL-7B-Instruct, LLaVA-v1.5-7B, Janus-Pro-7B, Llama-3.2-11B-Vision-Instruct), dos modelos médicamente adaptados abiertos (MedGemma-4B y MedGemma-1.5-4B), y dos modelos propietarios frontera (GPT-5 snapshot del 7 de agosto de 2025 y Gemini 3 Pro). Inferencia determinista (temperatura 0) para los modelos abiertos, salida binaria «Yes/No» impuesta por prompt de sistema.

Tres protocolos de perturbación.

Primer protocolo: Selective Modality Shifting (SMS). Se mantiene una mitad de las entradas correcta y se reemplaza la otra por la entrada correspondiente de un paciente de clase opuesta. Cuatro condiciones: No Shift (imagen + texto coherentes, baseline), Text Shift (imagen normal + texto de paciente patológico, o al revés), Image Shift (texto coherente, imagen de paciente de clase opuesta), y dos baselines unimodales (Text-Only e Image-Only). La métrica clave es el Negative Flip Rate (NFR), proporción de predicciones inicialmente correctas que basculan a error tras la perturbación.

Segundo protocolo: inyección de historial no pertinente. Se insertan hasta cinco informes anteriores clínicamente plausibles pero sin relación temática (RM cerebral, TC abdomino-pélvica, radiografía de rodilla, ecografía de muñeca) al inicio del prompt, con una restricción adversarial: si la radiografía actual es patológica, los informes distractores son normales. Los informes son generados por GPT-5 con fechas sintéticas 3 a 12 meses anteriores.

Tercer protocolo: sensibilidad al prompt. Cuatro formulaciones semánticamente equivalentes — pregunta-respuesta estándar, juego de rol («eres asistente clínico»), solicitud de consulta formal (RADIOLOGY CHECK REQUEST) y lista de verificación — se prueban en paralelo, y el acuerdo entre predicciones se mide con el estadístico κ de Fleiss. Todos los intervalos de confianza al 95 % se obtienen por bootstrap no paramétrico (100 iteraciones, submuestreo al 50 %).

Los resultados

El baseline (imagen + texto coherentes) se sitúa entre 0,66 (Janus-Pro) y 0,83 (GPT-5, Gemini 3 Pro). Todos los modelos «funcionan» en el benchmark limpio.

Bajo Text Shift, el rendimiento se desploma. GPT-5 pasa de 0,83 a 0,18, Gemini 3 Pro de 0,83 a 0,17, Qwen2-VL de 0,81 a 0,20, MedGemma-1.5 de 0,79 a 0,26 — por debajo del azar (0,50). El Negative Flip Rate bajo Text Shift varía del 31,3 % (Janus-Pro) al 66,0 % (Gemini 3 Pro): entre un tercio y dos tercios de las decisiones correctas iniciales se invierten en error cuando se inserta un texto de clase opuesta.

Bajo Image Shift, por el contrario, el rendimiento apenas se mueve. GPT-5 0,83 → 0,82; Qwen2-VL 0,81 → 0,80; MedGemma 0,76 → 0,72. El NFR Image Shift se mantiene entre 2,0 % y 15,5 %. El modelo no ve, o apenas ve, la incongruencia de la imagen. Esta asimetría es el resultado-pivote del artículo.

Las baselines unimodales lo confirman. Texto solo alcanza 0,78–0,83 en la mayoría de los modelos — equivalente al multimodal. Imagen sola se queda entre 0,50 y 0,68. GPT-5 y Gemini 3 Pro consiguen 0,67–0,68 imagen-sola, ligeramente por encima del azar; Qwen2-VL y LLaVA caen exactamente al 0,50. Los autores resumen: «VLM decisions are dominated by the text modality, even when visual evidence is available.» Pedir al modelo, vía un prompt de juego de rol, que priorice la imagen no produjo ningún efecto significativo.

La inyección de informes anteriores no pertinentes también degrada. LLaVA-1.5 pasa de 0,79 a 0,66 con cinco informes distractores, Janus-Pro de 0,70 a 0,53, MedGemma-1.5 de 0,85 a 0,71. El NFR alcanza el 21,1 % para Janus-Pro y el 18,8 % para MedGemma-1.5 — casi un quinto de las predicciones correctas basculan. Los modelos frontera GPT-5 y Gemini 3 Pro aguantan mejor (NFR < 3 %), pero no son inmunes. El modo de fallo a señalar aquí es la distracción por información no pertinente, en este caso dentro de la propia modalidad texto.

La sensibilidad al prompt fluctúa mucho según el modelo. En setting de modality shifting, Qwen2-VL conserva un acuerdo excelente entre formulaciones (κ Fleiss = 0,802), Gemini 3 Pro 0,762, GPT-5 0,753, pero Janus-Pro se desploma a 0,046 (esencialmente aleatorio), y LLaVA-1.5 se queda en 0,391. Un cambio de formulación que no modifica el sentido clínico puede, por tanto, invertir la predicción.

Traducción clínica. Si un servicio de radiología utilizara uno de los VLMs abiertos probados aquí para pre-clasificar 1 000 radiografías torácicas con un informe de motivo de examen erróneo — situación banal en guardia, donde el ticket de orientación puede copiarse del examen anterior —, se observarían entre 313 y 660 reclasificaciones erróneas sobre 1 000 decisiones según el modelo. Si el sistema RAG inyectara por defecto los cinco últimos informes del paciente (práctica común en agentes clínicos), entre el 1 % y el 21 % de las predicciones correctas basculan a error sin que un humano en el bucle pueda identificar la causa — el error no viene ni de la imagen ni del diagnóstico de esa imagen, sino de un texto sin relación temática añadido al contexto.

Lo bueno

Tres fortalezas específicas.

El protocolo de stress-test es reproducible y portable a otras modalidades. El código está en GitHub bajo licencia permisiva y el método Selective Modality Shifting está completamente descrito. Cualquier laboratorio puede reejecutar el mismo protocolo sobre sus propios datos o sobre un nuevo modelo. Es una contribución metodológica al menos tan importante como las cifras brutas — la comunidad necesitaba una rejilla estándar para probar lo que los benchmarks limpios no prueban.

El panel de modelos es amplio y equilibrado. Cuatro VLMs generalistas open-weights, dos médicamente adaptados, dos fronterizos propietarios. La constatación de que MedGemma — entrenado específicamente sobre imagen+texto médicos — sufre exactamente los mismos fallos que los modelos no adaptados es el punto que hasta ayer los equipos comerciales habrían disputado. Los autores concluyen: «Domain adaptation alone is insufficient to ensure genuine visual grounding.» Afirmación fuerte y ahora respaldada.

Las métricas elegidas son las correctas. El NFR (Negative Flip Rate, Yan et al. CVPR 2021) captura exactamente lo que preocupa clínicamente: no el rendimiento medio, sino el riesgo de que una decisión correcta se invierta bajo perturbación. El κ de Fleiss sobre cuatro prompts captura la estabilidad decisional. Los intervalos de confianza por bootstrap no paramétrico son metodológicamente sólidos.

Lo menos bueno

Tres limitaciones precisas.

El conjunto de datos es pequeño y procede de un solo centro. 1 000 radiografías extraídas de MIMIC-CXR — corpus del Beth Israel Deaconess Medical Center de Boston, ya conocido por sus sesgos (población mayoritariamente adulta, escáneres específicos, convenciones de reporting locales). Los autores no evalúan ni la generalización a otro PACS, ni a otra lengua de informe, ni la robustez frente a otra modalidad (TC, RM). Es el sesgo de población clásico. La limitación se reconoce explícitamente en la sección «Limitations», pero eso no la borra.

La tarea es binaria y la selección de casos excluye la complejidad real. Fenotipo binario (normal vs anormal) sobre casos que portan una única patología CheXpert. La radiología torácica en la práctica es multi-etiqueta, ambigua y jerarquizada por severidad. La métrica engañosa clásica acecha en ambos sentidos: el rendimiento bajo Text Shift sobre casos más difíciles podría ser aún peor, o el protocolo podría subestimar situaciones donde el texto ayudaría legítimamente al modelo a desambiguar una imagen equívoca.

Los informes distractores son sintéticos, generados por GPT-5. Un informe real de un examen anterior comporta marcadores estilísticos, sesgos de autor y referencias cronológicas que un generador LLM no reproduce exactamente. El grado en que estos distractores sintéticos sobre- o sub-representan el ruido textual real de un historial hospitalario queda abierto. Los autores lo reconocen en sus limitaciones.

Lo que cambia

Para la comunidad de investigación en IA-imagen médica, el artículo impone un cambio de listón: un VLM clínico ya no puede presumir de un AUC limpio en una cohorte test si sus predicciones se desploman bajo Text Shift. La percepción de la modalidad debe demostrarse, no postularse. Tres consecuencias concretas: los benchmarks futuros (CheXpert, MIMIC, RSNA) deberán integrar un protocolo SMS en su evaluación por defecto; los comparadores de evaluación deberán incluir una baseline texto-solo honesta (y no únicamente imagen-sola, como suele ser, lo que halaga al modelo multimodal); las revistas con revisión por pares deberían exigir una prueba de sensibilidad al prompt para todo VLM clínico publicado.

Para los clínicos y los equipos biomédicos que evalúan estas herramientas con vistas a un despliegue, el mensaje es operativo: mientras esta dependencia del texto no se resuelva, un VLM clínico solo puede usarse como segundo lector tras un humano que haya leído la imagen, nunca como primer-lector autónomo que oriente la toma a cargo a partir del par imagen+motivo. Los agentes clínicos que apilan automáticamente el último informe, la analítica y la imagen anterior en la ventana de contexto son especialmente vulnerables: acumulan texto fuera de tema y desactivan lo que quedaba de lectura real de imagen.

Para los pacientes y el público, la enseñanza es indirecta pero importante. El argumento marketing de los VLMs clínicos — «nuestro modelo ve la radiografía como un médico» — no resiste la prueba en esta muestra. Eso no significa que estos modelos carezcan de valor; significa que se ha confundido el rendimiento en benchmarks con la capacidad de razonar desde la imagen, y que hará falta una generación más de evaluaciones contradictorias para saber realmente dónde estos sistemas están listos para intervenir.

Para profundizar

El preprint arXiv 2605.17436 está en acceso abierto en arxiv.org; versión HTML experimental aquí. El código y los scripts de evaluación están en github.com/dsrestrepo/context-distortion-vlms. Para MIMIC-CXR, punto de entrada en PhysioNet. Para el método Selective Modality Shifting, ver el artículo anterior de los mismos autores (Restrepo et al., Springer 2026, «On the risk of misleading reports»). Para la crítica estructural de la dominancia textual en los VLMs generalistas, ver Deng et al. CVPR 2025, «Words or vision: Do VLMs have blind faith in text?». Para nuestra cobertura de los modos de fallo de los LLMs clínicos en otro contexto, ver nuestro decryptaje del estudio Auger 2026 sobre la esclerosis múltiple.