Quand le texte mange l'image : ce que l'étude Restrepo 2026 révèle sur la fragilité contextuelle des VLMs cliniques sur MIMIC-CXR
David Restrepo (CentraleSupélec-Université Paris-Saclay et IHU PRISM, Gustave Roussy) et son équipe ont déposé sur arXiv le 17 mai 2026 une évaluation de huit modèles vision-langage cliniques sur 1 000 radiographies thoraciques tirées de MIMIC-CXR. Le résultat est inconfortable : quand le texte clinique fourni au modèle contredit l'image — un compte-rendu de patient sain accolé à une radiographie pathologique, ou l'inverse —, entre 31 % et 66 % des bonnes décisions initiales se transforment en erreurs. À l'inverse, remplacer l'image par celle d'un autre patient ne change presque rien. L'image seule fait à peine mieux que le hasard (0,50–0,68 d'exactitude), tandis que le texte seul égale la performance multimodale. La conclusion centrale est cinglante : ces VLMs, y compris les frontières GPT-5 et Gemini 3 Pro et les versions médicalement adaptées MedGemma, fonctionnent essentiellement comme des classifieurs de comptes-rendus, l'image servant de décor. Lecture importante parce qu'elle disqualifie l'usage de ces modèles comme aide à la lecture autonome, et propose une méthodologie de stress-test réutilisable.
Le contexte
Les modèles vision-langage (VLMs, vision-language models) sont la classe de modèles génératifs qui combinent une entrée image et une entrée texte, et produisent une sortie textuelle. Dans la version la plus simple, on leur montre une radiographie et on leur demande « cette image montre-t-elle une pathologie ? ». Dans la version clinique, on enrichit l'entrée d'éléments du dossier patient (motif d'examen, antécédents, comptes-rendus antérieurs), ce qui se rapproche des conditions de lecture d'un radiologue. La promesse marketing depuis 2024, soutenue par les annonces de GPT-4V, MedGemma, Med-PaLM-M, est qu'un VLM bien entraîné peut intégrer ces deux sources et raisonner cliniquement comme un humain.
Plusieurs travaux récents (Sim et al. ACL 2025, Deng et al. CVPR 2025 « Words or vision: Do VLMs have blind faith in text? ») ont déjà suggéré que les VLMs généralistes accordent un poids excessif au texte dans le raisonnement multimodal. Mais ces études sont restées sur des tâches non cliniques. Ce papier porte la critique sur le terrain de la radiologie thoracique, et ajoute deux dimensions absentes des évaluations standard : la robustesse à un compte-rendu antérieur sans rapport avec la question, et la stabilité à des reformulations sémantiquement équivalentes du prompt. Ces deux variables sont précisément ce qu'un système RAG (retrieval-augmented generation, qui injecte automatiquement des documents pertinents) ou un agent clinique (LLM qui orchestre une cascade d'outils) feront varier en pratique sans qu'un médecin puisse le contrôler.
La méthode
L'étude est dirigée par David Restrepo (équipe MICS, CentraleSupélec-Université Paris-Saclay, et Cancer Data Science Unit de l'IHU PRISM à Gustave Roussy), avec Ira Ktena (Ellison Institute of Technology, Oxford), Maria Vakalopoulou et Stergios Christodoulidis (CentraleSupélec), et Enzo Ferrante (CONICET, Buenos Aires). Preprint arXiv 2605.17436 déposé le 17 mai 2026, DOI 10.48550/arXiv.2605.17436, sous licence CC BY 4.0. Code et scripts d'évaluation sur GitHub. Financement public : programme Marie Skłodowska-Curie COFUND de l'Union européenne (DeMythif.AI, n° 101127936) et programme France 2030 / ANR IA Cluster DATAIA (ANR-23-IACL-0003). Calcul sur Jean Zay (IDRIS-CNRS) et Ruche (Mesocentre Paris-Saclay). Aucun conflit d'intérêt commercial déclaré.
Le jeu de données est un sous-ensemble équilibré de MIMIC-CXR-JPG (PhysioNet) : 1 000 radiographies thoraciques de face, 500 normales (label No Finding) et 500 avec une seule pathologie parmi cinq cibles de la nomenclature CheXpert (épanchement pleural 30,2 %, atélectasie 25,6 %, cardiomégalie 21,8 %, œdème 18,8 %, condensation 3,6 %). Les cas avec plusieurs pathologies coexistantes sont exclus pour éviter l'ambiguïté d'étiquettes.
Huit modèles sont testés : quatre VLMs généralistes open-weights (Qwen2-VL-7B-Instruct, LLaVA-v1.5-7B, Janus-Pro-7B, Llama-3.2-11B-Vision-Instruct), deux modèles médicalement adaptés ouverts (MedGemma-4B et MedGemma-1.5-4B), et deux modèles propriétaires frontières (GPT-5 snapshot du 7 août 2025 et Gemini 3 Pro). Inférence déterministe (température 0) pour les modèles ouverts, sortie binaire « Yes/No » imposée par prompt système.
Trois protocoles de perturbation.
Premier protocole : Selective Modality Shifting (SMS). On garde une moitié des entrées correcte et on remplace l'autre par l'entrée correspondante d'un patient de classe opposée. Quatre conditions : No Shift (image + texte cohérents, baseline), Text Shift (image normale + texte d'un patient pathologique, ou inverse), Image Shift (texte cohérent, image d'un patient de classe opposée), et deux baselines unimodales (Text-Only et Image-Only). La métrique-clé est le Negative Flip Rate (NFR), proportion de prédictions initialement correctes qui basculent en erreur après perturbation.
Deuxième protocole : injection d'historique non pertinent. Jusqu'à cinq comptes-rendus antérieurs cliniquement plausibles mais sans rapport thématique (IRM cérébrale, scanner abdomino-pelvien, radiographie de genou, échographie de poignet) sont insérés en tête du prompt, avec une contrainte adversariale : si la radiographie actuelle est pathologique, les comptes-rendus distracteurs sont normaux. Les rapports sont générés par GPT-5 avec dates synthétiques 3 à 12 mois antérieures.
Troisième protocole : sensibilité au prompt. Quatre formulations sémantiquement équivalentes — question-réponse standard, jeu de rôle (« vous êtes assistant clinique »), demande de consultation formelle (RADIOLOGY CHECK REQUEST) et liste de vérification — sont testées en parallèle, et l'accord entre prédictions est mesuré par la statistique κ de Fleiss. Tous les intervalles de confiance à 95 % sont obtenus par bootstrap non-paramétrique (100 itérations, sous-échantillonnage à 50 %).
Les résultats
La baseline (image + texte cohérents) se situe entre 0,66 (Janus-Pro) et 0,83 (GPT-5, Gemini 3 Pro). Tous les modèles « fonctionnent » sur le benchmark propre.
Sous Text Shift, la performance s'effondre. GPT-5 passe de 0,83 à 0,18, Gemini 3 Pro de 0,83 à 0,17, Qwen2-VL de 0,81 à 0,20, MedGemma-1.5 de 0,79 à 0,26 — en dessous du hasard (0,50). Le Negative Flip Rate sous Text Shift varie de 31,3 % (Janus-Pro) à 66,0 % (Gemini 3 Pro) : entre un tiers et deux tiers des décisions correctes initiales se retournent en erreur quand on insère un texte de classe opposée.
Sous Image Shift, à l'inverse, la performance bouge à peine. GPT-5 0,83 → 0,82 ; Qwen2-VL 0,81 → 0,80 ; MedGemma 0,76 → 0,72. Le NFR Image Shift reste entre 2,0 % et 15,5 %. Le modèle ne voit pas, ou voit à peine, l'incongruence de l'image. Cette asymétrie est le résultat-pivot du papier.
Les baselines unimodales le confirment. Texte seul atteint 0,78–0,83 pour la plupart des modèles — équivalent au multimodal. Image seule plafonne entre 0,50 et 0,68. GPT-5 et Gemini 3 Pro tirent à 0,67–0,68 image-seule, légèrement au-dessus du hasard ; Qwen2-VL et LLaVA tombent exactement à 0,50. Les auteurs résument : « VLM decisions are dominated by the text modality, even when visual evidence is available. » Demander au modèle, via un prompt « jeu de rôle », de prioriser l'image n'a produit aucun effet significatif.
L'injection de comptes-rendus antérieurs non pertinents dégrade aussi. LLaVA-1.5 passe de 0,79 à 0,66 avec cinq rapports distracteurs, Janus-Pro de 0,70 à 0,53, MedGemma-1.5 de 0,85 à 0,71. Le NFR atteint 21,1 % pour Janus-Pro et 18,8 % pour MedGemma-1.5 — presque un cinquième des bonnes prédictions initiales basculent. Les modèles frontières GPT-5 et Gemini 3 Pro tiennent mieux (NFR < 3 %), mais ne sont pas immunisés. Le mode d'échec à signaler ici est la distraction par information non pertinente, en l'occurrence dans la modalité texte elle-même.
La sensibilité au prompt fluctue beaucoup selon le modèle. En setting de modality shifting, Qwen2-VL conserve un accord excellent entre formulations (κ Fleiss = 0,802), Gemini 3 Pro 0,762, GPT-5 0,753, mais Janus-Pro s'effondre à 0,046 (essentiellement aléatoire), et LLaVA-1.5 reste à 0,391. Un changement de formulation qui ne modifie pas le sens clinique peut donc inverser la prédiction.
Traduction clinique. Si un service de radiologie utilisait l'un des VLMs ouverts testés ici pour pré-trier 1 000 radiographies thoraciques avec un compte-rendu de motif d'examen erroné — situation banale en garde, où le ticket d'orientation peut être recopié de l'examen précédent —, on observerait entre 313 et 660 reclassements erronés sur les 1 000 décisions selon le modèle. Si le système RAG injectait par défaut les cinq derniers comptes-rendus du patient (pratique courante en agent clinique), entre 1 % et 21 % des prédictions correctes basculeraient en erreur sans qu'un humain dans la boucle puisse en identifier la cause — l'erreur ne vient ni de l'image ni du diagnostic de cette image, mais d'un texte sans rapport thématique ajouté au contexte.
Ce qui est bien
Trois forces spécifiques.
Le protocole de stress-test est reproductible et applicable à d'autres modalités. Le code est sur GitHub sous licence permissive et la méthode Selective Modality Shifting est entièrement décrite. Tout laboratoire peut ré-exécuter le même protocole sur ses propres données ou sur un nouveau modèle. C'est une contribution méthodologique au moins aussi importante que les chiffres bruts — la communauté avait besoin d'une grille standard pour tester ce que les benchmarks propres ne testent pas.
Le panel de modèles est large et équilibré. Quatre VLMs généralistes open-weights, deux médicalement adaptés, deux frontières propriétaires. La constatation que MedGemma — entraîné spécifiquement sur image+texte médicaux — souffre exactement des mêmes failles que les modèles non adaptés est le point qui hier encore aurait été contesté par les équipes commerciales. Les auteurs concluent : « Domain adaptation alone is insufficient to ensure genuine visual grounding. » Affirmation forte et désormais étayée.
Les métriques choisies sont les bonnes. Le NFR (Negative Flip Rate, Yan et al. CVPR 2021) capture exactement ce qui inquiète cliniquement : pas la performance moyenne, mais le risque qu'une bonne décision se retourne sous perturbation. Le κ de Fleiss sur quatre prompts capture la stabilité décisionnelle. Les intervalles de confiance par bootstrap non-paramétrique sont méthodologiquement solides.
Ce qui est moins bien
Trois limites précises.
Le jeu de données est petit et issu d'un seul centre. 1 000 radiographies tirées de MIMIC-CXR — corpus du Beth Israel Deaconess Medical Center à Boston, déjà connu pour ses biais (population majoritairement adulte, scanners spécifiques, conventions de reporting locales). Les auteurs n'évaluent ni la généralisation à un autre PACS, ni la généralisation à une autre langue de compte-rendu, ni la robustesse à une autre modalité (CT, IRM). C'est le biais de population classique. La limite est reconnue explicitement dans la section « Limitations », mais cela ne l'efface pas.
La tâche est binaire et la sélection de cas exclut la complexité réelle. Phénotype binaire (normal vs anormal) sur des cas ne portant qu'une seule pathologie CheXpert. La radiologie thoracique en pratique est multi-étiquette, ambiguë et hiérarchisée par sévérité. La métrique trompeuse guette dans les deux sens : la performance sous Text Shift sur des cas plus difficiles pourrait être encore pire, ou alors le protocole sous-estime des situations où le texte aiderait légitimement le modèle à désambiguïser une image équivoque.
Les comptes-rendus distracteurs sont synthétiques, générés par GPT-5. Un compte-rendu réel d'un précédent examen comporte des marqueurs stylistiques, des biais d'auteur et des références chronologiques qu'un générateur de LLM ne reproduit pas exactement. Le degré auquel ces distracteurs synthétiques sur-représentent ou sous-représentent le bruit textuel réel d'un dossier hospitalier reste ouvert. Les auteurs le reconnaissent dans leurs limitations.
Ce que ça change
Pour la communauté de recherche en IA-imagerie médicale, le papier impose un changement de barre : un VLM clinique ne peut plus se prévaloir d'une AUC propre sur une cohorte test si ses prédictions s'effondrent sous Text Shift. La perception de la modalité doit être démontrée, pas postulée. Trois conséquences concrètes : les benchmarks futurs (CheXpert, MIMIC, RSNA) devront intégrer un protocole SMS dans leur évaluation par défaut ; les comparateurs d'évaluation devront inclure une baseline texte-seul honnête (et non pas seulement image-seul, comme c'est souvent le cas, qui flatte le modèle multimodal) ; les revues à comité de lecture devraient exiger un test de prompt-sensibilité sur tout VLM clinique publié.
Pour les cliniciens et les équipes biomédicales qui évaluent ces outils en vue d'un déploiement, le message est opérationnel : tant que cette dépendance au texte n'est pas résolue, un VLM clinique ne peut être utilisé que comme second lecteur après un humain qui a lu l'image, jamais comme premier-lecteur autonome qui orienterait la prise en charge à partir du couple image+motif d'examen. Les agents cliniques qui empilent automatiquement le dernier compte-rendu, le bilan biologique et l'imagerie antérieure dans la fenêtre de contexte sont particulièrement à risque : ils accumulent du texte hors-sujet et désactivent ce qu'il restait de vraie lecture d'image.
Pour les patients et le public, l'enseignement reste indirect mais important. L'argumentaire marketing des VLMs cliniques — « notre modèle voit la radiographie comme un médecin » — ne tient pas la preuve sur cet échantillon. Cela ne signifie pas que ces modèles sont sans valeur ; cela signifie qu'on a confondu la performance sur benchmarks avec la capacité à raisonner depuis l'image, et qu'il faudra une génération supplémentaire d'évaluations contradictoires pour vraiment savoir où ces systèmes sont prêts à intervenir.
Pour aller plus loin
Le preprint arXiv 2605.17436 est en accès libre sur arxiv.org ; version HTML expérimentale ici. Le code et les scripts d'évaluation sont publiés sur github.com/dsrestrepo/context-distortion-vlms. Pour MIMIC-CXR, point d'entrée à PhysioNet. Pour la méthode Selective Modality Shifting, voir le papier antérieur des mêmes auteurs (Restrepo et al., Springer 2026, « On the risk of misleading reports »). Pour la critique structurelle de la dominance textuelle dans les VLMs généralistes, voir Deng et al. CVPR 2025, « Words or vision: Do VLMs have blind faith in text? ». Pour notre couverture des modes d'échec des LLMs cliniques dans un autre contexte, voir notre décryptage de l'étude Auger 2026 sur la sclérose en plaques.