GPT-4 en radiologie : pourquoi le format d'explication d'un LLM change la précision diagnostique des médecins

Philipp Spitzer et collègues ont publié le 23 avril 2026 dans npj Digital Medicine un essai randomisé qui compare trois formats d'explication de GPT-4 sur la précision diagnostique de 101 radiologues américains, à raison de 20 cas chacun (2 020 évaluations). Les explications en chain-of-thought améliorent la précision de 12,2 points de pourcentage face au contrôle (p = 0,001), tandis que le format diagnostic différentiel — pourtant intuitivement médical — n'apporte rien et induit un biais d'automatisation marqué quand le modèle se trompe. Lecture importante parce qu'elle déplace la question : ce n'est plus seulement « le LLM est-il bon ? » mais « comment lui faire dire ce qu'il sait sans imposer ses erreurs ? ».

Le contexte

Les large language models (LLMs, modèles génératifs de langage entraînés sur des corpus massifs de texte) ont atteint des performances diagnostiques élevées sur des cas radiologiques en 2024-2025. GPT-4 (le modèle multimodal d'OpenAI déployé fin 2023), Med-PaLM 2, Claude et leurs successeurs dépassent désormais 70 à 80 % de précision sur des benchmarks publics comme le NEJM Image Challenge ou MedQA. La question de recherche a glissé : ce n'est plus « ces modèles fonctionnent-ils ? », mais « comment les intégrer dans un workflow où ils complètent réellement le radiologue plutôt que de le remplacer ou de le tromper ? »

Plusieurs études en 2024-2025 ont commencé à documenter un phénomène contre-intuitif : un LLM seul peut être plus précis qu'un binôme radiologue + LLM, parce que le médecin sur-écoute le modèle quand il se trompe (biais d'automatisation) ou rejette ses bonnes suggestions sans les comprendre. L'aide à la décision médicale n'est pas un sujet nouveau — les systèmes experts des années 1980-1990 comme MYCIN ou INTERNIST ont buté sur ce mur précis : un système qui donne une réponse ne dit pas pourquoi, et un médecin qui ne comprend pas pourquoi ne sait pas quand faire confiance. Les LLMs apportent ici une nouveauté technique majeure : ils peuvent générer une explication en langage naturel à côté de leur prédiction, sous différents formats. Mais quel format ? Aucune étude randomisée à grande échelle n'avait comparé ces formats jusque-là.

La méthode

L'étude est dirigée par Philipp Spitzer et Daniel Hendriks (co-premiers auteurs), en collaboration avec une équipe clinique du département de radiologie de la LMU Munich (Jan Rudolph, Sarah Schlaeger, Jens Ricke, Boj Friedrich Hoppe) et Stefan Feuerriegel (LMU). Pré-enregistrement public sur AsPredicted (référence 4tgb-sr3z), approbation éthique LMU EK-MIS-2024-320.

Le dispositif est un essai randomisé en groupes parallèles (between-subjects). 101 radiologues américains certifiés, avec une expérience moyenne de 13,6 ans (écart-type 8,0), sont assignés aléatoirement à l'un des quatre bras. Chaque radiologue évalue ensuite 20 cas radiologiques issus du NEJM Image Challenge, présentés en image plus court contexte clinique. Le diagnostic est saisi en texte libre — pas de QCM — puis codé manuellement pour les fautes de frappe. Total : 2 020 évaluations.

Les quatre bras sont les suivants. Contrôle (n = 24) : pas d'aide LLM, recherche internet autorisée mais aucun usage de LLM. Sortie standard (n = 24) : GPT-4 fournit un diagnostic sans explication (« le diagnostic le plus probable est X »), longueur moyenne 62,7 mots. Diagnostic différentiel (n = 30) : GPT-4 fournit les cinq hypothèses les plus probables, classées, avec une justification courte pour chacune, longueur moyenne 208,6 mots. Chain-of-thought (n = 23) : GPT-4 fournit son raisonnement pas-à-pas avant le diagnostic final, longueur moyenne 188,6 mots.

Le terme chain-of-thought (CoT, parfois traduit par « raisonnement en chaîne ») désigne une technique de prompting où l'on demande explicitement au modèle de décomposer son raisonnement en étapes avant de répondre. Documentée depuis 2022 chez les LLMs généralistes (Wei et al.), elle améliore la performance sur les tâches de raisonnement et — point central de ce papier — la lisibilité du raisonnement par un utilisateur humain.

Le modèle utilisé est GPT-4 dans sa version multimodale (capable de traiter image + texte). La performance de GPT-4 seul sur ces 20 cas est de 75 % en sortie standard, 80 % en chain-of-thought, et 65 % top-1 / 80 % top-5 en diagnostic différentiel.

Les résultats

Le résultat principal est un effet hétérogène marquant selon le format d'explication.

Le format chain-of-thought améliore significativement la précision des radiologues : +12,2 points de pourcentage par rapport au contrôle (intervalle de confiance à 95 % : 5,3 à 19,2 ; p = 0,001). C'est l'effet le plus fort observé dans l'étude.

Les formats sortie standard et diagnostic différentiel n'apportent rien de statistiquement significatif par rapport au contrôle : respectivement +5,0 pp (IC 95 % : -1,8 à 11,8 ; p = 0,150) et +2,5 pp (IC 95 % : -4,0 à 9,0 ; p = 0,446). Contre-intuitif : le diagnostic différentiel, format pourtant proche du raisonnement médical traditionnel, est le moins utile.

Comparé directement aux autres formats, le chain-of-thought reste en tête : +7,2 pp vs sortie standard (p = 0,040) et +9,7 pp vs diagnostic différentiel (p = 0,004). GPT-4 seul surpasse tous les groupes de radiologues, y compris ceux assistés par GPT-4 sous n'importe quel format. C'est un résultat qui mérite d'être lu très précautionneusement (cf. limites), mais il est cohérent avec une partie croissante de la littérature 2024-2025.

L'adhérence aux suggestions du LLM est révélatrice. Quand GPT-4 se trompe, les radiologues du bras diagnostic différentiel adoptent quand même son diagnostic dans 80 % des cas ; ceux du bras sortie standard dans 30,6 % ; ceux du bras chain-of-thought dans 30,4 %. Ce différentiel suggère un mécanisme précis : le diagnostic différentiel structuré en cinq hypothèses présente une apparence d'exhaustivité méthodologique qui désarme la critique du radiologue. C'est le mode d'échec classique du biais d'automatisation (la tendance documentée des humains à sur-confier aux systèmes automatisés, surtout quand ces systèmes paraissent rigoureux).

Traduction clinique. Sur 1 000 cas radiologiques de difficulté comparable, un radiologue non assisté résoudrait environ 600 cas correctement. Le même radiologue assisté par GPT-4 en chain-of-thought en résoudrait 722, et le même radiologue assisté par GPT-4 en sortie standard ou diagnostic différentiel n'en résoudrait que 605 à 625 — sans différence pratique. Mais quand le LLM se trompe (et il se trompe environ 25 % du temps sur ce benchmark), le format diagnostic différentiel entraîne près de deux fois plus d'erreurs adoptées que les deux autres formats.

Ce qui est bien

Trois forces spécifiques.

Le devis randomisé pré-enregistré. L'étude est pré-enregistrée publiquement sur AsPredicted avant collecte des données, ce qui ferme la porte au p-hacking et au choix post-hoc d'analyses favorables. C'est une exigence méthodologique encore loin d'être systématique dans la littérature LLM-clinique et elle mérite d'être saluée — la plupart des évaluations de modèles cliniques restent rétrospectives, post-hoc, et choisissent leurs métriques après avoir vu les données.

Le comparateur est juste. Le groupe contrôle n'est pas privé de tout : il a accès à Internet, à PubMed, à toute documentation hors LLM. C'est le bon comparateur — celui du radiologue de 2026 dans sa vraie pratique. Les comparaisons LLM-contre-rien-du-tout, courantes dans la littérature antérieure, ont systématiquement surestimé l'apport des LLMs en privant les médecins de leurs ressources habituelles.

La taille d'échantillon est crédible. 101 radiologues certifiés avec 13,6 ans d'expérience moyenne et 2 020 évaluations indépendantes constituent un échantillon comparable aux grandes études d'aide à la décision en radiologie. La puissance statistique pour détecter un effet de 12 pp est solide. C'est aussi l'une des rares études du domaine à recruter des radiologues seniors plutôt que des résidents.

Ce qui est moins bien

Trois limites précises à garder en tête.

C'est un vignette study, pas un workflow clinique réel. Les radiologues répondent à 20 cas isolés, avec contexte minimal, sans dossier patient complet, sans suite de cas comparables le même jour, sans pression temporelle réaliste. La validité écologique est limitée — un radiologue qui lit 80 scanners en garde de nuit ne ressemble pas à un radiologue qui répond à 20 vignettes à son rythme depuis son bureau. Les auteurs le reconnaissent et appellent à des études en condition réelle. Toute extrapolation aux issues patients (mortalité, morbidité, examens évités) reste à faire.

Contamination GPT-4 probable. Les cas viennent du NEJM Image Challenge, qui est public et ancien. GPT-4 a très probablement vu ces cas et leurs solutions pendant son entraînement. Les auteurs proposent un test de mémorisation et concluent que les scores de similarité sont faibles, mais la dépendance reste un mode d'échec classique : c'est le data leakage appliqué à un LLM, qu'aucun test de similarité simple ne détecte parfaitement. Le score absolu de GPT-4 (75-80 %) doit donc être lu en gardant cette réserve en tête — la performance en clinique sur cas inédits sera probablement plus basse.

Le design between-subjects fragilise les comparaisons inter-bras. Comme chaque radiologue ne voit qu'un seul format, les différences observées entre bras peuvent partiellement refléter des différences entre radiologues plutôt qu'entre formats — surtout avec des effectifs de 23 à 30 par bras. Un design within-subjects (chaque radiologue teste chaque format sur des cas comparables) serait beaucoup plus puissant et est explicitement suggéré par les auteurs comme suite à donner. À 23 sujets dans le bras chain-of-thought, un seul radiologue particulièrement performant change la moyenne du bras de manière non négligeable. C'est le mode d'échec classique du biais de population sous échantillonnage limité.

Mention complémentaire : un seul moment de mesure, pas de suivi longitudinal, et le financement et conflits d'intérêts ne sont pas accessibles dans la version pré-publication consultée.

Ce que ça change

Pour la communauté de recherche IA-santé, le signal est net : le format d'explication n'est pas un détail UX, c'est un déterminant majeur de la performance du binôme humain-IA. La littérature sur les LLMs cliniques s'est massivement concentrée sur le score brut du modèle (« l'IA bat-elle le médecin ? ») en négligeant le fait que dans la pratique, le médecin gardera la main et que sa précision dépendra de la manière dont le modèle s'exprime. Les futures évaluations devraient systématiquement comparer plusieurs formats d'explication, comme les essais cliniques comparent les doses d'un médicament. C'est une nouvelle dimension d'évaluation à intégrer dans les guidelines type TRIPOD-LLM ou CLAIM.

Pour les cliniciens, le message est paradoxalement encourageant et inquiétant. Encourageant : un format d'explication bien choisi peut apporter 12 points de précision diagnostique, ce qui est cliniquement substantiel sur un domaine où chaque point compte. Inquiétant : le format intuitivement « médical » (le diagnostic différentiel) est précisément celui qui induit la sur-confiance la plus dangereuse quand le modèle se trompe. Tout déploiement d'un LLM clinique devra être validé en condition réelle pour son format spécifique, pas seulement pour sa performance brute. Le chain-of-thought n'est pas une recette universelle : il a marché ici, dans ce contexte, avec ce modèle.

Pour les patients et le public, l'enseignement est plus subtil. L'IA en radiologie n'est ni la révolution magique des communiqués de presse ni le placebo redouté par les sceptiques. C'est une technologie qui peut aider, qui peut nuire, et dont l'impact réel dépend de choix d'interface que la plupart des éditeurs commerciaux ne documentent pas. Demander à son hôpital quel modèle est utilisé, dans quel format, et avec quelle validation locale devient une question légitime.

Pour aller plus loin

Le papier de Spitzer et collègues est en accès ouvert sur Nature, DOI 10.1038/s41746-026-02619-0. Le pré-enregistrement public AsPredicted est consultable à aspredicted.org/4tgb-sr3z. Pour le contexte sur le chain-of-thought prompting, voir Wei et al., NeurIPS 2022 (arXiv:2201.11903). Sur le biais d'automatisation en médecine, le rapport HAS « Bonnes pratiques pour l'évaluation clinique des dispositifs médicaux intégrant de l'intelligence artificielle » (décembre 2024) reste la référence francophone. Pour la performance brute de GPT-4 sur les benchmarks médicaux, l'évaluation NEJM Image Challenge (Buckley et al., npj Digital Medicine 2024) sert de point de départ.