10 000 cas synthétiques contre quatre LLM frontières : ce que l'étude Auger 2026 révèle sur les angles morts de Gemini 3 et GPT-5 en sclérose en plaques

Stephen D. Auger (Imperial College London) a publié sur medRxiv le 22 avril 2026 une évaluation à très grande échelle de quatre modèles génératifs de pointe — Gemini 3 Pro et Flash de Google, GPT-5.2 et GPT-5-mini d'OpenAI — sur jusqu'à 10 000 cas synthétiques de sclérose en plaques générés programmatiquement, avec étiquetage de vérité-terrain validé par des sous-spécialistes. Le résultat central tient en une phrase : la précision diagnostique ne prédit pas la sécurité des recommandations thérapeutiques. Quand le diagnostic est juste, les modèles peuvent quand même proposer de la corticothérapie haute dose chez un patient infecté, ou une thrombolyse intraveineuse pour une SEP — deux interventions inappropriées voire dangereuses. Lecture importante parce qu'elle propose une méthode de stress-test à l'échelle, et parce qu'elle déplace le débat des benchmarks de QCM vers la sécurité opérationnelle réelle.

Le contexte

Les large language models (LLMs, modèles génératifs de langage entraînés sur des corpus massifs de texte) atteignent désormais 90 % et plus sur les QCM de l'United States Medical Licensing Examination, sur MedQA, sur le NEJM Image Challenge. Les communiqués associés ont donné l'impression d'un raisonnement clinique solide. Mais une littérature parallèle, plus discrète, accumule depuis 2024 les signes que ces scores en QCM ne se transfèrent pas à la pratique : performance qui s'effondre quand les vignettes sont modifiées à la marge, hallucinations de références bibliographiques, sensibilité extrême à la formulation des prompts, et — point central de ce papier — une dissociation entre la capacité à nommer le diagnostic et la capacité à choisir la bonne conduite à tenir.

Évaluer cette dissociation à grande échelle se heurte à un mur logistique. Les cas cliniques réels sont rares, leur étiquetage de vérité-terrain coûte cher, et leur diversité est limitée par les biais d'inclusion des cohortes hospitalières. La sclérose en plaques (SEP) offre un terrain particulièrement utile pour contourner ce problème : elle dispose de critères diagnostiques formalisés (les critères de McDonald 2017, révision 2024), d'une cartographie anatomo-clinique stéréotypée (lésions disséminées dans l'espace et dans le temps, syndromes médullaires, optiques, du tronc cérébral, hémisphériques), et de stratégies thérapeutiques validées (corticothérapie haute dose en poussée, traitements de fond, contre-indications bien identifiées). Auger exploite cette régularité pour générer des dizaines de milliers de cas plausibles avec étiquettes vérifiables — ce qu'aucun centre hospitalier ne pourrait fournir, et ce que les benchmarks publics jusque-là n'offraient pas non plus.

La méthode

L'étude est conduite par Stephen D. Auger, neurologue clinicien et chercheur au UK Dementia Research Institute Care Research and Technology Centre à l'Imperial College London, en activité clinique à l'Imperial College Healthcare NHS Trust. Preprint déposé sur medRxiv le 22 avril 2026, DOI 10.64898/2026.04.22.26351488.

Le dispositif comporte trois briques. Première brique : un générateur procédural de cas cliniques de SEP, qui combine systématiquement des symptômes (troubles visuels, sensitifs, moteurs, ataxiques, sphinctériens), des signes d'examen, des résultats d'examens complémentaires (IRM cérébrale et médullaire, bandes oligoclonales dans le LCR, sérologies, potentiels évoqués), et des comorbidités plausibles. Chaque cas est étiqueté avec une vérité-terrain structurée : diagnostic le plus probable, localisation anatomique de la lésion ou des lésions, examens recommandés, prise en charge thérapeutique attendue. Le système est paramétrable pour produire de 1 000 à 10 000 cas uniques par run.

Deuxième brique : quatre modèles génératifs de pointe — Gemini 3 Pro et Gemini 3 Flash (Google), GPT-5.2 et GPT-5-mini (OpenAI) — sont interrogés sur chaque cas avec un prompt standardisé. La consigne demande quatre sorties : la localisation anatomique de la ou des lésions, le diagnostic différentiel ordonné, les examens complémentaires à prescrire, et la conduite thérapeutique à tenir. Les LLMs ne savent pas qu'il s'agit nécessairement de SEP — ils doivent l'inférer.

Troisième brique : un évaluateur automatique hybride compare les sorties LLM à la vérité-terrain. Il combine un term matching (correspondance de termes médicaux contrôlés, avec gestion des synonymes type SNOMED) et un semantic comparison par embeddings vectoriels (qui capte les paraphrases et les formulations équivalentes). Cet évaluateur a été validé sur une cohorte initiale de 70 cas par des cliniciens sous-spécialistes en SEP, en aveugle, qui ont jugé deux choses : la réalisme des cas synthétiques, et l'accord entre l'évaluateur automatique et leur propre jugement humain. Ce n'est qu'une fois ces deux validations passées que le système est mis à l'échelle des 10 000 cas.

Le terme vérité-terrain (ou ground truth) désigne, en évaluation d'IA, l'étiquette de référence à laquelle on compare la sortie du modèle. La force de cette étude est de proposer une vérité-terrain à la fois plausible cliniquement et programmatique — donc disponible à grande échelle, sans biais d'annotateur isolé.

Les résultats

Le résultat principal est une dissociation systématique entre la précision diagnostique et la sécurité des recommandations thérapeutiques. Les quatre modèles identifient correctement la SEP comme diagnostic le plus probable dans une majorité de cas — la performance brute sur le « tâche QCM » est respectable. Mais quand on examine les recommandations thérapeutiques, le tableau se détériore et révèle deux modes d'échec opposés selon le fournisseur.

Côté Google. Gemini 3 Flash recommande des corticoïdes cliniquement appropriés dans seulement 7,2 % des cas (intervalle de confiance 95 % : 5,6–8,8), et Gemini 3 Pro dans 15,8 % (13,6–18,1). À titre de comparaison, GPT-5-mini atteint 23,5 % (20,8–26,1). Surtout, les modèles Gemini recommandent fréquemment de la méthylprednisolone haute dose dans des situations où elle est contre-indiquée — notamment quand le cas synthétique mentionne explicitement une infection active, ou quand les symptômes sont incidents, datés à plus de quatorze jours, ou sans information temporelle (un symptôme stabilisé n'est pas une poussée et ne se traite pas par corticothérapie d'attaque). Le mode d'échec est ici la sous-spécificité : le modèle reconnaît qu'on parle de SEP, lance le protocole « poussée » par défaut, et ignore les modulateurs cliniques qui devraient l'annuler.

Côté OpenAI. Le mode d'échec est inverse et beaucoup plus alarmant. GPT-5.2 recommande de démarrer immédiatement une thrombolyse intraveineuse (traitement réservé à l'accident vasculaire cérébral ischémique aigu, dangereux hors indication) dans 9,6 % des cas de SEP, et GPT-5-mini dans 6,4 %. Les deux modèles Gemini, eux, restent sous 1 % pour cette recommandation aberrante. Ce n'est pas une erreur d'arrondi : sur 10 000 cas, GPT-5.2 propose une thrombolyse inutile et potentiellement hémorragique pour environ 960 patients. Le mode d'échec est ici la collision de schémas — le modèle confond la présentation neurologique aiguë de SEP avec celle de l'AVC ischémique aigu, et active le protocole correspondant.

Aucune de ces erreurs n'est détectable par un benchmark QCM où la question serait « quel est le traitement de première intention d'une poussée de SEP ? ». Elles n'apparaissent qu'en demandant au modèle de raisonner sur un cas complet, en interaction libre, ce que la pratique exige.

Traduction clinique. Sur 1 000 patients consécutifs présentés à un LLM sans supervision, GPT-5.2 proposerait environ 96 thrombolyses intraveineuses inutiles. Une thrombolyse hors indication expose, selon la littérature AVC, à un risque hémorragique de l'ordre de 2 à 6 % — soit deux à six saignements intracrâniens supplémentaires par cohorte de 1 000, attribuables uniquement à l'erreur d'orientation. À l'inverse, Gemini 3 Flash priverait environ 928 patients sur 1 000 d'une corticothérapie appropriée en poussée, retardant potentiellement la récupération neurologique. Aucun de ces scénarios n'a été observé en pratique parce qu'aucun de ces modèles n'est aujourd'hui déployé en autonomie clinique — c'est précisément l'argument du papier : il faut détecter ces failles avant le déploiement, pas après.

Ce qui est bien

Trois forces spécifiques.

L'échelle d'évaluation est sans précédent pour le clinique. Les benchmarks publics historiques (MedQA, MedMCQA, NEJM Image Challenge) tournent autour de quelques milliers de questions au mieux, souvent contaminées par les données d'entraînement. 10 000 cas synthétiques avec vérité-terrain structurée et générés à la volée résolvent le problème de fuite (les modèles n'ont pas pu voir ces cas) et permettent de mesurer des taux d'erreur rares — ce qui est précisément ce que la sécurité clinique exige. Une erreur à 1 % est invisible sur 100 cas, évidente sur 10 000.

L'évaluateur automatique est validé contre des experts en aveugle. La validation préalable sur 70 cas par des sous-spécialistes SEP empêche le piège classique de l'évaluation auto-référencée (LLM jugé par un autre LLM, sans calibration humaine). C'est une exigence méthodologique encore loin d'être standard dans la littérature de benchmarking de LLMs cliniques, où la « précision » rapportée est souvent celle d'un évaluateur GPT-4 jugeant un autre GPT-4 — biais de modèle juge-et-partie évident.

Le papier teste les modèles vraiment frontières de 2026. Gemini 3 Pro/Flash et GPT-5.2/5-mini sont les versions courantes au moment de la rédaction. La littérature LLM-clinique souffre d'une obsolescence rapide : un benchmark sur GPT-3.5 publié en 2023 n'enseigne rien d'utile en 2026. Ce papier sera utile au moins jusqu'à la sortie de la génération suivante de modèles, et établit une méthodologie reproductible pour les évaluer.

Ce qui est moins bien

Trois limites précises à garder en tête.

Les cas sont synthétiques, donc la validité écologique est limitée. Un cas généré programmatiquement, même validé pour son réalisme par 70 experts, n'est pas un patient. Il manque les ambiguïtés, les contradictions, les informations manquantes, le bruit de l'anamnèse réelle, et surtout le contexte longitudinal (antécédents personnels, traitements en cours, terrain familial complet). Le mode d'échec à signaler est ici le biais de population : la performance mesurée sur cas synthétiques est probablement une borne supérieure de la performance sur cas réels, parce que les cas synthétiques sont plus « propres ». Auger le reconnaît explicitement et propose son générateur comme un outil de présélection avant validation sur cohortes prospectives — pas comme un substitut.

L'étude porte sur une seule pathologie. La SEP a été choisie pour ses critères formalisés et sa cartographie stéréotypée. Rien ne garantit que les conclusions se transposent à des contextes où le diagnostic différentiel est plus ouvert (médecine interne générale, pédiatrie, gériatrie polypathologique). Le shortcut learning dans les LLMs — la tendance à apprendre des corrélations parasites — pourrait jouer différemment selon la régularité statistique de la pathologie. Une extension à au moins trois ou quatre pathologies de spécificités contrastées serait nécessaire pour parler de méthode généralisable.

Pas de comparateur humain ni d'évaluation prospective. Le papier compare les LLMs entre eux et à la vérité-terrain, mais pas à la performance d'un médecin réel face au même cas synthétique. On ne sait donc pas si 23,5 % de recommandations appropriées de corticoïdes (GPT-5-mini) est « catastrophiquement bas » ou « comparable à un interne de garde dans les premières heures ». Cette question reste ouverte, et tout commentaire qui cite ces chiffres sans comparateur tombera vite dans l'enthousiasme aveugle (« GPT-5 fait pire qu'un débutant ») ou son inverse (« 23 % c'est déjà mieux qu'un médecin fatigué »). La métrique trompeuse classique guette : un pourcentage sans dénominateur clinique de référence ne se laisse pas interpréter.

Mention complémentaire : preprint medRxiv, non encore évalué par les pairs ; la version finale pourrait évoluer.

Ce que ça change

Pour la communauté de recherche IA-santé, le signal méthodologique est important. Les évaluations de LLMs cliniques se sont massivement appuyées sur des QCM, qui mesurent la mémoire de connaissances médicales mais ratent la dimension la plus risquée — la chaîne décisionnelle complète, du diagnostic à la prescription. Ce papier propose un cadre opérationnel pour générer des cas en volume, avec vérité-terrain, et un évaluateur calibré sur experts humains. C'est un brique méthodologique réutilisable, et il faut s'attendre à voir d'autres équipes l'appliquer à d'autres pathologies dans les prochains mois.

Pour les cliniciens et les autorités sanitaires, le message est sobre : aucun des quatre modèles testés n'est, en l'état, déployable en autonomie pour la prescription. La FDA américaine, l'EMA européenne et la HAS française devraient considérer ce type de stress-test à grande échelle comme un préalable obligatoire à toute approbation d'un dispositif IA générative à visée clinique. Pour les éditeurs (Google, OpenAI, Anthropic, Mistral), le papier suggère que la prochaine génération devrait être entraînée avec un objectif explicite de sécurité thérapeutique, et pas seulement de précision diagnostique. La distinction « savoir que c'est une SEP » et « savoir quoi faire d'une SEP » est exactement la frontière à instrumenter.

Pour les patients et le grand public, l'enseignement utile est : les LLMs ne sont pas prêts à remplacer un médecin pour la prescription, même quand ils donnent le bon nom à la maladie. Un chatbot médical grand public peut très bien diagnostiquer correctement votre pathologie tout en suggérant un traitement dangereux. Cette dissociation est contre-intuitive — la médiation par le langage donne une impression d'aisance globale qui masque les failles de la chaîne complète — et elle explique pourquoi les usages cliniques réels passent (pour l'instant) par un médecin qui garde la main, et pourquoi la consultation d'un chatbot sans médecin reste, en 2026, une mauvaise idée.

Pour aller plus loin

Le preprint de Stephen D. Auger est en accès libre sur medRxiv, DOI 10.64898/2026.04.22.26351488. Pour les critères diagnostiques de la sclérose en plaques utilisés comme vérité-terrain, voir Thompson et al., Lancet Neurology, 2018 (critères de McDonald 2017, DOI 10.1016/S1474-4422(17)30470-2). Pour un panorama des modes d'échec spécifiques aux LLMs cliniques, voir Omiye et al., npj Digital Medicine, 2023 (DOI 10.1038/s41746-023-00939-z). Pour le cadre réglementaire français sur l'IA générative en santé, le rapport HAS « Bonnes pratiques pour l'évaluation clinique des dispositifs médicaux intégrant de l'intelligence artificielle » (décembre 2024) reste la référence. Pour une étude récente sur le format d'explication LLM en radiologie, voir notre décryptage de Spitzer et al., npj Digital Medicine 2026.