Quand un LLM doit mener l'interrogatoire lui-même : un banc d'essai inspiré de l'examen clinique montre que le raisonnement diagnostique interactif fait chuter la performance (Zhan & Gan 2026, arXiv)
Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu et Lu Gan (la supervision, le financement et la révision étant attribués à Xihe Qiu, Xiaoxiao Ge, Liang Liu et Lu Gan) mettent en ligne le 21 mai 2026 sur arXiv un banc d'essai « OSCE-inspiré » : un simulateur de patient standardisé devant lequel quinze grands modèles de langage (LLM, large language models : des modèles entraînés à prédire le texte qui servent ici d'assistants au raisonnement clinique) doivent, comme un étudiant en médecine lors d'un examen clinique, mener eux-mêmes l'interrogatoire avant de poser un diagnostic. Sur 468 cas, ce mode interactif — poser les questions soi-même, tour après tour — fait chuter l'exactitude diagnostique de 12,75 % et la qualité des preuves invoquées de 24,36 % par rapport au réglage où toute l'information est fournie d'emblée, les erreurs venant surtout d'une fermeture diagnostique prématurée et d'un questionnement inefficace. La leçon est sobre et utile : les classements obtenus sur des QCM médicaux statiques surestiment probablement ce dont ces modèles sont capables en consultation réelle. Trois réserves accompagnent ce constat — un simulateur de patient lui-même algorithmique, une provenance des cas non précisée dans la version accessible, et des chiffres donnés en valeurs relatives sans référence humaine.
Le contexte
Depuis quatre ans, la performance des LLM en médecine se mesure surtout sur des examens écrits : questions à choix multiples de type USMLE (l'examen de licence médicale américain), jeux de données comme MedQA, vignettes cliniques fermées. Sur ces épreuves, les meilleurs modèles dépassent désormais le seuil de réussite humain, ce qui a nourri une vague d'annonces sur des « médecins IA ». Mais ces épreuves partagent un trait : toute l'information utile est posée d'emblée dans l'énoncé. Le modèle reçoit l'âge, les antécédents, les symptômes, les résultats de laboratoire, puis choisit une réponse. Or une consultation réelle ne fonctionne pas ainsi : le clinicien part d'un motif vague, doit décider quelles questions poser, quels examens demander, quand s'arrêter — un raisonnement séquentiel sous incertitude, où l'art consiste autant à chercher l'information qu'à la traiter.
C'est cet écart que le papier attaque. Il s'inscrit dans une lignée de travaux récents sur l'évaluation interactive des modèles cliniques, qui simulent un dialogue patient-médecin plutôt qu'un QCM. La nouveauté revendiquée ici est un cadre OSCE-inspiré : l'OSCE (Objective Structured Clinical Examination, examen clinique objectif structuré) est l'épreuve où un étudiant en médecine est confronté à un « patient standardisé » — un acteur formé à jouer un cas — et noté sur sa capacité à recueillir l'anamnèse, à examiner et à raisonner. En transposant ce format aux LLM, les auteurs cherchent à mesurer non pas ce que le modèle sait quand on lui donne tout, mais ce qu'il parvient à découvrir quand il doit poser les bonnes questions.
La méthode
Le preprint (arXiv:2605.22047, 10.48550/arXiv.2605.22047), déposé le 21 mai 2026 sous licence CC BY 4.0 (réutilisation et adaptation autorisées avec attribution — un point favorable sur lequel nous revenons), construit deux briques. D'abord un simulateur de patient standardisé : un agent qui joue le patient, répond aux questions du modèle testé, et ne livre l'information qu'à mesure qu'elle est demandée. Ensuite un protocole d'enquête diagnostique active, contrôlé et reproductible, où le LLM mène un dialogue multi-tours puis formule un diagnostic. Les affiliations précises des auteurs, la nature exacte du moteur du simulateur et la liste nominative des quinze modèles ne figurent pas dans le résumé accessible ; nous ne les inventerons pas et signalons ces zones à vérifier dans le manuscrit complet.
Le banc d'essai compte 468 cas et quinze modèles, propriétaires et en accès ouvert. Pour chaque cas, on compare deux réglages. Dans le réglage full-context (contexte complet), tout le dossier est fourni au modèle d'emblée, comme dans un QCM classique — c'est la borne haute, idéalisée. Dans le réglage actif, le modèle ne voit au départ qu'un motif de consultation et doit interroger le simulateur, tour après tour, pour reconstituer l'information avant de conclure. Deux grandeurs sont mesurées : l'exactitude diagnostique (le diagnostic final est-il correct ?) et la qualité des preuves invoquées (supporting-evidence quality : les éléments cités à l'appui du diagnostic sont-ils pertinents et suffisants ?). Une analyse d'erreurs catégorise ensuite les échecs.
Cette double mesure est plus exigeante qu'un simple score : un modèle peut tomber sur le bon diagnostic pour de mauvaises raisons, ou en s'appuyant sur des preuves qu'il n'a pas réellement recueillies. Séparer l'exactitude de la qualité du raisonnement est précisément ce qui distingue une évaluation clinique sérieuse d'un concours de réponses.
Les résultats
Le résultat central est un écart net entre les deux réglages. En passant du contexte complet à l'enquête active, l'exactitude diagnostique baisse de 12,75 % et la qualité des preuves invoquées baisse de 24,36 % (valeurs rapportées relativement au réglage full-context). Autrement dit, la chute touche encore plus le raisonnement que le verdict : non seulement les modèles se trompent davantage de diagnostic, mais surtout ils justifient nettement moins bien celui qu'ils proposent. L'analyse d'erreurs attribue ces baisses à deux comportements : la fermeture diagnostique prématurée — le modèle s'arrête sur une hypothèse trop tôt, avant d'avoir recueilli de quoi la confirmer ou l'écarter — et un questionnement inefficace — il pose des questions peu informatives, ou oublie d'en poser de décisives. Ce sont, fait notable, deux biais cognitifs bien décrits chez les cliniciens humains débutants ; les LLM les reproduisent.
Traduction clinique. Comme il s'agit d'un banc d'essai et non d'un essai sur patients, la traduction se fait en termes d'interprétation plutôt qu'en nombre de vies. L'idée à retenir : sur un ensemble de consultations où le modèle doit lui-même recueillir l'histoire, environ une bonne réponse sur huit (en relatif) se perd par rapport au cas idéal où on lui sert le dossier complet, et près d'un quart de la qualité du raisonnement justificatif s'évapore. Pour un outil censé seconder un médecin dans un échange réel, ce n'est pas un détail : la performance affichée sur les examens écrits décrit la borne haute d'un modèle bien nourri, pas son comportement quand il doit conduire l'entretien. Ces chiffres restent toutefois des moyennes relatives : sans les valeurs absolues, sans la dispersion entre modèles et sans intervalles de confiance dans le résumé, ils indiquent une tendance robuste, pas une mesure de risque transposable telle quelle à un patient donné.
Ce qui est bien
L'évaluation vise le bon problème. La principale faiblesse des classements actuels est qu'ils testent la connaissance livrée clé en main, pas la capacité à enquêter. En adoptant un format OSCE — recueillir l'anamnèse auprès d'un patient standardisé avant de conclure —, le papier mesure une compétence qui compte réellement en clinique et que les QCM ignorent. C'est exactement le type de garde-fou méthodologique qui manque à la littérature « l'IA passe l'examen de médecine ».
La double métrique sépare le verdict du raisonnement. Mesurer à la fois l'exactitude du diagnostic et la qualité des preuves invoquées, puis catégoriser les erreurs (fermeture prématurée, questionnement inefficace), donne un diagnostic des modèles, et pas seulement une note. Le fait que la qualité des preuves chute davantage (−24,36 %) que l'exactitude (−12,75 %) est une observation précieuse : elle suggère que certains « bons » diagnostics en mode actif sont obtenus sans raisonnement solide, ce qu'un simple taux de réussite aurait masqué.
L'échelle, la reproductibilité et la licence ouverte. Quinze modèles, propriétaires et ouverts, sur 468 cas, dans un protocole décrit comme contrôlé et reproductible : c'est assez large pour que la tendance ne tienne pas à un modèle ou à une poignée de cas. Et la diffusion sous licence CC BY 4.0 — qui autorise la réutilisation et l'adaptation avec attribution — facilite la reprise du banc d'essai par d'autres équipes, à l'inverse des licences non commerciales et sans dérivés qui verrouillent une partie de la littérature.
Ce qui est moins bien
Le patient est simulé, et le simulateur est lui-même un modèle. Le réalisme de l'épreuve dépend entièrement de la qualité du patient standardisé. Si celui-ci est animé par un LLM, l'évaluation devient en partie circulaire : un modèle interroge un autre modèle, et les deux peuvent partager les mêmes angles morts (mêmes données d'entraînement, mêmes formulations). C'est une variante du biais de population appliqué à l'évaluation : un patient simulé n'est pas un patient réel, avec ses récits désordonnés, ses oublis, ses comorbidités et ses formulations ambiguës. La validité externe — la performance se transposerait-elle à de vrais entretiens ? — reste donc à établir, et le résumé n'annonce aucune validation sur dialogues cliniques authentiques.
La provenance des 468 cas n'est pas précisée, d'où un risque de contamination. Si ces cas dérivent de collections publiques (vignettes, banques de cas, jeux de données médicaux ouverts), les quinze modèles ont pu les rencontrer pendant leur entraînement. C'est le mode d'échec du data leakage (fuite de données) transposé aux LLM, sous le nom de contamination des données : la borne haute « full-context » serait alors artificiellement gonflée par de la mémorisation, ce qui exagérerait mécaniquement l'écart avec le mode actif. Tant que l'origine des cas et le contrôle de contamination ne sont pas documentés dans le texte complet, le chiffre de 12,75 % doit être lu comme une différence entre deux réglages, pas comme une mesure pure de la difficulté d'enquêter.
Des pourcentages relatifs, sans comparateur humain ni valeurs absolues. Le résumé donne des baisses relatives (−12,75 %, −24,36 %) sans l'exactitude absolue de départ, sans la dispersion entre modèles, et sans intervalles de confiance. C'est un cousin de la métrique trompeuse : une baisse relative impressionnante peut recouvrir des réalités très différentes selon le niveau de base. Surtout, il manque un comparateur humain soumis au même protocole : combien de bonnes réponses un médecin perd-il, lui aussi, entre un dossier complet et un entretien à mener ? Sans cette référence, on sait que les LLM se dégradent en mode interactif, mais pas s'ils se dégradent plus ou moins qu'un clinicien — or c'est cette comparaison qui déciderait de leur utilité comme assistant.
Ce que ça change
Pour la communauté de recherche, le message est un appel à changer d'unité de mesure. Tant que les modèles cliniques seront classés sur des QCM statiques, les progrès affichés risquent de surestimer l'aptitude réelle. Ce type de banc d'essai interactif — et, mieux, sa diffusion ouverte sous CC BY 4.0 — fournit un complément que d'autres équipes peuvent reprendre, étendre à de vrais dialogues, et durcir contre la contamination. La suite naturelle est une version avec patients réels ou transcriptions authentiques, et un bras humain de comparaison.
Pour les cliniciens, c'est une confirmation utile de l'intuition de terrain : un outil qui répond brillamment à une vignette complète n'est pas pour autant un bon partenaire d'entretien. La fermeture diagnostique prématurée et le questionnement inefficace que les modèles manifestent sont précisément les pièges qu'on enseigne aux internes à éviter. Concrètement, aucun de ces systèmes n'est aujourd'hui approuvé comme dispositif médical (ni marquage CE, ni autorisation FDA, ni avis favorable de la HAS) pour conduire une anamnèse en autonomie, et ce papier explique pourquoi la prudence reste de mise.
Pour les patients et le public, l'enseignement est direct : un agent conversationnel qui semble « connaître la médecine » quand on lui décrit tout d'un bloc peut se tromper davantage lorsqu'il doit, comme un vrai soignant, poser les bonnes questions au bon moment. Les outils grand public de type « vérificateur de symptômes » fondés sur des LLM héritent de cette limite. Ils peuvent informer et orienter, mais ne remplacent pas l'entretien clinique — et la décision diagnostique reste l'affaire d'un professionnel.
Pour aller plus loin
Le preprint est en accès libre sur arXiv : arxiv.org/abs/2605.22047 (DOI 10.48550/arXiv.2605.22047), sous licence CC BY 4.0. Sur les limites des LLM en sécurité clinique, voir notre décryptage de l'étude d'Auger 2026 sur la frontière de sécurité clinique d'un LLM dans la sclérose en plaques. Sur la manière dont la forme d'une réponse de LLM en imagerie peut tromper l'évaluation, voir notre décryptage de Spitzer 2026 sur l'effet du format d'explication en radiologie.