médical IA

PromptRad : étiqueter des comptes-rendus de scanner du foie avec 32 exemples annotés, et faire jeu égal avec GPT-4

Publié le 24 mai 2026 · 8 min lecture

Ying-Jia Lin (Chang Gung University, Taïwan) et son équipe ont déposé sur arXiv le 19 mai 2026 PromptRad, un papier accepté à l'atelier BioNLP 2026 d'ACL qui propose une méthode d'étiquetage automatique des comptes-rendus de scanner du foie avec un budget d'annotation extrêmement réduit. Le résultat tient en une phrase : avec seulement 32 comptes-rendus annotés et un modèle de 110 millions de paramètres — soit moins de 1 % de la taille de GPT-4 —, leur approche par prompt-tuning enrichie par les synonymes UMLS atteint 89,2 % de F1 macro sur sept catégories de lésions hépatiques, fait jeu égal avec GPT-4 en zéro-shot et le dépasse sur la gestion des négations. Lecture importante parce qu'elle conteste l'idée que la performance en NLP clinique passerait nécessairement par la taille des modèles, et qu'elle propose un dispositif déployable localement, sans envoyer de données patient à un fournisseur de cloud.

Le contexte

Les comptes-rendus de radiologie sont l'un des gisements de données cliniques les plus riches qui existent. Pour chaque examen d'imagerie réalisé, un radiologue rédige un texte libre qui décrit ce qu'il voit, ce qu'il suspecte, ce qu'il écarte. Mais cette richesse est piégée par la forme : du texte non structuré, en jargon spécialisé, avec abréviations, formulations de doute, négations multiples, contradictions assumées. Pour exploiter ces rapports à grande échelle — par exemple pour identifier toutes les images de carcinome hépatocellulaire dans un PACS hospitalier, ou pour constituer un jeu d'entraînement pour un modèle d'imagerie —, il faut d'abord les étiqueter, c'est-à-dire les convertir en variables structurées (catégories binaires : tel diagnostic présent / absent).

Trois approches dominent. Les labeliseurs à base de règles (CheXpert, NegBio, MetaMap) s'appuient sur des dictionnaires de termes et des règles de négation. Ils sont rapides, transparents, mais s'effondrent dès que la formulation s'éloigne des patrons attendus. Le fine-tuning de modèles pré-entraînés (BERT, PubMedBERT) demande, à l'inverse, des milliers de rapports annotés par catégorie — un coût d'annotation hors de portée d'un service hospitalier sans budget recherche dédié. Les grands modèles de langage (GPT-4 et successeurs) résolvent partiellement le problème par leur capacité à généraliser sans entraînement spécifique (zero-shot), mais imposent un envoi des rapports patients à un fournisseur externe — incompatible avec la plupart des cadres réglementaires sur les données de santé. C'est dans cet entre-deux que ce papier se place.

La méthode

L'étude est menée par Ying-Jia Lin et Hung-Yu Kao (National Tsing Hua University et Chang Gung University) avec une équipe clinique de Chang Gung Memorial Hospital et Sijhih Cathay General Hospital (Taïwan). Preprint déposé sur arXiv le 19 mai 2026 (révisé le 20 mai), version acceptée à BioNLP 2026 dans le cadre de la conférence ACL. DOI 10.48550/arXiv.2605.20052, code publié sous licence ouverte sur GitHub. Financement public taïwanais (NSTC, équivalent de l'ANR française), aucun conflit d'intérêt déclaré.

Le dispositif repose sur trois éléments. Premier élément : un modèle de fond léger, PubMedBERT, un BERT de 110 millions de paramètres pré-entraîné par Microsoft Research sur l'ensemble du corpus PubMed. C'est un modèle d'encodage textuel encoder-only — beaucoup plus petit que les LLMs grand public, mais entraîné spécifiquement sur la littérature biomédicale, donc bien calibré sur le vocabulaire médical.

Deuxième élément : le prompt-tuning par modélisation de langage masqué. Plutôt que d'ajouter une couche de classification au-dessus de PubMedBERT (méthode classique du fine-tuning), PromptRad reformule la tâche d'étiquetage comme un problème de cloze test. Le compte-rendu est inséré dans un patron du type « r The radiology report is related to [MASK]. », où [MASK] est un mot à prédire. Le modèle est entraîné à prédire un mot du vocabulaire pour chaque catégorie cible. Cette formulation a deux vertus : elle préserve l'entraînement initial du modèle (pas de couche aléatoire à initialiser) et elle exploite directement la « tête de masquage » que PubMedBERT a passé son pré-entraînement à perfectionner.

Troisième élément : le verbalisateur multi-mots enrichi par UMLS. Un verbalisateur, en prompt-tuning, est la fonction qui associe une classe à un ou plusieurs mots du vocabulaire. Naïvement, on prendrait simplement le nom de la classe (« hepatocellular carcinoma »). Les auteurs vont plus loin : ils interrogent SNOMED CT (via l'UMLS Metathesaurus, le grand thésaurus médical de la National Library of Medicine américaine) pour chaque classe, et y ajoutent les synonymes utilisés en pratique clinique. Le carcinome hépatocellulaire devient ainsi { « hcc », « hepatoma » } ; la stéatose devient { « steatosis », « fatty liver » } ; le post-traitement inclut les acronymes RFA (radiofrequency ablation) et TACE (transarterial chemoembolization). Au moment de la décision, le modèle agrège la probabilité maximale parmi tous les synonymes d'une catégorie. C'est cette injection de connaissance médicale qui distingue PromptRad d'un prompt-tuning générique.

Le jeu de données est constitué de 1 098 comptes-rendus de scanner du foie dé-identifiés, rédigés en anglais, issus d'un grand centre médical taïwanais sur la période 2008–2017. Découpage chronologique strict : 773 rapports d'entraînement (2008–2014), 325 rapports de test (2015–2017). Sept catégories de lésions hépatiques annotées par deux radiologues seniors, avec la consigne explicite de marquer comme positives les mentions suspectes pour éviter les faux négatifs. En configuration low-resource, seuls 32 rapports sont échantillonnés du pool d'entraînement de manière stratifiée pour préserver la distribution des classes ; les résultats sont moyennés sur cinq tirages. Étude approuvée par le comité d'éthique de l'établissement participant.

Comparateurs : trois familles. Côté règles : un labeliseur dictionnaire, MetaMap et NegBio. Côté fine-tuning : PubMedBERT classique, et deux variantes hybrides où le fine-tuning est précédé d'un prétraitement par MetaMap ou NegBio. Côté grand modèle : GPT-4 en zéro-shot et GPT-4 en in-context learning avec trois exemples.

Les résultats

Le résultat principal est un F1 macro de 89,2 % (± 1,0) pour PromptRad+AutoT (la variante avec génération automatique de templates par T5), légèrement au-dessus de GPT-4 en zéro-shot à 88,7 %, et nettement au-dessus du fine-tuning PubMedBERT classique à 58,6 % (± 10,0). La variante manuelle de PromptRad atteint 83,7 % (± 2,1). NegBio, le meilleur des labeliseurs à base de règles, plafonne à 76,6 %. La détection de la métastase hépatique passe ainsi de 27,5 % (NegBio) ou 54,9 % (PubMedBERT) à 84,7 % (PromptRad+AutoT) — un écart considérable sur une catégorie minoritaire (101 cas d'entraînement, 46 cas de test). Sur l'hémangiome, autre catégorie rare, on passe de 37,7 % (PubMedBERT) à 92,4 %.

Sur la gestion des négations, le papier rapporte (Figure 4) que PromptRad+AutoT fait mieux que GPT-4, NegBio et MetaMap pour distinguer les formulations négatives explicites (« no liver cirrhosis », « R/O metastasis ») sur les trois catégories HCC, Cirrhose et Métastase. NegBio en particulier s'effondre sur la cirrhose parce que sa logique de parsing syntaxique exige des phrases complètes, et que les radiologues écrivent souvent en style télégraphique. L'écart se construit là où la lecture du texte exige une compréhension sémantique — exactement le terrain de jeu d'un modèle de langage.

Traduction clinique. Pour fixer les ordres de grandeur sur 1 000 comptes-rendus de scanner du foie automatiquement étiquetés en routine : un labeliseur PubMedBERT fine-tuné avec 32 exemples manquerait environ 45 mentions de stéatose sur 100, contre 3 pour PromptRad+AutoT. Sur la métastase hépatique, NegBio raterait environ 72 cas réels sur 100, contre 15 pour PromptRad+AutoT — au prix de quelques faux positifs supplémentaires en valeur absolue. Un compte-rendu négatif marqué à tort positif a un coût de relecture humaine, mais pas un coût clinique direct. Pour un service de radiologie cherchant à constituer un registre de tumeurs hépatiques à partir de son PACS, l'écart entre 28 % et 85 % de rappel sur la métastase change la nature du registre — d'inexploitable à exploitable.

Ce qui est bien

Trois forces spécifiques.

L'efficacité-données est extrême et chiffrée. 32 comptes-rendus annotés contre les milliers exigés par un fine-tuning BERT classique : c'est l'écart qui rend la méthode déployable dans un service hospitalier réel, où aucun radiologue ne dispose du temps libre pour annoter 5 000 cas. Le papier montre par ailleurs (section 5.4) que la performance continue de monter avec plus de données : avec 128 exemples, PromptRad+AutoT dépasse 90 % de F1 macro. La courbe est honnêtement tracée, sans cherry-picking d'un seuil favorable.

La validation est faite sur split chronologique, pas sur split aléatoire. Entraînement sur 2008–2014, test sur 2015–2017. C'est une discipline méthodologique qui élimine au moins une forme de data leakage — le scénario où le même patient ou le même radiologue apparaîtrait à la fois dans l'entraînement et dans le test parce qu'un tirage aléatoire les aurait séparés. Sur des données cliniques, c'est la bonne pratique, encore trop souvent ignorée dans la littérature NLP médicale.

Le code est publié sous licence permissive, le modèle de fond est ouvert. PubMedBERT est sous licence MIT, le code PromptRad est publié sous CC BY 4.0 sur GitHub, et la méthode ne dépend d'aucun service propriétaire au moment de l'inférence (l'API OpenAI n'est utilisée que pour la comparaison). Concrètement, un hôpital peut déployer le pipeline complet en local, sans envoyer un seul compte-rendu à un fournisseur externe — ce qui est rare dans la vague actuelle de papiers qui se contentent de prompter GPT-4 puis publient.

Ce qui est moins bien

Trois limites précises.

Données issues d'un seul centre, sur une seule modalité, dans une seule langue. 1 098 comptes-rendus de scanner du foie d'un hôpital de Taïwan, rédigés en anglais. C'est le biais de population dans sa forme classique : rien ne garantit que le modèle survivra à un changement de service (radiologie pédiatrique), de modalité (IRM), de spécialité (rapports cardiologiques), ou de langue (français hospitalier, qui mélange volontiers français et anglais avec ses propres abréviations). Les auteurs le reconnaissent explicitement dans leur section limitations. Pour un hôpital francophone, il faudrait ré-entraîner depuis zéro, et la pénurie de PubMedBERT francophone bien calibré est un obstacle réel.

Le comparateur GPT-4 est utilisé en zéro-shot sans optimisation de prompt, ce qui le défavorise. La littérature 2024–2026 a abondamment montré qu'un prompt soigneusement conçu, avec exemples bien choisis et chaîne de raisonnement explicite, peut faire gagner 5 à 10 points à GPT-4 sur des tâches cliniques. La version in-context learning testée ici utilise « trois exemples aléatoires » — choix qui n'est probablement pas le meilleur. Le mode d'échec à signaler est le comparateur biaisé : on ne sait pas si PromptRad bat un GPT-4 mal exploité ou un GPT-4 dans ses conditions optimales. Une comparaison à GPT-4 fine-tuné, ou à un modèle open-weights de taille comparable (Llama-3-Med, BiomedCLIP), aurait été plus instructive.

La métrique de référence est un F1 sur sept catégories fixes, ce qui ne couvre pas le scénario clinique le plus exigeant. En pratique, un service de radiologie a besoin d'étiqueter potentiellement des dizaines de catégories — y compris des découvertes rares qui n'apparaissent pas une seule fois dans 32 exemples d'entraînement. Le papier ne dit rien sur la dégradation de PromptRad face à des catégories en très faible prévalence (1 cas pour 1 000, par exemple), ni sur les découvertes incidentes hors-vocabulaire UMLS. La métrique trompeuse classique guette : un F1 macro de 89 % sur sept catégories bien représentées peut masquer un effondrement sur la huitième. Une évaluation prospective sur la queue de distribution des découvertes radiologiques manque pour qualifier la méthode en production.

Ce que ça change

Pour la communauté de recherche en NLP médical, le message méthodologique est important. Depuis 2023, beaucoup d'équipes ont cessé de fine-tuner des modèles compacts parce que GPT-4 zéro-shot semblait dispenser de l'effort. Ce papier rappelle qu'un modèle de fond bien adapté et un verbalisateur enrichi par terminologie médicale peuvent faire jeu égal avec GPT-4 sur une tâche précise, avec 1 000 fois moins de paramètres, donc à coût d'inférence négligeable et sans dépendance à une API externe. C'est un argument utile dans le débat sur la souveraineté technique des hôpitaux. À l'inverse, le papier ne prétend pas remplacer GPT-4 sur des tâches ouvertes, et ne le fait pas — la critique honnête doit garder cette frontière à l'esprit.

Pour les cliniciens et les services d'imagerie, le levier opérationnel est concret. Un service qui souhaite indexer rétrospectivement son PACS — par exemple pour constituer une cohorte de patients avec carcinome hépatocellulaire à des fins de recherche ou de revue qualité — peut désormais espérer le faire avec un effort d'annotation de quelques heures-radiologue, plutôt que de quelques mois-radiologue. La question pratique est cependant l'intégration : qui héberge le modèle, qui le maintient, qui audite ses faux négatifs. Aucun de ces points n'est résolu par le papier, qui s'arrête au benchmark.

Pour les patients et le grand public, l'enseignement reste indirect. Personne ne consultera jamais PromptRad. Mais les pipelines qui en descendent — alimentant des registres de cancers, des études épidémiologiques sur les lésions hépatiques, des jeux de données pour les futurs modèles d'imagerie — auront un effet en cascade sur la qualité des connaissances médicales produites. Une infrastructure d'étiquetage qui passe de 60 % à 89 % de précision moyenne, c'est une littérature scientifique qui dérive moins, des cohortes mieux constituées, et à terme des recommandations cliniques plus fiables. Le bénéfice n'est pas visible, mais il est réel.

Pour aller plus loin

Le preprint arXiv 2605.20052 est en accès libre sur arxiv.org ; version PDF directe ici. Le code et les scripts sont publiés sur github.com/ila-lab/PromptRad. Pour PubMedBERT, le papier original de Gu et al. (2021) est accessible via DOI 10.1145/3458754. Pour les bases conceptuelles du prompt-tuning, voir Liu et al., ACM Computing Surveys, 2023 (DOI 10.1145/3560815). Pour l'UMLS Metathesaurus, point d'entrée à la National Library of Medicine. Pour un panorama récent des modes d'échec spécifiques aux LLMs cliniques en français, voir notre décryptage de l'étude Auger 2026.