médical IA

BreastGPT : un seul modèle multimodal pour tout le parcours du cancer du sein — ce que vaut vraiment un score de 90 % sur un benchmark maison (Liu et al. 2026, arXiv)

Publié le 5 juin 2026 · 10 min lecture

Yang Liu, Jiajin Zhang, Danyang Tu, Yingda Xia et leurs collègues (DAMO Academy d'Alibaba, Université du Zhejiang, Hupan Lab, et les hôpitaux West China et China Medical University) déposent le 3 juin 2026 sur arXiv BreastGPT, un modèle de langage multimodal de 8 milliards de paramètres présenté comme couvrant tout le parcours clinique du cancer du sein — dépistage, diagnostic, planification du traitement — sur cinq modalités d'imagerie (mammographie, échographie, IRM, scanner, lames de pathologie) plus le texte clinique. Entraîné sur 1,86 million de paires question-réponse en grande partie fabriquées par les propres grands modèles d'Alibaba, il atteint 75,66 % d'exactitude sur les questions à choix et 89,92 % sur les questions ouvertes de son propre benchmark BreastStage-Bench, loin devant des modèles généralistes interrogés à froid. C'est une démonstration d'ingénierie sérieuse, mais l'essentiel de l'écart vient de l'entraînement sur la distribution exacte du test : le seul comparateur équitable ne gagne que quelques points, rien n'a été évalué sur de vrais patients ni comparé à des cliniciens, et la « vérité terrain » est en grande partie générée par les modèles maison.

Le contexte

La prise en charge d'un cancer du sein est un parcours en étapes. Au dépistage, on lit surtout des mammographies (et, de plus en plus, on repère des lésions mammaires de manière opportuniste sur des scanners thoraciques faits pour autre chose). Au diagnostic, on enchaîne échographie, IRM et, pour confirmer, l'examen au microscope d'une biopsie — la pathologie. À la planification du traitement, on intègre le sous-type, l'étendue, et la réponse attendue. Chaque étape mobilise une modalité d'image différente et un raisonnement différent.

L'IA s'est jusqu'ici attaquée à ces étapes une par une : un modèle pour la mammographie, un autre pour l'échographie, un autre pour la lame. Les auteurs partent d'un constat : il n'existe ni jeu de données ni modèle unique qui traverse tout le parcours. Leur proposition est un modèle de langage multimodal (un MLLM, pour multimodal large language model : un modèle de langage capable de « voir » des images en plus de lire et d'écrire du texte) interrogé sous forme de VQA (visual question answering : on lui montre une image et on lui pose une question, à choix multiples ou ouverte). Un seul système, censé répondre sur cinq modalités et trois stades. L'ambition est claire ; reste à savoir ce qu'elle vaut une fois mesurée.

La méthode

L'article est un preprint arXiv (2606.04911, déposé le 3 juin 2026, sous licence CC BY-NC-SA, non encore relu par les pairs). BreastGPT est bâti sur Qwen3-VL, un modèle vision-langage d'Alibaba, dans sa version à 8 milliards de paramètres. L'astuce centrale est un encodeur visuel à deux branches avec un aiguillage selon la modalité : une branche « standard » (l'encodeur d'images natif de Qwen3-VL) traite le scanner, l'IRM, l'échographie et la mammographie ; une branche « gigapixel » traite les lames de pathologie, qui sont des images de plusieurs milliards de pixels. Cette seconde branche découpe la lame en tuiles à fort grossissement, encode chaque tuile avec CONCH (un encodeur pré-entraîné sur des images de pathologie), puis agrège le tout avec LongNet, une architecture d'attention dite « dilatée » conçue pour les très longues séquences.

Pour ne pas noyer le modèle de langage sous des dizaines de milliers de tuiles, les auteurs adaptent une technique de compression de jetons « préservant les concepts » : au lieu de tout transmettre, on sélectionne 128 jetons visuels qui maximisent la couverture de l'information utile. La méthode ne nécessite aucun entraînement supplémentaire. Le routage entre tâches ne passe pas par des têtes spécialisées mais par des invites système qui indiquent au modèle le stade et la tâche. L'entraînement a mobilisé 32 cartes graphiques H100 pendant un peu plus de trois jours.

Côté données, le corpus « BreastStage » rassemble environ 662 000 images, 136 modèles de tâches et 1,86 million de paires d'instructions, à partir de 17 sous-jeux couvrant cinq modalités (répartition : 57,9 % dépistage, 36,7 % diagnostic, 5,4 % traitement). Les sources d'images sont surtout publiques — CT-RATE pour le scanner (20 546 volumes féminins), BUS-CoT pour l'échographie (11 439 images), un sous-ensemble d'EMBED pour la mammographie, et BCNB, TCGA-BRCA et TCGA-HISTAI pour la pathologie (2 510 lames) — avec une seule cohorte d'IRM privée, issue de deux hôpitaux, annotée par dix spécialistes du sein, dont les comptes rendus en chinois ont été traduits automatiquement. Point crucial : une grande partie du texte (questions ouvertes, légendes, comptes rendus simulés) n'est pas écrite par des humains mais générée par les propres modèles d'Alibaba (Qwen2.5-VL-72B pour les décisions liées à l'image, Qwen3-Max pour les transformations de texte).

Les résultats

Sur son propre benchmark BreastStage-Bench (12 182 cas de test, séparés au niveau du patient), BreastGPT atteint 75,66 % d'exactitude aux questions à choix et 89,92 % aux questions ouvertes. Les modèles généralistes interrogés sans entraînement spécifique sont loin derrière : GPT-5.4 à 54,0 / 53,6, les modèles médicaux dédiés comme Lingshu à 50,4. C'est ce contraste que l'abstract met en avant.

Mais le chiffre qui compte vraiment est ailleurs, et les auteurs ont l'honnêteté de le fournir : un Qwen3-VL de 8 milliards de paramètres, identique mais simplement affiné sur les mêmes données, obtient déjà 68,21 % / 88,24 %. L'apport propre de l'architecture à deux branches et de la compression de jetons se réduit donc à environ 7 points sur les questions à choix et moins de 2 points sur les questions ouvertes. L'essentiel du gain n'est pas l'architecture : c'est le fait d'avoir entraîné le modèle sur la distribution exacte du test. Le bénéfice architectural est réel surtout en pathologie, où la branche gigapixel fait passer l'exactitude de 60,4 à 71,4 %.

Traduction clinique. Ici, il faut être direct : ces pourcentages ne se traduisent en rien de clinique. Une exactitude de 75 % sur un questionnaire à choix multiples n'est pas une sensibilité ni une spécificité de dépistage ; elle ne dit pas combien de cancers seraient manqués ou combien de fausses alertes seraient générées sur de vraies patientes. Aucune performance n'a été mesurée sur un critère clinique, aucune comparaison à un radiologue ou à un pathologiste n'a été faite, et l'évaluation se déroule entièrement sur des données de même origine que l'entraînement. Autrement dit, BreastGPT répond bien à des questions construites comme celles qu'il a vues — ce qui est encourageant pour un prototype, mais ne nous apprend presque rien sur ce qu'il ferait face à un cas réel.

Ce qui est bien

Une vraie ingénierie pour le gigapixel, et un gain mesurable là où il compte. Faire cohabiter dans un même modèle des images de radiologie « normales » et des lames de pathologie de plusieurs milliards de pixels est un problème technique difficile. La combinaison CONCH + LongNet + compression à 128 jotons est une réponse soignée, et c'est sur la pathologie que l'apport architectural est le plus net (60,4 → 71,4 % en questions à choix). L'idée d'un assistant unique qui suit le parcours plutôt que des outils en silos est, sur le principe, la bonne direction.

De l'échelle et, surtout, un comparateur ablatif honnête. Le corpus est massif et documenté (662 000 images, 17 sous-jeux, cinq modalités). Et les auteurs ne se contentent pas de battre des modèles généralistes : ils rapportent la performance d'un Qwen3-VL simplement affiné sur leurs données. C'est précisément ce comparateur qui permet au lecteur de voir que le vrai gain architectural est modeste — fournir ce chiffre est à mettre à leur crédit, beaucoup d'équipes l'omettraient.

De la transparence sur le statut et les limites. Le papier dit explicitement que BreastGPT est un « prototype de recherche », non validé cliniquement, non revu par une autorité réglementaire, et qu'il ne doit pas être pris pour un système diagnostique autonome. Il reconnaît que les données ne sont pas longitudinales (rarement le même patient suivi d'un bout à l'autre), recommande une validation spécifique par site, et annonce la mise à disposition du code et du benchmark sous licence non commerciale.

Ce qui est moins bien

Un comparateur biaisé et une métrique trompeuse dans la mise en avant. Comparer un modèle entraîné sur la distribution du test à des modèles généralistes interrogés à froid (GPT-5.4 « à seulement 49,3 % ») est une comparaison déséquilibrée : c'est un match entre un candidat qui a vu les annales et des candidats qui découvrent l'épreuve. Le comparateur biaisé gonfle l'écart annoncé (« plus de 25 / 35 / 40 % » selon le stade), alors que le seul comparateur équitable, leur propre modèle affiné, ramène le gain réel à quelques points. Communiquer sur le grand écart plutôt que sur le petit est une métrique trompeuse.

Une évaluation circulaire, avec un risque de fuite de données et de raccourci. Le benchmark est construit à partir des mêmes 17 jeux de données que l'entraînement, par la même équipe, avec le même pipeline de génération. La séparation se fait au niveau du patient, mais une même image peut réapparaître dans des tâches différentes, et les modèles de phrases des comptes rendus se répètent : c'est un terrain propice à la fuite de données (data leakage) et au shortcut learning, où le modèle apprend le style des questions plutôt que la médecine. Pire, la « vérité terrain » des questions ouvertes est générée par les modèles maison d'Alibaba, puis notée par un évaluateur lui aussi à base de modèle de langage : le correcteur et le candidat partagent la même famille, ce qui récompense mécaniquement les réponses au style « Qwen ». Les sous-ensembles les plus sensibles sont minuscules (113 questions ouvertes et 70 légendes en pathologie), ce qui rend les affirmations sur le stade « traitement » fragiles.

Pas de patient, pas de clinicien, et des angles morts de population et de gouvernance. L'évaluation est entièrement sur benchmark : aucun résultat sur de vrais patients, aucun critère clinique, aucune comparaison directe à un radiologue ou un pathologiste — les trois spécialistes du sein impliqués n'ont fait qu'auditer la qualité des données, pas affronter le modèle. Les cohortes sont majoritairement chinoises et de centres spécifiques (l'IRM, privée, vient de deux hôpitaux), ce qui laisse entier le risque de biais de population et d'effondrement sur d'autres scanners ou d'autres pays. Enfin, ni le financement ni les conflits d'intérêts ne sont déclarés, alors que le modèle de base, les modèles générateurs de données et le correcteur sont tous des produits du même groupe industriel — une dépendance qui mériterait d'être explicitée.

Ce que ça change

Pour la communauté de recherche, BreastGPT est à double tranchant. D'un côté, c'est un plan de construction réutilisable pour des assistants multimodaux qui suivent un parcours clinique, et la brique gigapixel (CONCH + LongNet + compression de jetons) est transposable à d'autres cancers. De l'autre, c'est un cas d'école des limites du « benchmark maison » : quand l'équipe qui entraîne le modèle fabrique aussi le jeu de test, la vérité terrain et le correcteur, les scores spectaculaires perdent leur valeur de preuve. Le besoin de benchmarks externes, indépendants et annotés par des humains n'a jamais été aussi clair.

Pour les cliniciens, l'outil n'a aucune portée immédiate : prototype non validé, sans comparaison à la lecture experte, sans test prospectif, sans statut réglementaire. L'idée d'un assistant unique qui accompagne le dépistage, le diagnostic et la décision est séduisante à moyen terme, mais elle suppose de franchir tout ce qui manque ici — une évaluation sur de vrais patients, contre de vrais médecins, dans de vrais hôpitaux.

Pour les patientes et le public, le message tient en une phrase : un score de 90 % sur un benchmark n'est pas un outil médical sûr. Les modèles de langage multimodaux peuvent produire des réponses fluides et plausibles tout en se trompant ou en hallucinant des détails — un risque d'autant plus sérieux que la « vérité terrain » de ce travail a elle-même été écrite par des modèles. Une réponse bien formulée n'est pas une réponse juste, et un prototype impressionnant n'est pas un dispositif validé.

Pour aller plus loin

Le preprint est en accès libre sur arXiv : arxiv.org/abs/2606.04911 (DOI 10.48550/arXiv.2606.04911) ; les auteurs annoncent la publication du code, des poids (8 milliards de paramètres) et du benchmark BreastStage sur ModelScope. Sur un autre modèle récent dédié au cancer du sein — la prédiction de réponse à la chimiothérapie à partir d'une biopsie — voir notre décryptage de MCEN. Sur les modèles de fondation en pathologie numérique et l'analyse de lames gigapixels, voir notre décryptage de GigaPath. Et sur le piège des modèles « multimodaux » qui s'appuient en réalité surtout sur le texte, voir notre décryptage du VLM clinique où le texte domine l'image.