médical IA

MCEN : prédire la réponse complète à la chimiothérapie du cancer du sein à partir d'une biopsie, avec l'architecture Mamba (Zhang et al. 2026, npj Digital Medicine)

Publié le 4 juin 2026 · 11 min lecture

Wenchuan Zhang, Shuwan Zhang, Fengling Li, Yuanyuan Zhao, Jing Fu, Xiuli Xiao, Ting Yin, Qingjie Lv, Yuhao Yi et Hong Bu (West China Hospital, Université du Sichuan, et quatre autres hôpitaux chinois) publient le 2 juin 2026 dans npj Digital Medicine MCEN, un modèle d'apprentissage profond fondé sur l'architecture Mamba qui prédit, à partir d'une biopsie à l'aiguille analysée en lame numérique, si une patiente atteinte d'un cancer du sein obtiendra une réponse pathologique complète après chimiothérapie néoadjuvante. Entraîné sur 1 023 patientes d'un seul hôpital puis testé sur quatre autres centres indépendants — 1 646 patientes au total —, il atteint une AUROC de 0,923 à l'entraînement, retombe à 0,76–0,81 en validation externe, et grimpe jusqu'à 0,84 lorsqu'on lui adjoint les données clinicopathologiques de routine. C'est une démonstration intéressante de l'intérêt de Mamba pour la pathologie numérique et d'une vraie validation multicentrique ; il faut toutefois la lire à l'aune d'un écart entraînement-validation marqué, d'une cohorte exclusivement chinoise, de critères d'exclusion qui écartent les formes atypiques, et de l'absence de toute comparaison directe aux pathologistes.

Le contexte

Pour de nombreux cancers du sein, on administre la chimiothérapie avant la chirurgie : c'est la chimiothérapie néoadjuvante. L'objectif est de réduire la tumeur, de rendre possible une chirurgie conservatrice du sein, et de tester en direct la sensibilité de la tumeur au traitement. Le meilleur résultat possible porte un nom : la réponse pathologique complète (pCR, pour pathological complete response), définie comme l'absence de tout cancer invasif résiduel dans le sein et dans les ganglions axillaires à l'examen de la pièce opératoire. Les patientes qui atteignent la pCR ont en général un bien meilleur pronostic ; à l'inverse, prédire à l'avance qui ne répondra pas permettrait d'éviter des mois de chimiothérapie toxique et inutile, ou d'orienter d'emblée vers une autre stratégie.

Le problème, c'est que cette prédiction est difficile. Les outils classiques — sous-type moléculaire, indice de prolifération Ki-67, taux de lymphocytes infiltrant la tumeur (TILs) sur lame, signatures de gènes, radiomique sur IRM — capturent chacun une facette, mais leur évaluation manuelle souffre d'une forte variabilité entre observateurs et ne saisit pas la complexité spatiale du microenvironnement tumoral. La pathologie numérique (l'analyse informatique de lames histologiques scannées en haute résolution, appelées whole-slide images ou WSI) a ouvert une autre voie : des réseaux de neurones convolutifs (CNN) ont déjà appris à prédire la pCR à partir de la biopsie initiale. Mais une WSI est une image gigapixel — des milliards de pixels —, et les architectures transformer, qui excellent à modéliser les dépendances à longue portée grâce au mécanisme d'attention, ont un coût de calcul qui croît avec le carré de la longueur de la séquence : impraticable à cette échelle. C'est ce verrou que l'équipe propose de lever avec Mamba.

La méthode

L'article (npj Digital Medicine, 10.1038/s41746-026-02849-2, reçu le 28 janvier, accepté le 26 mai, publié le 2 juin 2026, en accès libre sous licence CC BY-NC-ND) présente MCEN — pour Mamba-based model for Chemotherapy Efficacy using Needle biopsy. Mamba est un modèle à espace d'états sélectif (selective state space model) : au lieu de comparer chaque élément à tous les autres comme l'attention, il parcourt la séquence en maintenant un état interne compressé qu'il met à jour à chaque pas, ce qui lui donne une complexité linéaire tout en conservant un champ de réception global. Sur une lame gigapixel découpée en dizaines de milliers de petites tuiles, cette propriété change tout.

Le pipeline comporte trois temps. D'abord la WSI de la biopsie est découpée en tuiles. Ensuite chaque tuile est encodée par CONCH, un encodeur vision-langage pré-entraîné spécifiquement sur des images de pathologie (les auteurs l'ont comparé à trois autres extracteurs — CTransPath, Phikon, ViT-S/16 — et CONCH obtient la meilleure AUROC, 0,780, contre 0,677 pour ViT-S/16). Enfin un module de re-embedding en ligne (un bloc transformer qui réajuste les représentations au contexte de la lame) alimente une agrégation par Mamba bidirectionnel selon le principe du multiple instance learning (MIL : on n'a qu'une étiquette pour toute la lame, et le modèle apprend à pondérer les tuiles pertinentes sans annotation pixel par pixel). MCEN est comparé aux méthodes MIL de référence — ABMIL, CLAM, TransMIL, ainsi que de simples moyennes et maxima — et les surpasse, tout en réduisant le temps d'inférence de 23,1 % par rapport à TransMIL.

Côté données, 1 646 patientes proviennent de cinq hôpitaux : West China (WC, n=1 023), Shengjing (SJ, n=306), Shanxi Cancer (SXC, n=187), Sichuan Provincial People's (SCPP, n=80) et Southwest Medical University (ASWMU, n=50). La cohorte WC est divisée aléatoirement en entraînement (n=819) et validation interne (n=204), avec un taux de pCR de 27,5 % dans les deux ; les quatre autres centres servent de tests externes indépendants. Les auteurs appliquent des critères d'exclusion stricts (pas de cancers bilatéraux, multifocaux, ni de sous-types rares comme les carcinomes lobulaires, mucineux ou tubuleux), une normalisation de coloration, un early stopping et du dropout contre le surapprentissage, et une imputation par forêt aléatoire pour les données manquantes. Un volet complémentaire fusionne le score MCEN avec les variables clinicopathologiques via un modèle XGBoost interprété par SHAP.

Les résultats

MCEN atteint une AUROC de 0,923 sur la cohorte d'entraînement (l'AUROC, aire sous la courbe ROC, mesure la capacité à distinguer une répondeuse d'une non-répondeuse : 1,0 est parfait, 0,5 équivaut au hasard), mais 0,78 en validation interne et une fourchette de 0,761 à 0,809 sur les quatre centres externes. L'ajout des données clinicopathologiques de routine relève ces chiffres : 0,937 à l'entraînement, 0,811 en validation, et jusqu'à 0,84 en externe. Le score produit par le modèle sépare nettement les groupes — moyenne de 0,771 chez les répondeuses contre 0,212 chez les non-répondeuses dans la cohorte d'entraînement, écart significatif (p < 0,05) maintenu dans tous les centres externes. En analyse multivariée, le sous-type moléculaire et le score MCEN ressortent comme prédicteurs indépendants, et les cartes d'attention montrent que le modèle se concentre surtout sur les zones de fibrose et de stroma. Les performances sont plus faibles dans les sous-groupes HR–/HER2+ et HR–/HER2– de certains centres, vraisemblablement faute d'effectifs.

Traduction clinique. Dans cette population, environ une patiente sur quatre obtient une pCR. Une AUROC de 0,76–0,81 en conditions externes correspond à une discrimination modérée : le modèle classe mieux que le hasard, nettement, mais reste loin d'une certitude — il y aura des répondeuses étiquetées à risque et des non-répondeuses rassurées à tort. Concrètement, un tel score ne peut pas décider seul d'alléger ou d'intensifier une chimiothérapie ; il a vocation à s'ajouter au sous-type, au stade et au Ki-67 pour affiner une probabilité, pas à les remplacer. Et il faut rappeler que la pCR est un critère de substitution : elle est corrélée à un meilleur pronostic, mais n'est pas la survie elle-même.

Ce qui est bien

Une vraie validation externe multicentrique. C'est le point fort. Le modèle est entraîné sur un seul hôpital puis évalué sans réglage sur quatre cohortes indépendantes de tailles et de pratiques différentes (306, 187, 80 et 50 patientes), avec des performances qui tiennent (0,761–0,809). La plupart des études de pCR par IA se contentent d'une validation interne sur une petite cohorte unique ; ici l'épreuve du feu inter-centres est réellement passée, ce qui est l'obstacle le plus fréquent au déploiement.

Une architecture efficiente, adaptée au problème, sur un prélèvement déjà disponible. Mamba apporte une complexité linéaire là où l'attention transformer étouffe sur des lames gigapixels, avec à la clé une inférence 23,1 % plus rapide que TransMIL à performance comparable. Surtout, l'entrée est la biopsie à l'aiguille pré-traitement : l'information est disponible au moment exact où se décide la stratégie, sans examen supplémentaire.

De l'honnêteté méthodologique et du code public. Les auteurs rapportent franchement la chute entre entraînement et validation, montrent en multivariée que le score MCEN reste prédictif indépendamment du sous-type, justifient le choix de l'encodeur CONCH par une comparaison chiffrée, et publient leur code sur GitHub pour un usage académique. La fusion avec les variables cliniques est présentée comme complémentaire, pas comme un remplacement.

Ce qui est moins bien

Un écart entraînement-validation qui invite à la prudence sur le chiffre vedette. Passer de 0,923 à l'entraînement à 0,78 en validation interne, puis 0,76–0,81 en externe, est un signe classique d'optimisme : le 0,923 reflète surtout l'ajustement aux données vues, pas la performance attendue ailleurs. Communiquer sur la borne haute serait une métrique trompeuse ; la valeur honnête, celle qui compte pour une patiente, est la fourchette externe, et elle ne traduit qu'une discrimination modérée sur une tâche déséquilibrée (27,5 % de pCR).

Biais de population, exclusions, et confusion possible par le sous-type. Les cinq centres sont chinois et tertiaires : rien ne garantit la généralisation à d'autres populations, d'autres scanners ou d'autres protocoles de coloration, et les auteurs le reconnaissent. Les critères d'exclusion stricts (carcinomes lobulaires, mucineux, tubuleux, formes bilatérales ou multifocales écartées) restreignent le modèle au seul carcinome infiltrant de type non spécifique — un biais de sélection qui le rend inapplicable tel quel aux formes atypiques. Enfin, la pCR dépend très fortement du sous-type moléculaire (élevée dans les tumeurs triple-négatives et HER2+, faible dans les HR+/HER2–) : comme le modèle s'appuie sur la fibrose et le stroma, qui covarient avec le sous-type, il faut se demander dans quelle mesure il apprend la biologie de la réponse plutôt qu'un raccourci corrélé au sous-type (shortcut learning). L'analyse multivariée plaide pour une valeur ajoutée réelle, mais la question mérite des analyses spécifiques par sous-type, que les auteurs appellent eux-mêmes de leurs vœux.

Pas de pathologiste en face, rétrospectif, et un critère de substitution. Aucune comparaison directe homme-machine n'est rapportée : le comparateur reste algorithmique (autres méthodes MIL, modèles cliniques). L'étude est entièrement rétrospective, sans validation prospective ni essai clinique pragmatique, et porte sur la pCR — un critère de substitution corrélé à la survie, non la survie. L'entrée se limite à la biopsie à l'aiguille (la transposition aux pièces opératoires ou à d'autres tumeurs reste à établir), la licence est CC BY-NC-ND (pas d'usage commercial, pas de dérivés) et aucun marquage CE ni autorisation réglementaire n'est mentionné. À mettre au crédit du travail : le financement est public (fonds provinciaux chinois et NSFC) et les auteurs ne déclarent aucun conflit d'intérêts.

Ce que ça change

Pour la communauté de recherche, MCEN ajoute une pierre solide à un mouvement déjà engagé : Mamba et les modèles à espace d'états sont des alternatives crédibles aux transformers pour l'agrégation MIL sur lames gigapixels, avec un gain d'efficacité mesuré. La mise à disposition du code et la démonstration qu'une validation sur quatre centres est atteignable donnent une base sur laquelle d'autres équipes peuvent bâtir — idéalement avec des cohortes multinationales et des analyses par sous-type.

Pour les cliniciens, l'outil n'est pas déployable aujourd'hui : rétrospectif, sans comparaison à la lecture experte, sans validation prospective et sans statut réglementaire. Son intérêt potentiel à moyen terme est clair — fournir, dès la biopsie initiale, une probabilité de réponse qui s'ajoute au sous-type et au Ki-67 pour discuter d'une désescalade chez les répondeuses probables ou d'une autre stratégie chez les non-répondeuses probables —, mais cela suppose de franchir l'étape prospective et de confirmer le bénéfice sur des critères durs.

Pour les patientes et le public, la promesse est celle d'une chimiothérapie plus personnalisée, lue à partir d'un prélèvement déjà réalisé, sans geste supplémentaire. La prudence reste de mise : un modèle performant sur des lames chinoises rétrospectives n'est pas, en l'état, validé pour orienter un traitement, et une discrimination modérée signifie des erreurs dans les deux sens. Une prédiction n'est pas une décision, et le choix thérapeutique demeure du ressort de l'équipe soignante.

Pour aller plus loin

L'article est en accès libre dans npj Digital Medicine : nature.com/articles/s41746-026-02849-2 (DOI 10.1038/s41746-026-02849-2) ; le code est sur github.com/Wenchuan-Zhang/MCEN. Sur les modèles de fondation et l'analyse de lames en pathologie numérique, voir notre décryptage de GigaPath. Sur la prédiction de réponse à un traitement néoadjuvant par imagerie, voir notre décryptage du modèle mixture-of-experts sur IRM du rectum, et sur la traduction d'une lecture histologique en valeur pronostique, notre décryptage du phénotypage histomorphologique de Yang 2026.