UNet-MoE-Cli : un mixture-of-experts pour personnaliser le néoadjuvant du cancer du rectum (étude Liu 2026, npj Digital Medicine)

Xiangyu Liu, Yuanling Tang, Song Zhang et collègues (Xidian University, West China Hospital de l'Université du Sichuan, Institut d'automatique de l'Académie chinoise des sciences) publient le 26 mai 2026 dans npj Digital Medicine UNet-MoE-Cli, un modèle de deep learning « mixture of experts » à porte dure qui combine IRM multiparamétrique pré-traitement et variables cliniques pour estimer, pour chaque patient atteint d'un cancer du rectum localement avancé, la probabilité de réponse pathologique complète (pCR) sous trois régimes néoadjuvants : radiochimiothérapie standard (nCRT), total neoadjuvant therapy (TNT) et chimiothérapie seule (nCT). Sur 855 patients (760 rétrospectifs sur trois centres chinois et 95 prospectifs sous ChiCTR2400085797), l'AUC atteint 0,827 en validation interne et 0,790 en cohorte prospective. Le modèle suggère une escalade thérapeutique chez 53 % des patients et une désescalade chez 6 %. Lecture importante parce qu'elle pousse plus loin la promesse d'une oncologie pilotée par les données, mais à manier avec précaution : la sensibilité plafonne à 0,45–0,53, le bénéfice estimé de l'escalade est calculé par le modèle lui-même, l'expert nCT est entraîné sur un seul centre, et la cohorte est entièrement chinoise.

Le contexte

Le cancer du rectum localement avancé (LARC, stades cT3-4 ou cN+ sans métastase) concerne environ 40 % des nouveaux diagnostics de cancer rectal. Depuis vingt ans, le standard de soin a évolué de la radiochimiothérapie longue préopératoire (nCRT, environ 50 Gy en 25–28 fractions avec capécitabine) vers la total neoadjuvant therapy (TNT, qui ajoute 4 à 6 cycles de CAPOX avant ou après l'irradiation), puis vers des stratégies purement chimiothérapiques sans rayons (nCT) pour des sous-groupes sélectionnés. Les essais PRODIGE-23 (France, 2020), RAPIDO (Pays-Bas, 2020) et OPRA (États-Unis, 2022) ont consacré la TNT comme régime de référence pour les tumeurs à haut risque, avec à la clé une augmentation des taux de réponse pathologique complète (pCR) — disparition complète de la tumeur sur la pièce opératoire — de 14 % sous nCRT à 28 % sous TNT.

Le problème est que cette intensification est appliquée de manière populationnelle, pas individuelle. Un patient qui aurait répondu à une nCRT courte se voit infliger six mois de chimiothérapie supplémentaire et toute sa toxicité ; un patient destiné à ne pas répondre subit le même protocole long sans bénéfice. Les scores cliniques actuels (NCCN, MERCURY-2) stratifient le risque, mais ne prédisent pas la réponse à chaque régime spécifique. C'est précisément le créneau que ce papier vise : pas un classifieur de risque, mais un modèle de réponse contrefactuelle, capable d'estimer « cette patiente aurait X % de chances de pCR sous TNT, Y % sous nCRT, Z % sous nCT ».

La méthode

L'étude est dirigée par Xin Wang (Cancer Center, West China Hospital, Université du Sichuan), Zhenyu Liu et Jie Tian (Institut d'automatique de l'Académie chinoise des sciences). Article publié le 26 mai 2026 dans npj Digital Medicine, DOI 10.1038/s41746-026-02798-w, sous licence CC BY-NC-ND 4.0. Financement public chinois (National Key R&D Program 2024YFF1207400, NSFC 62333022 et autres). Les auteurs déclarent aucun conflit d'intérêts. ChatGPT a été utilisé pour l'édition linguistique.

Le jeu de données rétrospectif comprend 760 patients traités entre juin 2015 et mai 2022 dans trois centres chinois : West China Hospital, Sun Yat-sen University Cancer Center, et le Sixth Affiliated Hospital de l'Université Sun Yat-sen. Une cohorte prospective de 95 patients a été recrutée entre juillet 2024 et janvier 2025 dans deux des trois centres précédents et un nouveau site, l'hôpital du Cancer du Yunnan (enregistrement ChiCTR2400085797 du 18 juin 2024). La distribution des régimes en rétrospectif est déséquilibrée : 414 patients sous nCRT, 258 sous TNT, et seulement 88 sous nCT — ce dernier bras venant d'un seul centre. Le taux de pCR de base par régime est de 19 % (nCRT), 30 % (TNT), 20 % (nCT). Critères d'inclusion : adénocarcinome confirmé, IRM T2 et carte ADC pré-traitement, chirurgie TME avec évaluation pathologique complète.

L'architecture, baptisée UNet-MoE-Cli, combine trois briques. Une mixture of experts est un modèle composite où plusieurs sous-réseaux (« experts ») apprennent chacun à modéliser un sous-problème, et où un mécanisme de « porte » (gate) choisit l'expert pertinent pour une entrée donnée. Ici, chaque expert est dédié à un régime (TNT, nCRT, nCT) et la porte est hard-gated, c'est-à-dire déterministe : le choix de régime sélectionne l'expert correspondant via un argmax. Le backbone d'extraction d'imagerie est nnUNet (Isensee et al., 2021), un réseau de segmentation auto-configurant entraîné en multi-tâche pour à la fois délimiter la tumeur et en extraire des caractéristiques. Les modalités IRM (T2W + ADC) sont projetées en embeddings 64-D via des MLPs modalité-spécifiques, concaténées avec les variables cliniques encodées en one-hot (cT, cN, EMVI, CRM, atteinte ganglionnaire latérale, localisation), puis injectées dans le MoE. La fonction objectif combine une perte d'entropie croisée sur la pCR et une perte de Dice sur la segmentation. La taille en paramètres n'est pas rapportée.

L'évaluation utilise un split aléatoire 80/20 du rétrospectif (618 entraînement / 142 validation) puis la cohorte prospective de 95 patients comme test. Métriques rapportées : AUC, accuracy, sensibilité, spécificité, VPP, VPN, courbe de décision (DCA), pondération inverse de propension (IPTW) par centre et par stade, test de DeLong pour les comparaisons d'AUC, McNemar pour les comparaisons appariées. Aucune correction multiple-testing, aucune courbe de calibration formelle (Brier, Hosmer-Lemeshow), aucun intervalle bootstrap explicitement mentionné.

Les résultats

L'AUC d'UNet-MoE-Cli est de 0,827 (IC95 % 0,742–0,904) en validation interne et 0,790 (0,667–0,900) sur la cohorte prospective. Les comparateurs internes — un LightGBM sur variables cliniques (AUC 0,58–0,64), un ResNet-2D (0,64), un ResNet-3D (0,67–0,60), un UNet seul (0,73–0,65), une variante PoE (0,59) — sont tous battus, parfois nettement. Par régime, l'AUC est de 0,80 sous TNT, 0,82 sous nCRT, 0,75 sous nCT.

Mais l'observation cliniquement importante se trouve dans la sensibilité : 0,455 en validation, 0,526 en prospectif. Autrement dit, le modèle rate la moitié des vrais répondeurs. La spécificité élevée (0,90–0,96) et la VPP correcte (0,58–0,77) racontent l'autre face : quand le modèle dit « réponse complète », il a souvent raison ; mais quand il dit « non », il se trompe une fois sur deux.

Côté recommandations, sur la cohorte combinée validation + test (n=237) : 53,2 % des patients sont orientés vers une escalade thérapeutique, 40,9 % vers le maintien de leur régime, et 5,9 % (n=14) vers une désescalade. C'est ici qu'il faut lire avec la lecture critique en main. Le papier annonce que sous escalade recommandée, la pCR observée sous régime réel n'est que de 11,1 %, contre une pCR estimée par le modèle de 31,0 % sous régime escaladé. Le saut paraît énorme — sauf que la « pCR estimée » est la sortie du modèle lui-même appliqué à son propre conseil. La comparaison est circulaire : sans bras randomisé, sans suivi prospectif d'un sous-groupe ayant effectivement reçu le régime suggéré, on ne sait pas si le bénéfice est réel ou hallucinatoire.

Le sous-groupe désescalade (n=14, pCR observée 92,9 %) est plus intéressant cliniquement mais trop petit pour conclure : l'intervalle de confiance va de 66 % à 99 % et ces patients étaient déjà très sélectionnés (faible stade T, absence d'EMVI). Les courbes de Kaplan-Meier de survie sans maladie sont significatives en entraînement (p=0,02) et en validation (p=0,03), mais pas en test prospectif.

Traduction clinique. Sur 1 000 patients atteints de LARC à qui on appliquerait ce modèle en pré-traitement, environ 530 se verraient proposer une escalade vers la TNT ou un régime plus intense, et 60 une désescalade. Parmi les 200 vrais répondeurs (taux de pCR moyen 20 %), le modèle en identifierait correctement entre 90 et 105 — autrement dit, il manquerait 95 à 110 patients qui auraient répondu et chez qui une désescalade aurait été légitime. Inversement, parmi les 800 non-répondeurs, il en classerait correctement 720 à 770, recommandant à juste titre une escalade. Le rapport bénéfice/risque dépend donc de la valeur clinique qu'on accorde à éviter un sur-traitement (toxicité, infertilité, atteinte fonctionnelle) versus à manquer une opportunité de désescalade.

Ce qui est bien

Trois forces spécifiques.

L'architecture mixture-of-experts par régime est élégante et adaptée au problème. Plutôt que de demander à un seul réseau d'apprendre la réponse à tous les protocoles, le modèle isole un sous-réseau par régime, ce qui réduit le risque de moyennage des effets thérapeutiques et permet d'estimer des probabilités contrefactuelles propres à chaque option. La gating dure rend l'inférence interprétable : on sait quel expert a parlé pour quel patient. C'est conceptuellement bien posé pour un problème de sélection de traitement personnalisé.

La cohorte prospective enregistrée est un vrai geste méthodologique. ChiCTR2400085797 a été enregistré le 18 juin 2024, avant le recueil des données prospectives. Les 95 patients de juillet 2024 à janvier 2025 ont été évalués en aveugle du modèle. C'est plus solide qu'une simple cross-validation, même si la cohorte reste petite et limitée à trois centres de la même région culturelle.

Le panel de comparateurs internes est exhaustif. Les auteurs testent un LightGBM clinique, un ResNet-2D, un ResNet-3D, un UNet seul, une variante MoE soft, une variante PoE — tous battus. L'ablation montre que la combinaison MoE + variables cliniques + multimodalité IRM est nécessaire à la performance. Cette discipline d'ablation est trop souvent absente des papiers concurrents.

Ce qui est moins bien

Trois limites précises.

La sensibilité de 0,45–0,53 plombe la valeur clinique d'aide à la désescalade. C'est le mode d'échec classique de la métrique trompeuse : un AUC de 0,80 sonne bien, mais quand la classe positive (pCR) ne représente que 20 % des cas, le modèle peut atteindre cet AUC en étant excellent à dire « non répondeur » (spécificité 0,96) et médiocre à identifier les vrais répondeurs. Pour un outil dont l'argument central est de désescalader chez les répondeurs, c'est exactement la mauvaise asymétrie. La VPP de 0,58 en validation signifie qu'un patient sur deux étiqueté « répondeur probable » ne répondra pas — risque de désescalade inadaptée non négligeable.

La preuve d'efficacité de l'escalade est circulaire. Le tableau-pivot du papier compare la pCR observée sous régime réel à la pCR estimée par le modèle sous régime recommandé. Le bénéfice de 11 % à 31 % n'est pas une mesure expérimentale, c'est la prédiction d'un modèle évaluant sa propre prescription. Sans essai randomisé pragmatique allouant les patients à « décision MDT » vs « décision MDT + modèle », il est impossible de savoir si l'escalade améliore vraiment la réponse, ou si le modèle se trompe simplement de la même façon dans les deux directions.

L'expert nCT est entraîné sur un seul centre et la cohorte est 100 % chinoise. C'est le biais de population dans deux dimensions : géographique et ethnique. Les protocoles néoadjuvants utilisés (CAPOX en standard, capécitabine concurrente) diffèrent de ceux validés en Europe (FOLFIRINOX dans PRODIGE-23) ou aux États-Unis (FOLFOX dans OPRA). Les distributions de marqueurs moléculaires (MSI-H, KRAS, BRAF) varient selon les populations. Aucune cohorte de validation occidentale n'est présentée. Tant que cette généralisation n'est pas démontrée, le modèle ne s'applique qu'à un patient asiatique recevant le panel de régimes chinois standard.

Ce que ça change

Pour la communauté de recherche en oncologie IA, le papier formalise une approche utile : modéliser la réponse régime-spécifique plutôt qu'un score de risque agnostique. L'architecture MoE-par-traitement est transposable à d'autres pathologies où plusieurs protocoles compétents coexistent (cancer du sein néoadjuvant, lymphome de Hodgkin, leucémies). Trois conséquences attendues : les futures soumissions à npj Digital Medicine et à Radiology AI devront inclure des comparaisons contrefactuelles explicites ; la communauté devra se doter d'un standard pour évaluer ces modèles autrement qu'avec leur propre sortie ; les régulateurs (FDA SaMD, EMA) auront à clarifier le statut d'un « recommandateur de régime » par rapport à un simple « prédicteur de risque ».

Pour les oncologues et les équipes multidisciplinaires du cancer du rectum, le message opérationnel est de patience. L'outil n'est pas prêt pour un usage clinique : pas de validation occidentale, pas d'essai randomisé pragmatique, code GitHub annoncé mais pas encore public au moment de la publication, données partagées « à la demande raisonnable » (drapeau rouge habituel de reproductibilité). Il faudra au minimum un essai prospectif de phase II de type SMART (Selection of Multimodal Adjuvant Regimen by Tool) comparant la stratégie « MDT + modèle » à « MDT seul » sur des critères durs (DFS, OS, qualité de vie) avant tout déploiement. La pCR reste un critère intermédiaire imparfait pour la survie sans récidive et la survie globale.

Pour les patients et le public, l'enseignement est qu'une partie de la médecine de précision oncologique de la décennie prochaine se construit aujourd'hui sur ce type d'algorithme. La promesse — moins de sur-traitement, moins de sous-traitement — est crédible et mérite d'être poursuivie. Mais le passage d'un AUC publié à une décision clinique partagée demandera des années d'essais comparatifs. Tout patient à qui on proposera, dans un futur proche, une recommandation algorithmique de régime aura intérêt à demander : sur quelle cohorte le modèle a-t-il été validé ? quelle est sa sensibilité chez les vrais répondeurs ? a-t-il été testé sur des patients comme moi ?

Pour aller plus loin

L'article complet est en accès libre sur le site de npj Digital Medicine : nature.com/articles/s41746-026-02798-w. L'enregistrement de l'essai prospectif est consultable sur le Chinese Clinical Trial Registry, ChiCTR2400085797. Le code est annoncé sur github.com/LiM2D/RCRS après acceptation (à vérifier). Pour le contexte des essais TNT en cancer du rectum, voir OPRA (NEJM 2022), RAPIDO (Lancet Oncol 2020), et PRODIGE-23 (NEJM 2020). Pour notre couverture des modes d'échec des modèles cliniques, voir notre décryptage de l'étude Restrepo 2026 sur les VLMs cliniques.