médical IA

SHAP et SVM pour prédire la thrombose veineuse profonde après chirurgie du cancer de l'endomètre (étude Zhou 2026, npj Digital Medicine)

Publié le 27 mai 2026 · 12 min lecture

Qing Zhou, Fudan Liu, Donghong Wang et collègues (Université médicale de Zunyi, Guizhou, et Naval Medical University de Shanghai) publient le 27 mai 2026 dans npj Digital Medicine un modèle de machine learning explicable qui prédit le risque de thrombose veineuse profonde des membres inférieurs (TVPMI) après chirurgie du cancer de l'endomètre, à partir de 841 patientes en cohorte de dérivation et 95 patientes en validation externe. Le modèle final est un SVM à quatre variables — D-dimères postopératoires, âge, fibrinogène, stade FIGO — avec une AUC de 0,828 en validation interne et 0,819 en externe, accompagné d'explications SHAP qui rendent chaque prédiction décomposable. Lecture importante parce qu'elle illustre la maturation des outils interprétables en oncologie périopératoire, mais à manier avec précaution : l'imagerie diagnostique était déclenchée par les symptômes (biais de détection avoué par les auteurs), la cohorte est entièrement chinoise, les D-dimères sont mesurés 24 à 48 h après l'opération (donc parfois après le début silencieux du thrombus), et aucun comparateur direct face aux scores Caprini ou Wells n'est rapporté.

Le contexte

Le cancer de l'endomètre est, dans les pays développés, le cancer gynécologique pelvien le plus fréquent ; la prise en charge standard reste la chirurgie de stadification (hystérectomie totale avec annexectomie bilatérale, éventuellement curage ganglionnaire). La thrombose veineuse profonde des membres inférieurs (TVPMI) est une complication postopératoire classique, capable d'évoluer vers une embolie pulmonaire potentiellement mortelle si elle n'est pas dépistée à temps. La prévention repose aujourd'hui sur des scores cliniques statiques — Caprini, Wells, Khorana — qui combinent quelques facteurs (âge, antécédents, IMC, anesthésie, type de chirurgie) et déclenchent une prophylaxie pharmacologique ou mécanique.

Le problème, bien documenté, est que ces scores ont été développés sur des cohortes mixtes (chirurgie générale, orthopédie, médecine interne) et tiennent mal en gynécologie oncologique. Ils n'intègrent pas non plus les biomarqueurs dynamiques postopératoires (D-dimères en particulier) ni les caractéristiques tumorales spécifiques (stade FIGO, invasion vasculaire). D'où l'intérêt — et la multiplication des publications depuis 2020 — pour des modèles de machine learning qui exploitent l'ensemble des données de l'EHR péri-opératoire. Le créneau du papier discuté ici est précis : modèle dédié à la chirurgie du cancer de l'endomètre, prédiction individualisée, et surtout explicabilité par SHAP pour franchir le mur de la « boîte noire » qui freine encore l'adoption clinique.

La méthode

L'étude est dirigée par Lin Xu (Laboratoire clé de prévention et de traitement du cancer du Guizhou), Yonghu Chang (École d'ingénierie de l'information médicale, Université médicale de Zunyi) et Donghong Wang (Département d'obstétrique et de gynécologie, Hôpital affilié de Zunyi). Article publié le 27 mai 2026 dans npj Digital Medicine, DOI 10.1038/s41746-026-02782-4, sous licence CC BY 4.0. Financement public chinois (programmes Qiankehe, Commission de la santé du Guizhou). Les auteurs déclarent aucun conflit d'intérêts financier ni non financier. Le code est annoncé en accès libre sur github.com/cyh407 ; les données restent disponibles « sur demande raisonnable » avec un accord de réutilisation.

Le jeu de données rétrospectif comprend 841 patientes opérées d'un cancer de l'endomètre entre octobre 2011 et mars 2026 dans cinq hôpitaux de la province du Guizhou (Hôpital affilié de Zunyi, Hôpital populaire provincial du Guizhou à Guiyang, Hôpital de Yanhe, Troisième Hôpital affilié de Zunyi, Hôpital maternité-enfance de Liupanshui). Le critère composite « TVPMI postopératoire » regroupe toute thrombose veineuse profonde survenue dans les 30 jours après l'intervention et confirmée par échographie Doppler couleur ou phlébographie scanner. Sur ces 841 patientes, 72 (8,6 %) ont développé une TVPMI. La cohorte de dérivation est divisée 80/20 (entraînement n=673, validation interne n=168) ; une cohorte externe indépendante de 95 patientes recrutées entre avril 2025 et mars 2026 sert au test.

Vingt-sept variables périopératoires sont retenues après filtrage de multicolinéarité (Cramér's V pour les discrètes, Pearson pour les continues). Vingt-six algorithmes de classification sont comparés (NearestCentroid, BernoulliNB, RandomForest, AdaBoost, SVM, Régression logistique, XGBoost, LightGBM, etc.) sous cinq stratégies de rééquilibrage (aucune, sur-échantillonnage aléatoire, SMOTE, SMOTE-Tomek, ADASYN). Le sur-échantillonnage aléatoire — qui duplique purement et simplement des exemples de la classe minoritaire — est sélectionné comme stratégie optimale sur la base de l'AUC moyenne. La validation croisée stratifiée à 5 plis est utilisée pour le réglage des hyperparamètres, avec rééquilibrage appliqué uniquement à l'intérieur des plis d'entraînement pour éviter toute fuite d'information vers les plis de validation.

Une élimination récursive de variables (RFE) est ensuite appliquée à chacun des six modèles les plus stables. Le SVM atteint le meilleur compromis performance-parcimonie avec seulement quatre variables : D-dimères postopératoires (mesurés 24 à 48 h après la chirurgie), âge, fibrinogène, et stade clinique FIGO. La Support Vector Machine (SVM) est un classifieur qui cherche un hyperplan séparateur optimal dans un espace transformé ; ses choix sont en règle générale considérés comme une « boîte noire ». Pour pallier cette opacité, les auteurs appliquent SHAP (SHapley Additive exPlanations), une méthode dérivée de la théorie des jeux qui attribue à chaque variable une contribution chiffrée à la prédiction d'un patient particulier, et qui peut être agrégée pour obtenir une importance globale. Les figures de dépendance SHAP visualisent les associations non linéaires de chaque variable au risque prédit.

Les résultats

Les performances ML rapportées sont les suivantes : AUC = 0,823 sur l'entraînement, 0,828 (IC95 % 0,706–0,905) en validation interne, 0,819 sur la cohorte externe. La calibration est qualifiée de bonne sur les deux jeux indépendants (courbes de calibration présentées sans test de Hosmer-Lemeshow ni score de Brier). L'analyse de courbe de décision (DCA) montre un bénéfice net positif sur une plage de seuils de risque allant de 5 % à 52 %. Aucune valeur de sensibilité, spécificité, valeur prédictive positive ou négative n'est rapportée au seuil opérationnel dans le texte principal — un manque significatif pour un outil destiné à déclencher une prophylaxie.

L'analyse SHAP révèle des relations qualitativement utiles. Les D-dimères postopératoires présentent une corrélation monotone positive avec le risque (importance moyenne |SHAP| = 0,06, la plus élevée). L'âge montre une association en U : les valeurs extrêmes — jeunes patientes avec biologie tumorale agressive, ou patientes âgées avec dysfonction endothéliale — augmentent le risque, le mid-range est neutre. Le fibrinogène est protecteur dans les valeurs basses puis devient un facteur de risque au-delà d'un seuil standardisé d'environ 2. Le stade FIGO augmente le risque de manière croissante. Le modèle est ensuite encapsulé dans une interface web prototype qui rend une probabilité individuelle et un force plot SHAP à partir des quatre valeurs saisies.

Traduction clinique. Sur 1 000 patientes opérées d'un cancer de l'endomètre à qui on appliquerait ce modèle en routine, environ 86 développeraient une TVPMI symptomatique dans les 30 jours postopératoires selon le taux de base observé. Au seuil DCA de 8 %, le modèle classerait probablement comme « haut risque » 200 à 300 patientes (le chiffre exact n'est pas donné), dont la moitié environ seraient de vrais positifs. Concrètement, déployé tel quel, l'outil orienterait vers une prophylaxie renforcée (héparine de bas poids moléculaire prolongée, compression pneumatique intermittente, mobilisation précoce protocolisée) un peu plus d'une patiente sur quatre, et libèrerait les trois quarts restants d'une prophylaxie systématique. Mais la traduction exacte dépend du seuil retenu et du coût relatif faux positif / faux négatif, que le papier laisse à la discrétion des cliniciens.

Ce qui est bien

Trois forces spécifiques.

L'approche méthodologique du comparateur interne est rigoureuse. Les auteurs testent 26 algorithmes sous 5 stratégies de rééquilibrage, avec validation croisée stratifiée 5 plis et rééquilibrage isolé dans les plis d'entraînement. Cette discipline contre les fuites d'information est explicite dans la section Méthodes — beaucoup trop de papiers concurrents l'omettent. L'analyse RFE multi-modèle augmente la robustesse du choix final des quatre variables : on n'a pas un seul modèle qui décide, mais un consensus.

L'effort d'interprétabilité est sérieux et opérationnel. Le SHAP n'est pas un simple ornement post-hoc : les auteurs en tirent une lecture clinique des associations non linéaires (U-shape pour l'âge, seuil pour le fibrinogène) et fournissent une interface web prototype avec force plot individualisé. Cela répond à une demande réelle des cliniciens, qui rejettent les modèles non explicables même quand leur AUC est élevée. La cohérence des contributions identifiées avec la physiopathologie connue (D-dimères = activation fibrinolytique, fibrinogène = inflammation/hypercoagulabilité) renforce la plausibilité.

La validation externe existe et la cohorte est multicentrique. Cinq hôpitaux participent à la dérivation, et un sous-ensemble plus récent (avril 2025 – mars 2026, n=95) constitue le test externe. L'AUC quasiment identique entre interne (0,828) et externe (0,819) est un indice fort que le modèle n'est pas grossièrement sur-ajusté à l'hôpital principal. Le code Python est annoncé public sur GitHub, ce qui permettrait la reproduction au moins computationnelle.

Ce qui est moins bien

Trois limites précises.

L'imagerie est déclenchée par les symptômes — un biais de détection majeur qui change la nature de la cible. Les auteurs le reconnaissent eux-mêmes en discussion : l'écho-Doppler ou la phlébographie scanner n'étaient pas systématiques mais réalisées sur signe d'appel clinique ou anomalie biologique. Le label « TVPMI » du jeu de données n'est donc pas « toute TVPMI survenue » mais « TVPMI symptomatique détectée par la pratique courante ». Les thromboses asymptomatiques — qui peuvent représenter la majorité des cas selon les séries chirurgicales — sont absentes. C'est un cas d'école du mode d'échec shortcut learning : le modèle apprend à prédire la combinaison « patiente que les soignants ont décidé d'imager » plus que la pathologie elle-même. Toute généralisation à un contexte de dépistage systématique exigerait une re-validation prospective avec imagerie protocolisée.

L'absence de comparaison frontale avec les scores existants est un trou difficile à justifier. Caprini, Wells et Khorana sont nommés en introduction comme la référence à battre, mais aucune table ne montre leur AUC sur cette cohorte ni la différence statistique avec le SVM à quatre variables. Plus problématique encore : la régression logistique fait partie des six modèles stables et utilise les mêmes quatre variables, mais ses chiffres finaux ne sont pas comparés directement au SVM. Étant donné que les quatre prédicteurs retenus (D-dimères, âge, fibrinogène, stade) sont des variables continues ou ordinales pour lesquelles une régression logistique est généralement compétitive, l'argument que le SVM apporte une plus-value n'est pas démontré. Cette absence touche au mode d'échec comparateur biaisé.

La cohorte est entièrement chinoise et la mesure « prédictive » est postopératoire. Les 841 + 95 patientes proviennent toutes du Guizhou ou de Shanghai. Aucune validation occidentale n'est présentée. Les distributions de stade FIGO, l'âge à la chirurgie (médiane 53 ans) et les protocoles de prophylaxie diffèrent de ceux observés en Europe ou en Amérique du Nord. C'est le biais de population classique. À cela s'ajoute une faiblesse de design : les D-dimères sont mesurés 24 à 48 h après la chirurgie. Or à ce moment-là, une thrombose silencieuse a pu commencer à se former, et le D-dimère devient autant un marqueur précoce de l'événement à détecter qu'un prédicteur d'un événement à venir. L'outil est donc moins un « prédicteur préopératoire » qu'une « aide à la détection précoce postopératoire » — utile, mais avec un cadre d'usage différent de celui suggéré par l'introduction.

Ce que ça change

Pour la communauté de recherche en oncologie périopératoire IA, le papier confirme une tendance lourde : depuis 2024, les modèles de prédiction de complications postopératoires intègrent quasi systématiquement un module d'interprétabilité (SHAP, LIME, attention maps). Ce qui distingue ce travail est l'effort de parcimonie — réduire à quatre variables — et la livraison d'une interface web prototype. Trois conséquences attendues : les futurs papiers concurrents devront inclure une comparaison frontale avec les scores cliniques validés ; la communauté SHAP devra clarifier les limites d'interprétabilité quand les variables sont fortement corrélées (D-dimère et fibrinogène le sont) ; les régulateurs auront à statuer sur le statut SaMD d'une interface web qui produit des probabilités individuelles.

Pour les oncologues gynécologues et les équipes de chirurgie périopératoire, le message est de prudence positive. Le modèle, sous sa forme actuelle, n'est pas prêt pour un déploiement clinique généralisé : pas de validation occidentale, biais de détection avoué, absence de comparaison Caprini/Wells, données disponibles uniquement « sur demande ». Il faudrait au minimum une étude prospective avec imagerie protocolisée chez toutes les patientes pour estimer la vraie performance du modèle, suivie d'une comparaison head-to-head avec les scores standards sur des critères durs (TVPMI confirmée, embolie pulmonaire, hémorragies sous prophylaxie). En attendant, l'intérêt principal du papier est pédagogique : il documente une bonne pratique de pipeline ML interprétable que d'autres équipes pourront répliquer.

Pour les patientes et le public, l'enseignement utile est que la médecine de précision périopératoire arrive — un modèle qui décide patiente par patiente si la prophylaxie anti-thrombotique doit être intensifiée ou allégée. Mais l'introduction d'un tel outil dans une consultation préopératoire devra s'accompagner d'une explication honnête : il s'agit d'un soutien probabiliste fondé sur une cohorte précise, pas d'une certitude individuelle. Une patiente à qui l'on annonce un « risque calculé à 12 % » a le droit de savoir sur quelle population le modèle a été validé, si elle ressemble à cette population, et quelle aurait été la prophylaxie standard sans modèle. La transparence SHAP côté clinicien n'a de valeur que si elle se traduit par une transparence côté patient.

Pour aller plus loin

L'article complet est en accès libre sur le site de npj Digital Medicine : nature.com/articles/s41746-026-02782-4. Le code est annoncé sur GitHub. Pour la critique de l'explicabilité en santé, voir le papier de référence de Ghassemi, Oakden-Rayner et Beam (Lancet Digit Health 2021) que les auteurs citent eux-mêmes. Pour les recommandations ASCO 2020 sur la prophylaxie de la maladie thromboembolique veineuse en oncologie, voir Key et al., JCO 2020. Pour notre couverture des modèles de personnalisation thérapeutique en oncologie, voir notre décryptage de l'étude Liu 2026 sur le mixture-of-experts en cancer du rectum.