SHAP 与 SVM 预测子宫内膜癌术后下肢深静脉血栓(Zhou 2026,npj Digital Medicine 研究解读)
周庆、刘福丹、王冬红等(遵义医科大学,贵州;海军军医大学,上海)于2026年5月27日在 npj Digital Medicine 发表一项可解释机器学习研究,利用 841 例衍生队列与 95 例外部验证队列的数据,预测子宫内膜癌术后下肢深静脉血栓(LEDVT)的发生风险。最终模型为基于四个变量(术后 D-二聚体、年龄、纤维蛋白原、FIGO 临床分期)的支持向量机(SVM),内部验证 AUC 为 0.828,外部验证 AUC 为 0.819,并采用 SHAP 框架将每个个体预测分解为可解释的特征贡献。该研究值得关注,因为它体现了可解释人工智能在围手术期肿瘤学中的成熟趋势,但仍需谨慎对待:影像检查是症状触发的(作者已承认存在检测偏倚)、队列完全为中国患者、D-二聚体在术后 24–48 小时才测量(此时血栓可能已悄然开始形成),且全文未与 Caprini 或 Wells 评分进行正面对比。
背景
子宫内膜癌是发达国家最常见的盆腔妇科恶性肿瘤,标准治疗仍然是分期手术(全子宫切除术加双侧附件切除,必要时行淋巴结清扫)。下肢深静脉血栓(LEDVT)是经典的术后并发症,如不及时发现可发展为致命性肺栓塞。目前的预防主要依赖于静态临床评分——Caprini、Wells、Khorana——通过综合若干因素(年龄、既往史、BMI、麻醉、手术类型)来启动药物或机械性预防。
问题在于,这些评分都建立在混合人群(普通外科、骨科、内科)上,在妇科肿瘤学中表现不佳。它们也未纳入术后动态生物标志物(尤其是 D-二聚体)以及肿瘤特异性指标(FIGO 分期、淋巴血管浸润)。因此,自 2020 年以来,利用围手术期完整电子病历的机器学习模型迅速增多。本文的定位非常明确:专门针对子宫内膜癌手术,实现个体化预测,并通过 SHAP 解决临床落地受阻于"黑箱"的关键问题。
方法
该研究由许林(贵州省肿瘤防治重点实验室)、常永胡(遵义医科大学医学信息工程学院)以及王冬红(遵义医科大学附属医院妇产科)共同主导。论文发表于 2026 年 5 月 27 日,DOI 为 10.1038/s41746-026-02782-4,采用 CC BY 4.0 开放许可,由中国公共经费(黔科合项目、贵州省卫健委等)资助。作者声明无任何财务或非财务利益冲突。代码计划公开发布在 github.com/cyh407,而数据则在"合理申请"前提下通过数据使用协议提供。
回顾性数据集包含 841 例于 2011 年 10 月至 2026 年 3 月期间在贵州省五家医院(遵义医科大学附属医院、贵州省人民医院、沿河土家族自治县人民医院、遵义医科大学第三附属医院、六盘水市妇幼保健院)接受子宫内膜癌手术的患者。复合结局"术后 LEDVT"定义为术后 30 天内任何经彩色多普勒超声或 CT 静脉造影确诊的下肢深静脉血栓。841 例中有 72 例(8.6%)发生 LEDVT。衍生队列按 8:2 拆分(训练集 n=673,内部验证集 n=168);另有 95 例独立外部队列,招募时间为 2025 年 4 月至 2026 年 3 月,用于测试。
经过多重共线性筛查后(离散变量采用 Cramér's V,连续变量采用 Pearson 相关系数),保留 27 个围手术期变量。共比较了 26 种分类算法(NearestCentroid、BernoulliNB、随机森林、AdaBoost、SVM、逻辑回归、XGBoost、LightGBM 等),并在 5 种再平衡策略(无、随机过采样、SMOTE、SMOTE-Tomek、ADASYN)下进行评估。最终基于平均 AUC 选择随机过采样作为最佳策略——该方法仅是简单地复制少数类样本。采用分层 5 折交叉验证调参,再平衡严格仅在训练折内进行,以避免向验证折泄露信息。
随后对六个最稳定的模型分别进行递归特征消除(RFE)。SVM 在仅保留四个变量的条件下达到了性能与简约性的最佳平衡:术后 D-二聚体(术后 24–48 小时测量)、年龄、纤维蛋白原、FIGO 临床分期。支持向量机(SVM)是一种通过寻找最优分隔超平面在变换后特征空间中进行分类的算法,其决策通常被视为"黑箱"。为克服这种不透明性,作者引入了 SHAP(SHapley Additive exPlanations),这是一种源于博弈论的方法,为每个变量在某一具体患者预测中分配一个量化贡献值,并可聚合得到全局重要性。SHAP 依赖图直观展示了每个变量与预测风险之间的非线性关系。
结果
报告的机器学习性能如下:训练集 AUC = 0.823,内部验证集 AUC = 0.828(95%CI 0.706–0.905),外部队列 AUC = 0.819。在两个独立数据集上的校准均被描述为良好(展示了校准曲线,但未给出 Hosmer-Lemeshow 检验或 Brier 评分)。决策曲线分析(DCA)显示,在 5% 至 52% 的风险阈值范围内,模型提供了正向的净临床获益。然而,在主文本中并未报告任何运行阈值下的敏感度、特异度、阳性预测值或阴性预测值——对于一种用于触发预防的工具,这是一个明显的缺口。
SHAP 分析揭示了若干在临床上有意义的关系。术后 D-二聚体与风险呈单调正相关(平均 |SHAP| = 0.06,贡献最大)。年龄表现为 U 形关系:极端值——年轻患者(肿瘤生物学侵袭性强)或高龄患者(血管内皮功能障碍)——风险均升高,中段则趋于中性。纤维蛋白原在低值时呈保护性,在标准化值超过约 2 后转为危险因素。FIGO 分期与风险呈单调递增关系。研究团队随后将模型封装为一个网页原型,医生只需输入四个变量值,即可实时获取个体化风险概率及 SHAP 力图。
临床转化解读。若在 1000 例子宫内膜癌术后患者中常规使用该模型,按照观察到的基线率,大约 86 例会在术后 30 天内发生有症状的 LEDVT。在 DCA 推荐的 8% 阈值下,模型可能将 200–300 例标记为"高风险"(具体数值未给出),其中约一半为真正的阳性。实际上,若直接部署,该工具会建议大约四分之一以上的患者接受强化预防(延长低分子量肝素、间歇性气动加压、规范化早期下床活动),而其余四分之三可免于常规预防。然而,具体阈值的选择和假阳性与假阴性的相对成本由临床医师自行决定,论文并未给出明确建议。
值得肯定之处
三个具体优势。
内部比较的方法论严谨。作者在 5 种再平衡策略下对 26 种算法进行了基准测试,采用分层 5 折交叉验证,并将再平衡严格限制在训练折之内。这种防止信息泄漏的纪律在方法学中被明确写出——而许多竞争论文常常忽略此点。多模型 RFE 分析也加强了对最终四变量集的选择信心:不是单一模型决定,而是多模型共识。
可解释性的工作是认真且可操作的。SHAP 在本研究中并非事后装饰:作者从中提取出非线性关联的临床解读(年龄的 U 形、纤维蛋白原的阈值),并提供了带个体化力图的网页原型。这正回应了临床医师的真实需求,他们往往拒绝接受无法解释的高 AUC 模型。SHAP 揭示的关联与已知病理生理一致(D-二聚体反映纤溶系统激活,纤维蛋白原反映炎症与高凝状态),进一步增强了模型的可信度。
外部验证存在且队列具有多中心性。五家医院参与了衍生数据收集,而较新的子集(2025 年 4 月至 2026 年 3 月,n=95)用作外部测试。内部 AUC(0.828)与外部 AUC(0.819)几乎相同,这是模型未严重过拟合于主要中心的强有力信号。Python 代码已宣布在 GitHub 上开放,从而至少能够实现计算层面的重现。
不足之处
三个具体限制。
影像检查由症状触发——这是一个重大的检测偏倚,改变了预测目标的性质。作者在讨论中也承认了这一点:多普勒超声或 CT 静脉造影并非系统性的,而是基于临床症状或实验室异常时才进行。因此,数据集中的"LEDVT"标签并不是"所有发生的 LEDVT",而是"通过常规临床实践被发现的有症状 LEDVT"。无症状血栓——在外科系列中可能占多数——被完全遗漏。这是捷径学习(shortcut learning)的经典失败模式:模型学到的更多是"临床医师决定为其做影像的患者"这一组合,而不是疾病本身。要推广到系统性筛查情境,必须在影像规范化的前瞻性队列中重新验证。
未与现有评分进行正面比较是一个难以解释的空白。引言中将 Caprini、Wells、Khorana 评分定位为需要超越的参考标准,但没有任何表格展示这些评分在本队列上的 AUC,也没有给出与四变量 SVM 之间的统计学比较。更值得关注的是:逻辑回归是六个稳定模型之一,使用相同的四个变量,但其最终数值并未与 SVM 直接对比。鉴于所选的四个预测变量(D-二聚体、年龄、纤维蛋白原、分期)均为连续或有序变量,逻辑回归通常在这种情形下具有竞争力,因此"SVM 真正带来增益"的论断未被证实。这属于不公平比较(biased comparator)的失败模式。
队列完全是中国患者,"预测性"测量在术后进行。841 + 95 例患者全部来自贵州或上海,论文未提供任何西方人群的验证。FIGO 分期分布、手术时的中位年龄(53 岁)以及预防方案均与欧美临床实践不同。这是经典的人群偏倚。此外,设计上还存在一个弱点:D-二聚体是在术后 24 至 48 小时测量的。届时,无症状血栓可能已开始形成,D-二聚体既是"待预测事件"的早期标志,也是预测因子。因此,该工具与其说是"术前预测器",不如说是"术后早期检测辅助工具"——仍然有用,但适用场景与引言所暗示的不同。
带来什么变化
对于围手术期人工智能研究界,本文确认了一个深层趋势:自 2024 年以来,术后并发症预测模型几乎都会内置一个可解释性模块(SHAP、LIME、注意力图)。本研究的独特之处在于追求简约——将变量缩减至四个——并交付了一个网页原型。可预见的三项后续影响:未来同主题论文将不得不与公认临床评分进行正面对比;SHAP 社区将不得不澄清当特征高度相关时(D-二聚体与纤维蛋白原即为此种情况)的解释边界;监管机构需要就一个返回个体化概率的网页界面是否构成 SaMD(医疗器械软件)给出立场。
对于妇科肿瘤医生和围手术期外科团队,信息是"积极但谨慎"。该模型在当前形态下尚未准备好广泛临床部署:缺乏西方验证、检测偏倚被承认、缺少与 Caprini/Wells 的对比、数据仅"按申请"提供。至少需要进行一项所有患者均接受规范化影像检查的前瞻性研究,以估计模型的真实表现,随后还要与标准评分在硬终点(确诊 LEDVT、肺栓塞、预防相关出血)上进行直接比较。在此之前,该论文的主要价值是教学性的:它示范了一套可被其他团队借鉴的可解释机器学习管线。
对于患者及公众,有意义的启示是,围手术期精准医学正在到来——一个针对每位患者决定是否加强或减轻抗血栓预防的模型。但将此类工具引入术前咨询时,必须配以诚实的说明:这是一种基于特定队列的概率支持,而非个体确定性。当患者被告知"风险计算为 12%"时,她有权知道模型在哪类人群中得到验证、自己是否与该人群相似,以及若没有模型,标准预防会是什么。SHAP 在医师端的透明只有转化为在患者端的透明,才真正有价值。
延伸阅读
全文在 npj Digital Medicine 上开放获取:nature.com/articles/s41746-026-02782-4。代码地址公布于 GitHub。关于医疗可解释性的批判性讨论,可参考作者自己引用的 Ghassemi、Oakden-Rayner 与 Beam(Lancet Digit Health 2021)。关于肿瘤患者静脉血栓栓塞预防的 ASCO 2020 指南,见 Key 等人,JCO 2020。关于我们对肿瘤治疗个体化模型的报道,可参阅我们对 Liu 2026 年关于直肠癌混合专家模型研究的解析。