UNet-MoE-Cli:用混合专家模型为直肠癌新辅助治疗个体化(Liu 2026,npj Digital Medicine)

刘翔宇、唐元玲、张松等人(西安电子科技大学、四川大学华西医院、中国科学院自动化研究所)于2026年5月26日在npj Digital Medicine发表了UNet-MoE-Cli——一个硬门控混合专家(mixture of experts)深度学习模型,结合治疗前多参数MRI与临床变量,为每位局部晚期直肠癌患者估计在三种新辅助方案下的病理完全缓解(pCR)概率:标准放化疗(nCRT)、全程新辅助治疗(TNT)和单纯化疗(nCT)。在855位患者(760位回顾性来自三家中国中心,95位前瞻性入组于ChiCTR2400085797)中,内部验证AUC达0.827,前瞻性队列AUC达0.790。模型建议53%的患者升级治疗,6%降级。这是一项重要的研究,因为它把数据驱动肿瘤学的承诺往前推了一步,但需要谨慎解读:敏感度仅为0.45–0.53,升级的估计获益由模型自身计算,nCT专家仅在单一中心训练,且队列完全为中国人。

背景

局部晚期直肠癌(LARC,cT3-4或cN+无远处转移)约占新发直肠癌诊断的40%。过去二十年,治疗标准从术前长程放化疗(nCRT,约50 Gy分25–28次配合卡培他滨)演变为全程新辅助治疗(TNT,在放疗前后加入4至6周期的CAPOX),并进而对部分亚组采用不含放疗的纯化疗策略(nCT)。PRODIGE-23(法国,2020)、RAPIDO(荷兰,2020)和OPRA(美国,2022)等试验奠定了TNT作为高危肿瘤参考方案的地位,将病理完全缓解(pCR,手术标本上肿瘤完全消失)率从nCRT下的14%提升至TNT下的28%。

问题在于,这种强化是按人群水平施行,而非个体水平。本可在短程nCRT下应答的患者多接受了六个月化疗及其全部毒性;注定不应答的患者也被施以同样的长方案而无任何获益。当前的临床评分(NCCN、MERCURY-2)只对风险进行分层,并不预测对每种特定方案的应答。这正是本文瞄准的空白:不是一个风险分类器,而是一个反事实应答模型,能够估计「这位患者在TNT下有X %、在nCRT下有Y %、在nCT下有Z %的pCR概率」。

方法

研究由王歆(四川大学华西医院肿瘤中心)、刘振宇与田捷(中国科学院自动化研究所)领导。论文于2026年5月26日发表于npj Digital Medicine,DOI 10.1038/s41746-026-02798-w,采用CC BY-NC-ND 4.0许可。中国公共经费资助(国家重点研发计划2024YFF1207400,国家自然科学基金62333022等)。作者声明无利益冲突。语言润色使用了ChatGPT。

回顾性数据集包括760位患者,于2015年6月至2022年5月在三家中国中心治疗:四川大学华西医院、中山大学肿瘤防治中心和中山大学附属第六医院。前瞻性队列95位患者于2024年7月至2025年1月在上述其中两家中心加一个新中心——云南省肿瘤医院(注册号ChiCTR2400085797,2024年6月18日)招募。回顾性方案分布不平衡:414位nCRT、258位TNT、仅88位nCT——后者仅来自单一中心。各方案的基线pCR率:19%(nCRT)、30%(TNT)、20%(nCT)。入选标准:组织学确认的腺癌、治疗前T2加权MRI和ADC图、TME手术加完整病理评估。

架构名为UNet-MoE-Cli,由三个模块组成。Mixture of experts是一种复合模型,多个子网络(「专家」)各自学习子问题,「门控」(gate)机制为给定输入选择相应专家。这里,每个专家专门对应一种方案(TNT、nCRT、nCT),门控为硬门控,即确定性的:方案选择经argmax选中对应专家。影像主干为nnUNet(Isensee et al., 2021),一个自配置的分割网络,多任务训练同时勾画肿瘤并提取特征。MRI模态(T2W + ADC)通过模态特定MLP投射为64维嵌入,与one-hot编码的临床变量(cT、cN、EMVI、CRM、侧方淋巴结、位置)拼接后输入MoE。目标函数结合pCR上的交叉熵损失与分割上的Dice损失。模型参数总数未报告。

评估采用回顾性数据80/20随机切分(618训练 / 142验证),然后以95位前瞻性队列作为测试。报告指标包括:AUC、准确率、敏感度、特异度、PPV、NPV、决策曲线分析(DCA)、按中心和分期的逆概率加权(IPTW)、用于AUC比较的DeLong检验、配对比较的McNemar检验。无多重比较校正,无正式校准曲线(Brier、Hosmer-Lemeshow),未显式提及bootstrap区间。

结果

UNet-MoE-Cli的AUC为内部验证0.827(95 % CI 0.742–0.904)前瞻性队列0.790(0.667–0.900)。内部对照模型——临床变量上的LightGBM(AUC 0.58–0.64)、ResNet-2D(0.64)、ResNet-3D(0.67–0.60)、单独UNet(0.73–0.65)、PoE变体(0.59)——均被超越,有时差距明显。按方案分:TNT下AUC 0.80、nCRT下0.82、nCT下0.75。

但在临床上最重要的观察是敏感度验证集0.455,前瞻性集0.526。也就是说,模型漏掉了一半的真应答者。高特异度(0.90–0.96)和尚可的PPV(0.58–0.77)讲述了另一面:当模型说「完全缓解」时,往往是对的;但当它说「不」时,则有一半的概率出错。

在推荐方面,在合并的验证+测试队列(n=237)中:53.2%的患者被建议升级,40.9%维持原方案,5.9%(n=14)建议降级。这里需要批判性阅读。论文报告,在建议升级的患者中,按实际接受方案观察到的pCR仅为11.1%,而模型估计在升级方案下的pCR为31.0%。跳跃看似巨大——只是「估计pCR」是模型本身对自身建议的输出。这个比较是循环的:没有随机化对照组,没有一个亚组实际接受了所建议方案的前瞻随访,就无法判断这种获益是真实存在还是模型幻觉。

降级亚组(n=14,观察pCR 92.9%)在临床上更有意思,但样本太小无法定论:置信区间从66%到99%,且这些患者本身已被高度筛选(低T分期、无EMVI)。Kaplan-Meier无病生存曲线在训练(p=0.02)和验证(p=0.03)中显著,但在前瞻性测试中不显著。

临床翻译。若将该模型在治疗前应用于1 000位LARC患者,约530人会被建议升级到TNT或更强方案,60人被建议降级。在200位真应答者中(平均pCR率20%),模型能正确识别其中90到105人——也就是说,会漏掉95到110位本可应答、本可合理降级的患者。相反,在800位非应答者中,能正确分类其中720到770人,合理地建议升级。因此,风险/获益取决于临床上对避免过度治疗(毒性、不育、功能障碍)相对于错失降级机会所赋予的价值。

做得好的地方

三个具体优点。

按方案分专家的mixture-of-experts架构既优雅又契合问题。与其让单一网络学习对所有方案的应答,模型为每个方案隔离一个子网络,降低了治疗效应被平均的风险,并允许估计各选项专有的反事实概率。硬门控使推理可解释:我们知道哪一位专家为哪位患者发声。这在个体化治疗选择问题上概念清晰。

预先注册的前瞻性队列是真正的方法论举动。ChiCTR2400085797于2024年6月18日注册,先于前瞻性数据收集。2024年7月至2025年1月的95位患者在模型盲态下被评估。比单纯交叉验证更扎实,尽管队列仍小且局限于同一文化区域的三家中心。

内部对照模型清单详尽。作者测试了临床LightGBM、ResNet-2D、ResNet-3D、单独UNet、软MoE变体、PoE变体——全部被击败。消融实验表明,MoE + 临床变量 + MRI多模态的组合对性能是必需的。这种消融纪律在同类论文中常常缺席。

做得不太好的地方

三个具体局限。

0.45–0.53的敏感度削弱了用于降级辅助的临床价值。这是误导性指标的经典失败模式:AUC 0.80听起来不错,但当正类(pCR)仅占20%时,模型可以通过擅长说「非应答者」(特异度0.96)、对识别真应答者表现平平,就达到此AUC。对于一款核心论点是在应答者中实施降级的工具而言,这恰恰是错误方向上的非对称。验证集中PPV 0.58意味着被标为「可能应答」的患者中有一半实际不会应答——不可忽视的不当降级风险。

升级有效性的证据是循环的。论文的核心表格将实际方案下观察到的pCR与模型估计的推荐方案下pCR进行比较。从11%到31%的跳跃不是实验测量,而是一个模型对自身处方的预测。没有把患者分配到「MDT决策」与「MDT决策+模型」的实用随机化试验,就无法判断升级是否真正改善了应答,还是模型在两个方向上犯了同样的错。

nCT专家仅在单一中心训练,队列完全为中国人。这是双重的人群偏差:地理与种族。所用的新辅助方案(CAPOX标准、同期卡培他滨)与欧洲(PRODIGE-23中的FOLFIRINOX)或美国(OPRA中的FOLFOX)验证的方案不同。分子标志物分布(MSI-H、KRAS、BRAF)在不同人群中变化。文中未展示任何西方验证队列。在这种泛化得到证实之前,该模型仅适用于接受中国标准方案组合的亚裔患者。

这改变了什么

AI肿瘤学研究界,这篇论文形式化了一个有用的方法:建模方案特异性应答,而非一个不分方案的风险评分。每治疗一个专家的MoE架构可移植到其他存在多种竞争方案的疾病(乳腺新辅助、霍奇金淋巴瘤、白血病)。可预期的三点后果:未来投向npj Digital MedicineRadiology AI的稿件应包含显式的反事实比较;社区需要一套不同于模型自身输出的评估标准;监管者(FDA SaMD、EMA)将需要厘清「方案推荐器」与单纯「风险预测器」的不同地位。

对直肠癌的肿瘤科医师与多学科团队,操作性信息是耐心。该工具尚未做好临床使用准备:无西方验证、无实用随机化试验、声称在GitHub发布的代码在发表时尚未公开、数据「合理请求时共享」(一贯的可重复性红旗)。在任何部署之前,至少需要一项前瞻性二期SMART型试验(Selection of Multimodal Adjuvant Regimen by Tool),在硬终点(DFS、OS、生活质量)上比较「MDT + 模型」与「MDT单独」的策略。pCR对于无病生存与总生存而言,仍是一个不完美的中间终点。

患者与公众,启示是下一个十年的精准肿瘤学一部分正是今天在此类算法上建立。其承诺——更少的过度治疗、更少的不足治疗——可信,值得追求。但从发表的AUC到共同的临床决策,将需要数年的比较性试验。任何在不久将来被提出算法化方案推荐的患者,都应问:模型在什么队列上验证?在真应答者中的敏感度是多少?是否在与我相似的患者上测试过?

延伸阅读

全文在npj Digital Medicine开放获取:nature.com/articles/s41746-026-02798-w。前瞻性试验注册在中国临床试验注册中心,ChiCTR2400085797。代码声明将在接收后发布于github.com/LiM2D/RCRS(待核实)。直肠癌TNT试验背景见OPRA(NEJM 2022)RAPIDO(Lancet Oncol 2020)PRODIGE-23(NEJM 2020)。关于临床模型失败模式的报道,见我们关于Restrepo 2026临床VLM研究的解读