médical IA

MCEN：用 Mamba 架构从一次穿刺活检预测乳腺癌化疗的完全缓解（Zhang 等，2026，npj Digital Medicine）

发布于 2026年6月4日 · 11 分钟阅读

Wenchuan Zhang、Shuwan Zhang、Fengling Li、Yuanyuan Zhao、Jing Fu、Xiuli Xiao、Ting Yin、Qingjie Lv、Yuhao Yi 与 Hong Bu（四川大学华西医院及另外四家中国医院）于 2026 年 6 月 2 日在 npj Digital Medicine 发表 MCEN，一个基于 Mamba 架构的深度学习模型，可从作为数字切片读取的穿刺活检中预测乳腺癌患者在新辅助化疗后能否达到病理完全缓解。模型在一家医院的 1023 例患者上训练，随后在另外四个独立中心（共 1646 例患者）上测试，训练 AUROC 为 0.923，在外部验证中降至 0.76–0.81，加入常规临床病理数据后最高升至 0.84。这是对 Mamba 在数字病理中价值以及真正多中心验证的一次有意义的展示；但仍须结合明显的训练-验证差距、纯中国队列、剔除非典型类型的排除标准，以及完全没有与病理医生的直接对比来理解。

背景

对许多乳腺癌，化疗在手术之前进行：这就是新辅助化疗。其目的是缩小肿瘤、使保乳手术成为可能，并实时检验肿瘤对治疗的敏感性。最理想的结果有一个名字：病理完全缓解（pCR，pathological complete response），定义为在检查手术标本时，乳房和腋窝淋巴结中均无残留浸润性癌。达到 pCR 的患者通常预后好得多；反过来，提前预测谁不会缓解，就能避免数月有毒而无益的化疗，或一开始就转向其他策略。

问题在于这一预测很难。经典工具——分子分型、增殖指数 Ki-67、切片上肿瘤浸润淋巴细胞（TIL）水平、基因签名、MRI 影像组学——各自捕捉一个侧面，但其人工评估存在很强的观察者间变异，且无法捕捉肿瘤微环境的空间复杂性。数字病理（对高分辨率扫描的组织学切片即 whole-slide images 或 WSI 进行计算分析）开辟了另一条路：卷积神经网络（CNN）已学会从最初的活检预测 pCR。但 WSI 是十亿像素图像——数十亿像素——而擅长通过注意力机制建模长程依赖的 transformer 架构，其计算成本随序列长度的平方增长：在此尺度上不切实际。正是这个瓶颈，研究团队提出用 Mamba 来突破。

方法

该论文（npj Digital Medicine，10.1038/s41746-026-02849-2，1 月 28 日收稿，5 月 26 日接收，2026 年 6 月 2 日发表，依 CC BY-NC-ND 许可开放获取）提出了 MCEN——即 Mamba-based model for Chemotherapy Efficacy using Needle biopsy。Mamba 是一种选择性状态空间模型：它不像注意力那样将每个元素与其余所有元素比较，而是在遍历序列时维护一个不断更新的压缩内部状态，从而获得线性复杂度，同时保持全局感受野。对于被切成数万个小图块的十亿像素切片，这一特性意义重大。

流程分三步。首先将活检 WSI 切成图块。然后每个图块由 CONCH 编码，这是一个专门在病理图像上预训练的视觉-语言编码器（作者将其与另外三种提取器——CTransPath、Phikon、ViT-S/16——比较，CONCH 取得最佳 AUROC，0.780，而 ViT-S/16 为 0.677）。最后一个在线再嵌入模块（一个根据切片上下文重新调整表征的 transformer 模块）馈入按多示例学习原则进行的双向 Mamba 聚合（MIL：整张切片只有一个标签，模型学习在无逐像素标注的情况下对相关图块加权）。MCEN 与参考 MIL 方法——ABMIL、CLAM、TransMIL，以及简单的均值和最大池化——相比并胜出，同时相对 TransMIL 将推理时间缩短 23.1%。

在数据方面，1646 例患者来自五家医院：华西（WC，n=1023）、盛京（SJ，n=306）、山西肿瘤（SXC，n=187）、四川省人民医院（SCPP，n=80）和西南医科大学附属医院（ASWMU，n=50）。WC 队列被随机分为训练集（n=819）和内部验证集（n=204），两者 pCR 率均为 27.5%；其余四个中心作为独立的外部测试。作者采用严格的排除标准（不含双侧、多灶性癌，也不含小叶、黏液或小管癌等罕见亚型），染色归一化，针对过拟合的早停与 dropout，以及对缺失数据的随机森林插补。一个互补环节通过由 SHAP 解释的 XGBoost 模型，将 MCEN 评分与临床病理变量融合。

结果

MCEN 在训练队列上达到 0.923 的 AUROC（AUROC 即 ROC 曲线下面积，衡量区分缓解者与非缓解者的能力：1.0 为完美，0.5 等于随机），但在内部验证中为 0.78，在四个外部中心上为 0.761 至 0.809。加入常规临床病理数据后这些数字上升：训练 0.937，验证 0.811，外部最高 0.84。模型评分清晰地分开了两组——在训练队列中，缓解者平均为 0.771，非缓解者为 0.212，差异显著（p < 0.05），并在所有外部中心保持。在多变量分析中，分子分型和 MCEN 评分均为独立预测因子，注意力图显示模型主要关注纤维化和间质区域。在某些中心的 HR–/HER2+ 和 HR–/HER2– 亚组中性能较弱，很可能因样本量不足。

临床转化。在该人群中，约每四名患者有一名达到 pCR。外部条件下 0.76–0.81 的 AUROC 对应中等判别力：模型明显优于随机，但远非确定——会有被标为高风险的缓解者，也会有被错误安慰的非缓解者。具体而言，这样的评分不能单独决定减轻或加强化疗；它应当与分型、分期和 Ki-67 相加以细化概率，而非取代它们。还须记住，pCR 是一个替代终点：它与更好的预后相关，但本身并非生存。

做得好的地方

一次真正的多中心外部验证。这是亮点。模型在单一医院上训练，然后在不作调整的情况下，于四个规模与实践各异的独立队列（306、187、80 和 50 例患者）上评估，性能保持稳定（0.761–0.809）。多数 AI 预测 pCR 的研究只满足于在单一小队列上做内部验证；这里真正经受了跨中心的考验，而这正是部署最常见的障碍。

一种高效、贴合问题、且基于已有标本的架构。在 transformer 注意力于十亿像素切片上不堪重负之处，Mamba 带来线性复杂度，推理在性能相当的情况下比 TransMIL 快 23.1%。更重要的是，输入是治疗前的穿刺活检：信息恰在制定策略的那一刻可用，无需额外检查。

方法上的诚实与公开代码。作者坦率地报告了训练与验证之间的下降，在多变量分析中表明 MCEN 评分独立于分型仍具预测性，用量化比较论证了选择 CONCH 编码器的理由，并在 GitHub 上公开代码供学术使用。与临床变量的融合被呈现为互补，而非替代。

做得不够的地方

训练-验证差距，提醒人们对头条数字保持谨慎。从训练的 0.923 降到内部验证的 0.78，再到外部的 0.76–0.81，是典型的乐观偏差：0.923 主要反映对已见数据的拟合，而非在别处预期的性能。以上界来宣传将是一种误导性指标；对患者真正重要的诚实数值，是外部区间，而它只体现出在不平衡任务（27.5% 的 pCR）上的中等判别力。

人群偏倚、排除标准，以及可能由分型造成的混杂。五个中心均为中国三级医院：无法保证向其他人群、其他扫描仪或其他染色方案的泛化，作者也承认这一点。严格的排除标准（剔除小叶、黏液、小管癌以及双侧或多灶性形式）将模型限定于非特殊型浸润性癌——这是一种选择偏倚，使其无法照原样用于非典型类型。最后，pCR 极强地依赖分子分型（在三阴性和 HER2+ 肿瘤中高，在 HR+/HER2– 中低）：由于模型依赖与分型共变的纤维化和间质，就必须追问它在多大程度上学到的是缓解的生物学，而非与分型相关的捷径（shortcut learning）。多变量分析支持其确有附加价值，但这一问题值得作者自己也呼吁的、按亚型进行的专门分析。

没有病理医生作对照、回顾性，以及替代终点。没有报告任何人机直接对比：对照仍是算法（其他 MIL 方法、临床模型）。研究完全是回顾性的，没有前瞻性验证或实用性临床试验，且针对的是 pCR——一个与生存相关的替代终点，而非生存本身。输入仅限于穿刺活检（向手术标本或其他肿瘤的迁移尚待确立），许可为 CC BY-NC-ND（不可商用、不可衍生），也未提及任何 CE 标志或监管批准。值得肯定的是：经费为公共来源（中国省级基金与国家自然科学基金），作者声明无利益冲突。

这带来什么改变

对研究界而言，MCEN 为一场已在进行的运动添上了坚实一块：Mamba 与状态空间模型是 transformer 在十亿像素切片 MIL 聚合上的可信替代，并有可量化的效率收益。公开代码并证明四中心验证可以实现，为其他团队提供了可在其上构建的基础——最好辅以多国队列和按亚型的分析。

对临床医生而言，该工具今天尚不可部署：回顾性、未与专家阅片对比、无前瞻性验证、无监管地位。其中期潜在价值很清楚——从最初的活检起，提供一个可与分型和 Ki-67 相加的缓解概率，用以在可能的缓解者中讨论降阶治疗，或在可能的非缓解者中讨论其他策略——但这需要跨过前瞻性这一步，并在硬终点上确认获益。

对患者与公众而言，承诺是一种更个性化的化疗，从已经取得的标本中读出，无需额外操作。仍须谨慎：一个在中国回顾性切片上表现良好的模型，照目前状态并未被验证可用于指导治疗，而中等判别力意味着两个方向上都会出错。预测不是决定，治疗选择仍属于诊疗团队。

延伸阅读

该论文在 npj Digital Medicine 开放获取：nature.com/articles/s41746-026-02849-2（DOI 10.1038/s41746-026-02849-2）；代码在 github.com/Wenchuan-Zhang/MCEN。关于数字病理中的基础模型与切片分析，参见我们对 GigaPath 的解读。关于从影像预测新辅助治疗的反应，参见我们对直肠 MRI 上 mixture-of-experts 模型的解读，关于将组织学阅读转化为预后价值，参见我们对 Yang 2026 组织形态表型分析的解读。