GTBIS:一个解读肺神经内分泌混合癌形态学以预测预后的深度学习模型(Yang 与 Zhou 2026,npj Digital Medicine)
Lin Yang(中国医学科学院北京国家癌症中心/肿瘤医院与北京协和医学院病理科)、Ruyu Sheng、Zijian Yang 与 Meng Zhou(温州医科大学基因组医学研究院),以及 Shilong Liu(哈尔滨医科大学附属肿瘤医院胸部放疗科),于 2026 年 5 月 30 日在 npj Digital Medicine 发表 GTBIS,一个被称为可解释的深度学习模型(深度学习:直接从带标注的样本中学习表征的神经网络),它解读病理切片的形态学以区分两种高级别肺神经内分泌癌——小细胞肺癌(SCLC)与大细胞神经内分泌癌(LCNEC)——再将该解读应用于混合型肿瘤(cSCLC-LCNEC)以进行预后分层。在合计 670 例患者的多中心队列中,模型把接受放化疗的混合型肿瘤分为预后良好的 SCLC 样亚组(五年总生存率 100% 对 39.5%,无病生存率 87.5% 对 36.0%)与预后不良的 LCNEC 样亚组,且在多变量分析中该分类仍是独立预后因素。这是一项针对真实而被忽视的临床问题的扎实工作,但有四点保留:样本量有限使得 100% 的生存率在统计上脆弱、中心全部在中国、验证为回顾性且无明确的人类对照,以及 CC BY-NC-ND 许可证封闭了学术改编。
背景
高级别肺神经内分泌癌在 WHO 胸部肿瘤分类中包含两个实体:小细胞肺癌(SCLC),最常见也最具侵袭性;以及较为罕见的大细胞神经内分泌癌(LCNEC)。两者都具有神经内分泌分化和不良预后,但对治疗的反应并不完全相同,而在显微镜下区分二者依赖于细胞学标准(细胞大小、核质比、染色质形态、核仁),这些标准在一定程度上仍具主观性。难点集中在混合型肿瘤(cSCLC-LCNEC),即同一病灶中同时含有小细胞成分与大细胞成分。对于这些混合型肿瘤,目前没有成熟工具能判断患者更倾向于像 SCLC 还是更像 LCNEC 那样进展——尽管该信息会影响随访与治疗强度。
温州的 Meng Zhou 团队多年来致力于小细胞肺癌病理的自动化解读:该团队 2024 年在 npj Digital Medicine 发表了基于组织病理图像预测 SCLC 预后与治疗反应的模型,并开发了对形态学敏感的图神经网络,将图像翻译为分子亚型。GTBIS 属于这一脉络。其假设是:一个被训练以精细区分 SCLC 与 LCNEC 的模型,能够捕捉一种连续的形态学特征——一种表型——当其应用于混合型肿瘤时,可揭示其主导的生物学行为,从而揭示预后。Nature 上线的版本为未经编辑的"Article in Press",在最终发表前可能修改。
方法
本研究由 Lin Yang、Ruyu Sheng 与 Zijian Yang(同等贡献)署名,通讯作者为 Lin Yang(北京国家癌症中心)、Shilong Liu(哈尔滨医科大学附属肿瘤医院)与 Meng Zhou(温州医科大学)。所有单位均在中国。论文于 2026 年 5 月 30 日发表于 npj Digital Medicine,2025 年 8 月 6 日收稿,2026 年 5 月 18 日接收,DOI 10.1038/s41746-026-02800-5,采用 CC BY-NC-ND 4.0 许可证(非商业、禁止演绎)——这一点我们稍后再谈。资金来自中国公共经费(中国医学科学院医学与健康科技创新工程 2024-I2M-C&T-A-005、国家高水平医院临床科研经费 LC2024L01、哈尔滨医科大学附属第三医院海燕基金);作者声明无利益冲突,资助方未参与研究设计或分析。
该模型名为 GTBIS。在可获取的版本中其缩写未被展开,我们也不会臆造;鉴于该团队既往工作,它很可能是一个对形态学敏感的可解释模型,以数字化病理切片(标准苏木精-伊红染色)为输入,被训练以区分 SCLC 与 LCNEC。因此任务首先是一个二分类分类(SCLC 对 LCNEC),随后用于混合型肿瘤的预后分层。摘要称在多中心队列上准确区分 SCLC 与 LCNEC,但在可获取的版本中并未给出区分指标(此处未提取到 AUC 或敏感性/特异性):这是需在全文中核实的数据,我们不会以臆造的数值替代它。
多中心队列合计 670 例患者。一部分用于学习并验证 SCLC/LCNEC 的区分;另一部分由接受放化疗的混合型 cSCLC-LCNEC 肿瘤患者组成,用于检验预后价值。在后一组中,GTBIS 为每个混合型肿瘤赋予一个主导表型——SCLC 样或 LCNEC 样——随后比较两个亚组的生存。可解释性分析被描述为多模态:它将形态学表型与生物学程序相联系,这意味着至少在部分队列上与转录组数据(基因表达)进行了配对。
结果
在接受放化疗的混合型肿瘤中,GTBIS 的分层区分出两个预后差异很大的亚组。预后良好的 SCLC 样亚组的五年总生存率为 100% 对 39.5%(LCNEC 样亚组),五年无病生存率为 87.5% 对 36.0%。在多变量分析中——即在考虑其他已知预后因素后——GTBIS 分类仍是独立的预后因素,提示它所携带的信息与分期或常规临床变量不冗余。在生物学方面,可解释性将良好表型与增殖通路相关联,将不良表型与上皮-间质转化(EMT,上皮细胞获得迁移和侵袭能力的程序)、缺氧与代谢重编程相关联——这一组合与更具侵袭性的行为相一致。
临床转化。纸面上的对比令人震撼:某一亚组五年生存率 100%,这是任何临床医生都不会忽视的信号。但必须结合样本量来解读。混合型 cSCLC-LCNEC 肿瘤罕见;因此良好亚组几乎可以肯定很小(至多数十例,很可能更少)。100% 的比率意味着在这一小组中没有观察到死亡——这是一个令人印象深刻的结果,但置信区间很宽,只要再多随访一名患者更久就可能下降。具体而言,如果将 GTBIS 应用于 100 个混合型肿瘤,它或许能识别出少数疾病表现得像化疗敏感的 SCLC 的患者——可考虑降低随访强度的候选者——以及多数 LCNEC 样、需要密切随访的患者。但这种用法仍是假设性的:它依赖一个回顾性队列、单一国家、且无前瞻性试验。
做得好的地方
所攻克的问题真实、困难且研究不足。肺神经内分泌混合型肿瘤的预后分层是胸部肿瘤学的盲区:在纯肿瘤上区分 SCLC/LCNEC 已属棘手,而混合型则没有专门工具。提出一种可重复的形态学解读,将相距如此之远的两条生存轨迹(五年 39.5% 对 100%)分开,回应的是真实的临床问题,而非自我安慰式的基准。这正是一个构建良好的模型能够提供人眼难以形式化的信息的利基。
多模态可解释性提供了生物学合理性。许多病理模型仍是只预测、不解释的黑箱。这里形态学表型被与具名的生物学程序相连——一边是增殖,另一边是 EMT、缺氧、代谢重编程。图像与底层生物学之间的这种一致性并非因果证明,但使信号可信:与 EMT 和缺氧相关的不良表型符合我们对侵袭性癌症的认识,而这一生物学护栏降低了模型学到虚假相关的风险。
设计是多中心的,预后贡献在多变量中得到检验。670 例患者分布于多个中心,多变量分析确认 GTBIS 因素相对于常规预后变量的独立性,研究因此超越了单中心原型阶段。它还建立在同一团队既往已验证工作的脉络之上(2024 年基于图像的 SCLC 预后预测、对形态学敏感的图网络),这增强了方法学的可信度。
做得不够的地方
样本量使 100% 在统计上脆弱。这是核心局限。混合型 cSCLC-LCNEC 肿瘤罕见,良好亚组必然很小。五年总生存率 100% 意味着该亚组无任何死亡记录——在这种情形下,即便存在真实差异,置信区间仍然很宽,且任何未来事件都会改变该数字。这不是经典的误导性指标(在不平衡任务上虚高的 AUC),而是其近亲:样本量不足以支撑如此极端的估计。在全文中未检视各亚组的患者数量与置信区间之前,100% 应被解读为一个强信号,而非保证。
所有中心均在中国,验证为回顾性且无明确的人类对照。人群偏倚这一失效模式适用:形态学模型对染色方案、切片扫描仪、固定操作敏感,而这些在不同国家与实验室之间各不相同。摘要中没有任何中国以外的验证。此外,可获取的版本中缺少人类对照:真正的临床问题不仅是 GTBIS 能否预测预后,而是它是否优于一位有经验的病理医生肉眼估计小细胞成分比例——后者本身在一定程度上已是已知的预后因素。没有这一人类参照,增量贡献仍有待确立。而且验证是回顾性的:它描述的是已治疗的队列,而非真正改变决策的前瞻性应用。
循环论证的风险,以及封闭改编的许可证。该模型被训练以区分 SCLC 与 LCNEC,这两个实体的预后本就不同。把这一分类器应用于混合型肿瘤,并发现 SCLC 样表型与更好的预后相伴,可能在一定程度上仅仅重述了成分之间已知的差异——这是一种 shortcut learning(捷径学习)的风险,即模型利用了一个代理信号(各成分的比例)而非真正新的信息。生物学可解释性减弱但未消除这一风险,因为 EMT/缺氧的关联是相关性的。最后,CC BY-NC-ND 4.0 许可证禁止商业使用(合理)但也禁止演绎作品,这使复现、对其他队列的改编和独立验证变得复杂;摘要未提及代码与权重的可获得性,仍有待确认。
这改变了什么
对研究界而言,GTBIS 展示了一个有用的趋势:从单纯的肿瘤亚型分类走向通过形态学解读的预后分层,并带有生物学锚点。研究罕见或混合型肿瘤的团队——其样本量难以支撑大型监督模型——会在此找到一种方法学范式(先在两个纯实体之间学习一条精细的边界,再把该表型投射到模糊的形态上)。预期的下一步是多国外部验证,最好是在用其他方案制备的切片上进行,并与专家病理医生的估计直接比较。
对临床医生(病理科与胸部肿瘤科医生)而言,当下并无可用之处:此类工具尚未获得法国 HAS 批准,未作为软件类医疗器械获得 CE 标志,也未获得 FDA 在该适应症上的许可。其意义是前瞻性的:如果信号在独立队列中得到确认,这样的模型有朝一日可帮助将混合型肿瘤在化疗敏感型与高风险型之间分流,并为多学科会诊提供讨论依据。今天,它是一个有前景的研究假设,而非决策工具。
对患者与公众而言,有用的信息有两点。其一,应用于病理的人工智能正走向越来越精细的问题——不再只是识别一种癌症,而是从形态学中读出未来行为的线索。其二,像五年生存率 100% 这样令人震撼的数字,始终必须以所涉群体的规模来加以权衡:在仅有数名患者的情形下,该比率令人鼓舞但并不确定,只有更大规模的前瞻性研究才能说明它是否成立。至于治疗决策,仍掌握在医疗团队手中。
延伸阅读
全文在 npj Digital Medicine 网站免费开放:nature.com/articles/s41746-026-02800-5(DOI 10.1038/s41746-026-02800-5)。关于由基础模型进行的自动化病理解读,参见我们对 GigaPath(数字病理基础模型)的解读。关于用深度学习对肿瘤治疗反应建模,参见我们对 Liu 2026 用于直肠癌新辅助治疗选择的 mixture-of-experts 模型的解读。