médical IA

GigaPath在数字病理学中：一个在13亿图像块上训练的基础模型带来什么改变

发布于 2026年5月21日 · 8 分钟阅读

2024年5月发表于Nature的论文由Microsoft Research和Providence Health联合发布，介绍了GigaPath——一个用于数字病理学的基础模型。该模型在13亿个图像块上进行训练，这些图像块来自171,189张全切片病理图像，覆盖30,060名患者和28种癌症类型。在26个公共基准测试中，它在18个上超越了先前的最佳模型，在罕见癌症亚型分类和基于图像的基因突变预测方面表现尤为突出。这是一个真正的方法学里程碑，但在推广性和模型可用性方面需要谨慎解读。

背景

数字病理学是将显微镜切片数字化以进行计算分析的领域。自2017年起，病理学中的AI主要依赖卷积神经网络（CNN），针对特定任务进行训练——如乳腺癌检测、淋巴瘤亚型分类等。这些模型有效，但每项任务都需要专门的标注数据集，构建成本高昂。

基础模型（foundation model）的出现改变了这一逻辑。这类模型在庞大语料上进行无特定任务的预训练，学习通用表征，可以用很少的标注数据快速适配任何下游任务。BERT和LLMs改变了NLP领域。在病理学中，首批大规模的视觉基础模型于2023-2024年出现：CTransPath、RudolfV、Prov-GigaPath（本文解读对象）等。

方法

架构分为两个阶段。第一阶段：一个源自DINOv2的视觉Transformer从切片中每个256×256像素的图像块提取表征（embedding）。该Transformer有11亿参数，通过自监督学习（无标注）在13亿图像块上训练。Transformer是基于注意力机制的神经架构，自2017年起成为NLP的标准，近年也广泛用于视觉。

第二阶段：一个名为LongNet的序列Transformer将整张切片中数千个图像块聚合为全局表征。LongNet专为处理极长序列设计，不会因内存成本而崩溃——这是传统Transformer在面对病理切片（通常包含5,000至50,000个图像块）时的主要限制。

训练数据来自美国Providence Health医院系统。171,189张数字化切片，30,060名患者，28种癌症类型，时间跨度2017-2023年。全部为美国人，全部来自单一医院网络。评估在26个公共外部基准上进行。

结果

在26项测试任务中的18项，GigaPath超越了先前的最佳水平（主要是2022年末发布的参考模型CTransPath）。最显著的进步集中在三个领域。

罕见癌症亚型分类，传统数据集在这方面缺乏样本。在某些淋巴瘤或肉瘤分类任务上，GigaPath的AUC（ROC曲线下面积，衡量区分阳性和阴性的能力——1为完美，0.5为随机）提高了3至8个百分点。

仅从图像预测基因突变——例如仅通过观察组织学切片就能检测乳腺癌中的PIK3CA突变，而无需DNA测序。GigaPath在TP53、KRAS、PIK3CA等突变上获得多个AUC百分点的提升。

生存预测，针对某些癌症。在胶质母细胞瘤和某些乳腺癌亚型上，GigaPath改善了风险组分层。

优点

三个显著优势。训练规模前所未有：2022年CTransPath使用32,000张切片，GigaPath使用171,000张。基础模型的"数据越多、参数越多、效果越好"的规律在病理学中似乎也成立。

LongNet架构是真正的技术贡献。首次允许处理整张切片而无需人为分割，能够捕捉远距离区域之间的空间关系——对具有广泛间质成分的癌症尤为有用。

代码和模型权重已发布在GitHub和Hugging Face上，采用非商业许可证但对学术研究开放。这比某些竞争对手的完全私有模型要好，允许其他团队复现和扩展。

不足

三个需要关注的严重限制。

训练数据来自单一医院系统。Providence Health是一个大型网络（51家医院），但全部位于美国，固定和染色协议可能较为统一。病理学对实验室间的技术变化敏感——同一种癌症在不同扫描仪、不同固定时间、不同操作员下可能看起来不同。论文未报告在欧洲、亚洲或非洲人群中的前瞻性验证。在美国以外的环境中的表现仍有待证明。

非商业许可证锁住了真正的临床使用。任何医院都不能在不与Microsoft重新谈判的情况下将GigaPath部署到生产诊断中。从商业上可以理解，但这意味着该模型仍然是研究工具，而非临床工具。

对比评估并不全面。GigaPath主要与CTransPath（2022）及少数早期模型进行比较。但2024年也出现了其他几个病理基础模型（RudolfV、Virchow、Phikon-v2），并未系统比较。在缺乏独立严格基准测试的情况下，"最先进"的说法需要谨慎。

补充说明：所有主要作者都在Microsoft Research或Providence Health工作，这两个机构拥有模型权利。这不会使结果失去价值，但独立的复现研究将是受欢迎的。

带来的改变

对研究界来说，这是一个新基线。GigaPath加入了少数几个可用模型的行列，研究人员可以用很少的标注数据在任何病理任务上进行微调。实验成本下降，创新加速。

对临床病理学家来说，目前没有变化。常规部署尚未临近——需要多中心前瞻性验证、监管认证（FDA SaMD、CE）、整合到现有数字切片管理工作流。现实时间表：3至7年实现广泛临床应用，首先从有限适应症开始（罕见肿瘤亚型分型，AI比专家会诊更快）。

对患者和公众来说，变化即将到来且真实。病理学是未来十年最有可能被AI深刻变革的医学学科，因为它完全依赖视觉模式分析——这正是这些模型擅长的。GigaPath这样的论文在悄然准备的，最终将改变肿瘤诊断的速度、一致性，并可能提高准确性。

延伸阅读

Prov-GigaPath的代码和权重在GitHub和Hugging Face上以非商业许可证提供。关于病理学中其他基础模型的概述，参见Zhang等2024年在npj Digital Medicine上的综述。