GigaPath在数字病理学中:一个在13亿图像块上训练的基础模型带来什么改变

2024年5月发表于Nature的论文由Microsoft Research和Providence Health联合发布,介绍了GigaPath——一个用于数字病理学的基础模型。该模型在13亿个图像块上进行训练,这些图像块来自171,189张全切片病理图像,覆盖30,060名患者和28种癌症类型。在26个公共基准测试中,它在18个上超越了先前的最佳模型,在罕见癌症亚型分类和基于图像的基因突变预测方面表现尤为突出。这是一个真正的方法学里程碑,但在推广性和模型可用性方面需要谨慎解读。

背景

数字病理学是将显微镜切片数字化以进行计算分析的领域。自2017年起,病理学中的AI主要依赖卷积神经网络(CNN),针对特定任务进行训练——如乳腺癌检测、淋巴瘤亚型分类等。这些模型有效,但每项任务都需要专门的标注数据集,构建成本高昂。

基础模型(foundation model)的出现改变了这一逻辑。这类模型在庞大语料上进行无特定任务的预训练,学习通用表征,可以用很少的标注数据快速适配任何下游任务。BERT和LLMs改变了NLP领域。在病理学中,首批大规模的视觉基础模型于2023-2024年出现:CTransPath、RudolfV、Prov-GigaPath(本文解读对象)等。

方法

架构分为两个阶段。第一阶段:一个源自DINOv2的视觉Transformer从切片中每个256×256像素的图像块提取表征(embedding)。该Transformer有11亿参数,通过自监督学习(无标注)在13亿图像块上训练。Transformer是基于注意力机制的神经架构,自2017年起成为NLP的标准,近年也广泛用于视觉。

第二阶段:一个名为LongNet的序列Transformer将整张切片中数千个图像块聚合为全局表征。LongNet专为处理极长序列设计,不会因内存成本而崩溃——这是传统Transformer在面对病理切片(通常包含5,000至50,000个图像块)时的主要限制。

训练数据来自美国Providence Health医院系统。171,189张数字化切片,30,060名患者,28种癌症类型,时间跨度2017-2023年。全部为美国人,全部来自单一医院网络。评估在26个公共外部基准上进行。

结果

在26项测试任务中的18项,GigaPath超越了先前的最佳水平(主要是2022年末发布的参考模型CTransPath)。最显著的进步集中在三个领域。

罕见癌症亚型分类,传统数据集在这方面缺乏样本。在某些淋巴瘤或肉瘤分类任务上,GigaPath的AUC(ROC曲线下面积,衡量区分阳性和阴性的能力——1为完美,0.5为随机)提高了3至8个百分点。

仅从图像预测基因突变——例如仅通过观察组织学切片就能检测乳腺癌中的PIK3CA突变,而无需DNA测序。GigaPath在TP53、KRAS、PIK3CA等突变上获得多个AUC百分点的提升。

生存预测,针对某些癌症。在胶质母细胞瘤和某些乳腺癌亚型上,GigaPath改善了风险组分层。

优点

三个显著优势。训练规模前所未有:2022年CTransPath使用32,000张切片,GigaPath使用171,000张。基础模型的"数据越多、参数越多、效果越好"的规律在病理学中似乎也成立。

LongNet架构是真正的技术贡献。首次允许处理整张切片而无需人为分割,能够捕捉远距离区域之间的空间关系——对具有广泛间质成分的癌症尤为有用。

代码和模型权重已发布在GitHub和Hugging Face上,采用非商业许可证但对学术研究开放。这比某些竞争对手的完全私有模型要好,允许其他团队复现和扩展。

不足

三个需要关注的严重限制。

训练数据来自单一医院系统。Providence Health是一个大型网络(51家医院),但全部位于美国,固定和染色协议可能较为统一。病理学对实验室间的技术变化敏感——同一种癌症在不同扫描仪、不同固定时间、不同操作员下可能看起来不同。论文未报告在欧洲、亚洲或非洲人群中的前瞻性验证。在美国以外的环境中的表现仍有待证明。

非商业许可证锁住了真正的临床使用。任何医院都不能在不与Microsoft重新谈判的情况下将GigaPath部署到生产诊断中。从商业上可以理解,但这意味着该模型仍然是研究工具,而非临床工具。

对比评估并不全面。GigaPath主要与CTransPath(2022)及少数早期模型进行比较。但2024年也出现了其他几个病理基础模型(RudolfV、Virchow、Phikon-v2),并未系统比较。在缺乏独立严格基准测试的情况下,"最先进"的说法需要谨慎。

补充说明:所有主要作者都在Microsoft Research或Providence Health工作,这两个机构拥有模型权利。这不会使结果失去价值,但独立的复现研究将是受欢迎的。

带来的改变

研究界来说,这是一个新基线。GigaPath加入了少数几个可用模型的行列,研究人员可以用很少的标注数据在任何病理任务上进行微调。实验成本下降,创新加速。

临床病理学家来说,目前没有变化。常规部署尚未临近——需要多中心前瞻性验证、监管认证(FDA SaMD、CE)、整合到现有数字切片管理工作流。现实时间表:3至7年实现广泛临床应用,首先从有限适应症开始(罕见肿瘤亚型分型,AI比专家会诊更快)。

患者和公众来说,变化即将到来且真实。病理学是未来十年最有可能被AI深刻变革的医学学科,因为它完全依赖视觉模式分析——这正是这些模型擅长的。GigaPath这样的论文在悄然准备的,最终将改变肿瘤诊断的速度、一致性,并可能提高准确性。

延伸阅读

Prov-GigaPath的代码和权重在GitHubHugging Face上以非商业许可证提供。关于病理学中其他基础模型的概述,参见Zhang等2024年在npj Digital Medicine上的综述。