SKELEX:用 130 万张 X 光片训练的基础模型来读骨——从囊肿到骨折(Kim 等,2026,npj Digital Medicine)

Shinn Kim、Soobin Lee、Kyoungseob Shin、Han-Soo Kim、Yongsung Kim、Minsu Kim、Juhong Nam、Somang Ko、Daeheon Kwon、Wook Huh、Ilkyu Han 和 Sunghoon Kwon(首尔大学)于 2026 年 6 月 2 日在 npj Digital Medicine 发表 SKELEX,称其为首个面向肌肉骨骼 X 光片的大规模基础模型(foundation model)。一个以 ViT-Large 为骨干的掩码自编码器,在完全无标注的情况下,于来自单一韩国医院、2010 至 2016 年间的 1,296,540 张 X 光片上进行预训练,随后被适配到 7 个公开数据集上评估的 12 项诊断任务。该模型以平均相对 6.21% 的幅度超过五个基线——例如在骨肿瘤检测上 AUROC 为 0.953,而其自身初始化模型为 0.884——校准优于竞争对手,并以一半的标注就达到最优模型的水平。这是对“特定领域自监督预训练”价值的有力证明;但仍应结合以下事实来看待:训练数据来自单中心、单一国家,真正的外部验证仅限于骨肿瘤这一项,没有与放射科医生的直接比较,分辨率被压缩到 224×224,且权重仅供学术使用发布。

背景

X 光摄影是世界上最常见的影像检查,而肌肉骨骼系统——骨骼、关节——占其中极大比例:骨折、骨关节炎、骨肿瘤、畸形。然而判读依赖放射科医生,其人数跟不上检查量的增长。深度学习多年来一直承诺提供帮助,但通常以一种狭窄的形式:以监督方式(基于由专家逐一标注的图像)针对单一任务、在单一数据集上训练一个模型。每一个新问题——检测腕部骨折、对膝关节骨关节炎分级、发现肿瘤——都要从零开始,重新标注成千上万张图像,既慢又贵。

基础模型的思路颠覆了这一逻辑。先以自监督方式——不用标注,让网络学习图像本身的结构——在海量数据上预训练一个大网络,再用少量标注样本将其适配到许多下游任务。这一配方已经改变了数字病理学(借助 GigaPath)和胸部 X 光。而肌肉骨骼领域此前还没有自己的大型通用模型。SKELEX(取自 musculoSKELEtal X-ray)自称是填补这一空白的第一个。

方法

该文章(npj Digital Medicine,10.1038/s41746-026-02826-9,1 月 16 日收稿,5 月 21 日接收,2026 年 6 月 2 日发表,开放获取,采用 CC BY-NC-ND 许可)基于一个掩码自编码器(MAE:随机遮住图像的一大部分,训练网络重建缺失区域——它由此学会表征解剖结构,而无须被告知自己在看什么)。骨干是一个 ViT-Largevision transformer:把图像切成 16×16 像素的小块,像句子里的词一样处理;这里是 24 个块的编码器和 8 个块的解码器)。掩码比例为 75%,重建损失只在被遮住的小块上计算。

预训练分两步:先从一个已在 ImageNet(日常照片)上训练好的 MAE 出发,再在 X 光数据集上对其进行领域适配。该数据集名为 SNUH-1M,包含 1,296,540 张无标注 X 光片,取自首尔大学医院的 PACS(影像归档系统)、时间为 2010 至 2016 年,覆盖 15 个解剖区域和 89 种以上的疾病。整个预训练只用了一块 RTX A6000 显卡、约 1,630 个计算小时——对这种规模的模型而言是相当节省的预算。

为衡量模型学到了什么,作者随后将其适配到 7 个公开数据集上的 12 项诊断任务:儿童腕部骨折及其细分类(GRAZPEDWRI-DX)、骨折与骨科内固定物检测(FracAtlas)、异常检测(MURA,40,005 项检查)、骨肿瘤的有无、良恶性判定及 9 类分型(BTXRD,来自中国三家医院)、按 Kellgren-Lawrence 量表对膝关节骨关节炎分级(OAI)、扁平足(PesPlanus)以及骨龄估计(RSNA Bone Age)。一个重要的方法学要点:这些公开数据集被排除在预训练之外,以避免任何泄漏,且大多数评估都在每个数据集内部预留的测试样本(10%)上进行。SKELEX 与五个模型对比:ResNet-101、两个在 ImageNet 上预训练的 ViT(包括其自身的初始化模型 ViT-MAE/I1K)以及两个医学自监督模型 BiomedCLIP 和 Radio-DINO。作者还加入了一个由区域引导的多头分类器:一个 YOLO11x 检测器定位 29 个解剖区域,然后由各区域专属的头接手。

结果

在所有任务上,SKELEX 相对其自身初始化模型(在相同协议下)带来 平均相对 6.21% 的提升。最明显的结果是骨肿瘤检测,AUROC 为 0.953(AUROC,即 ROC 曲线下面积,衡量区分阳性与阴性病例的能力:1.0 为完美,0.5 等同于随机),而 ViT-MAE/I1K 为 0.884、在 ImageNet-21K 上预训练的 ViT 为 0.902、ResNet-101 为 0.903、BiomedCLIP 为 0.914、Radio-DINO 为 0.867。相对提升在肿瘤分型上为 5.39% 至 12.30%,在扁平足上为 2.78% 至 13.47%,在腕部骨折分类上为 2.20% 至 7.66%。

有两个结果尤其说明问题。其一是校准:期望校准误差(ECE——模型声称的置信度与其真实准确率之间的差距;越低,所显示的概率越可信)在骨肿瘤上降至 0.096,而最佳竞争对手为 0.133,相对降低约 27.8%。其二是标注效率:仅用 50% 的标注数据,SKELEX 在肿瘤检测上就达到 0.941 的 AUROC——高于用 100% 标注训练的最佳基线(0.914);在 MURA 上同样如此(用一半标注达到 0.855,而全量数据的最佳基线为 0.846)。由区域引导的分类器以平均 0.999 的 AUROC 识别解剖区域,并在所有异常分类上保持 0.9 以上的 AUROC。这些差距由重采样统计检验(配对 bootstrap,5,000 次抽样)支持,p 值常低于 0.001。

临床转化。0.953 的 AUROC 是在一个均衡的测试集上取得的(1,867 例肿瘤对 1,879 例非肿瘤)。然而在真实人群中,骨肿瘤是罕见的:在低患病率下,同样的 AUROC 会带来远比表面上更多的绝对假阳性数量——也就是同样多的不必要复查和不必要的焦虑。因此在实践中最有用的结果并非原始的检测数字,而是标注效率:一个标注病例很少的科室——通常是针对某种罕见疾病——可以以更低成本适配该模型。但话说回来,这些都是在预留样本上的回顾性评估,而非真实临床条件下的检验。

做得好的地方

预训练的规模,以及可量化的标注效率收益。在 130 万张 X 光片上无标注预训练,再证明该模型用 50% 的标注就达到竞争对手用 100% 才达到的水平,这击中了肌肉骨骼 AI 真正的瓶颈:专家标注的成本。收益是有数字的(肿瘤上用一半标注 0.941 对 0.914),而非仅靠断言。

不同寻常的方法学严谨。公开评估数据集被刻意排除在预训练之外,以避免数据泄漏(data leakage)(即测试图像混入训练、人为抬高分数)。在无法按患者划分之处,作者用图像相似度(SSIM)和 MD5 指纹排查重复,并“为透明起见”公布阳性/阴性的例数。这种程度的谨慎并不常见。

报告了校准,而不仅是 AUROC。测量 ECE 并取得最佳校准(在 BTXRD 上 –27.8%)在临床上很重要:一个校准良好的模型说“我有 80% 的把握”时,它确实有 80% 的时候是对的,这对临床医生判断该信任到何种程度不可或缺。此外,代码与权重已存放在 GitHub,并提供了一个可访问的网页原型。

做得不够的地方

单一医院、单一国家:人群偏倚未被排除。这 130 万张图像全部来自同一家韩国机构、时间为 2010–2016 年——相同的设备、相同的协议、相同的人群。无法保证向其他机器、其他国家、其他体型的泛化,作者也承认这一点。尤其是,真正的外部验证(基于独立来源的数据)只覆盖十二项应用中的一项——骨肿瘤;其余十一项都是在公开数据集内部的预留样本上评估的。而用于肿瘤的两个外部来源(Radiopaedia、MedPix)是经过挑选的教学图像库——并非连续的临床队列,这引入了选择偏倚

对面没有放射科医生,且指标会美化结果。尽管叙事建立在放射科医生短缺之上,却没有报告任何量化的人机直接对比:对照仍然是算法。此外,一些测量值提醒人们谨慎——解剖区域识别 0.999 的 AUROC,或完全均衡、不反映真实患病率的测试集(1,867 对 1,879),都是典型的误导性指标:在测试台上很出色,却无从预判在真实操作阈值下的表现。最后那个“6.21%”的平均提升,也只是相对其初始化模型而言。

可能残留泄漏、分辨率被压缩、可复现性有限。对于 FracAtlas、BTXRD 和 PesPlanus,训练/测试的划分是在图像层面而非患者层面进行的:尽管有 SSIM 和 MD5 的检查,同一患者的两张片子仍可能分落两侧,这为数据泄漏打开了一扇门。强制压缩到 224×224 像素可能抹去细微征象——无移位骨折、肿瘤微弱的髓内透亮——作者对此也予以承认。最后,预训练数据未公开,权重“仅供学术研究使用”发布,文章采用 CC BY-NC-ND 许可(不可商业再利用、不可衍生):独立的可复现性与任何真实部署都因此受限。文中未提及任何 CE 标志或 FDA 批准。资助来源(韩国公共机构:KHIDI/卫生部、KUCRF、MOTIE、BK21 计划)以及无利益冲突均得到了恰当声明。

这会改变什么

研究界而言,SKELEX 证实了基础模型的配方——大规模自监督预训练加上标注节省型适配——同样适用于肌肉骨骼 X 光这一此前缺乏大型通用模型的领域。把权重提供给研究者使用,让其他团队得以在其上构建。可预期的后续很清楚:多中心、多国家的预训练,扩展到全部十二项任务的患者级外部验证,更高的分辨率,以及最终与放射科医生的比较。

临床医生而言,该工具今天还不可部署:它是一个研究原型(存在一个网页演示),没有任何前瞻性验证,没有与人工判读的比较,也没有监管许可。其中期的潜在价值有二:降低罕见疾病的标注成本,并在将来作为分诊辅助或第二意见——而绝非自主的诊断行为。

患者和公众而言,其承诺是一种更广泛、更低成本的肌肉骨骼 AI,尤其适用于骨肿瘤等罕见情形。仍应保持审慎:一个在回顾性的韩国 X 光片上表现良好的模型,就目前而言并未被验证用于判读您自己的片子。预测不等于诊断,决策仍由医疗团队负责。

延伸阅读

该文章在 npj Digital Medicine 上开放获取:nature.com/articles/s41746-026-02826-9(DOI 10.1038/s41746-026-02826-9);代码与权重在 github.com/skhoha/SKELEX,网页原型在 bonetudx.org。关于医学影像中的基础模型理念与单一来源数据的问题,参见我们对 数字病理学中 GigaPath 的解读。关于如何把影像性能转化为真实的预后价值,参见我们对 Yang 2026 组织形态表型模型的解读