médical IA

SKELEX：用 130 万张 X 光片训练的基础模型来读骨——从囊肿到骨折（Kim 等，2026，npj Digital Medicine）

发布于 2026年6月3日 · 12 分钟阅读

Shinn Kim、Soobin Lee、Kyoungseob Shin、Han-Soo Kim、Yongsung Kim、Minsu Kim、Juhong Nam、Somang Ko、Daeheon Kwon、Wook Huh、Ilkyu Han 和 Sunghoon Kwon（首尔大学）于 2026 年 6 月 2 日在 npj Digital Medicine 发表 SKELEX，称其为首个面向肌肉骨骼 X 光片的大规模基础模型（foundation model）。一个以 ViT-Large 为骨干的掩码自编码器，在完全无标注的情况下，于来自单一韩国医院、2010 至 2016 年间的 1,296,540 张 X 光片上进行预训练，随后被适配到 7 个公开数据集上评估的 12 项诊断任务。该模型以平均相对 6.21% 的幅度超过五个基线——例如在骨肿瘤检测上 AUROC 为 0.953，而其自身初始化模型为 0.884——校准优于竞争对手，并以一半的标注就达到最优模型的水平。这是对“特定领域自监督预训练”价值的有力证明；但仍应结合以下事实来看待：训练数据来自单中心、单一国家，真正的外部验证仅限于骨肿瘤这一项，没有与放射科医生的直接比较，分辨率被压缩到 224×224，且权重仅供学术使用发布。

背景

X 光摄影是世界上最常见的影像检查，而肌肉骨骼系统——骨骼、关节——占其中极大比例：骨折、骨关节炎、骨肿瘤、畸形。然而判读依赖放射科医生，其人数跟不上检查量的增长。深度学习多年来一直承诺提供帮助，但通常以一种狭窄的形式：以监督方式（基于由专家逐一标注的图像）针对单一任务、在单一数据集上训练一个模型。每一个新问题——检测腕部骨折、对膝关节骨关节炎分级、发现肿瘤——都要从零开始，重新标注成千上万张图像，既慢又贵。

基础模型的思路颠覆了这一逻辑。先以自监督方式——不用标注，让网络学习图像本身的结构——在海量数据上预训练一个大网络，再用少量标注样本将其适配到许多下游任务。这一配方已经改变了数字病理学（借助 GigaPath）和胸部 X 光。而肌肉骨骼领域此前还没有自己的大型通用模型。SKELEX（取自 musculoSKELEtal X-ray）自称是填补这一空白的第一个。

方法

该文章（npj Digital Medicine，10.1038/s41746-026-02826-9，1 月 16 日收稿，5 月 21 日接收，2026 年 6 月 2 日发表，开放获取，采用 CC BY-NC-ND 许可）基于一个掩码自编码器（MAE：随机遮住图像的一大部分，训练网络重建缺失区域——它由此学会表征解剖结构，而无须被告知自己在看什么）。骨干是一个 ViT-Large（vision transformer：把图像切成 16×16 像素的小块，像句子里的词一样处理；这里是 24 个块的编码器和 8 个块的解码器）。掩码比例为 75%，重建损失只在被遮住的小块上计算。

预训练分两步：先从一个已在 ImageNet（日常照片）上训练好的 MAE 出发，再在 X 光数据集上对其进行领域适配。该数据集名为 SNUH-1M，包含 1,296,540 张无标注 X 光片，取自首尔大学医院的 PACS（影像归档系统）、时间为 2010 至 2016 年，覆盖 15 个解剖区域和 89 种以上的疾病。整个预训练只用了一块 RTX A6000 显卡、约 1,630 个计算小时——对这种规模的模型而言是相当节省的预算。

为衡量模型学到了什么，作者随后将其适配到 7 个公开数据集上的 12 项诊断任务：儿童腕部骨折及其细分类（GRAZPEDWRI-DX）、骨折与骨科内固定物检测（FracAtlas）、异常检测（MURA，40,005 项检查）、骨肿瘤的有无、良恶性判定及 9 类分型（BTXRD，来自中国三家医院）、按 Kellgren-Lawrence 量表对膝关节骨关节炎分级（OAI）、扁平足（PesPlanus）以及骨龄估计（RSNA Bone Age）。一个重要的方法学要点：这些公开数据集被排除在预训练之外，以避免任何泄漏，且大多数评估都在每个数据集内部预留的测试样本（10%）上进行。SKELEX 与五个模型对比：ResNet-101、两个在 ImageNet 上预训练的 ViT（包括其自身的初始化模型 ViT-MAE/I1K）以及两个医学自监督模型 BiomedCLIP 和 Radio-DINO。作者还加入了一个由区域引导的多头分类器：一个 YOLO11x 检测器定位 29 个解剖区域，然后由各区域专属的头接手。

结果

在所有任务上，SKELEX 相对其自身初始化模型（在相同协议下）带来 平均相对 6.21% 的提升。最明显的结果是骨肿瘤检测，AUROC 为 0.953（AUROC，即 ROC 曲线下面积，衡量区分阳性与阴性病例的能力：1.0 为完美，0.5 等同于随机），而 ViT-MAE/I1K 为 0.884、在 ImageNet-21K 上预训练的 ViT 为 0.902、ResNet-101 为 0.903、BiomedCLIP 为 0.914、Radio-DINO 为 0.867。相对提升在肿瘤分型上为 5.39% 至 12.30%，在扁平足上为 2.78% 至 13.47%，在腕部骨折分类上为 2.20% 至 7.66%。

有两个结果尤其说明问题。其一是校准：期望校准误差（ECE——模型声称的置信度与其真实准确率之间的差距；越低，所显示的概率越可信）在骨肿瘤上降至 0.096，而最佳竞争对手为 0.133，相对降低约 27.8%。其二是标注效率：仅用 50% 的标注数据，SKELEX 在肿瘤检测上就达到 0.941 的 AUROC——高于用 100% 标注训练的最佳基线（0.914）；在 MURA 上同样如此（用一半标注达到 0.855，而全量数据的最佳基线为 0.846）。由区域引导的分类器以平均 0.999 的 AUROC 识别解剖区域，并在所有异常分类上保持 0.9 以上的 AUROC。这些差距由重采样统计检验（配对 bootstrap，5,000 次抽样）支持，p 值常低于 0.001。

临床转化。0.953 的 AUROC 是在一个均衡的测试集上取得的（1,867 例肿瘤对 1,879 例非肿瘤）。然而在真实人群中，骨肿瘤是罕见的：在低患病率下，同样的 AUROC 会带来远比表面上更多的绝对假阳性数量——也就是同样多的不必要复查和不必要的焦虑。因此在实践中最有用的结果并非原始的检测数字，而是标注效率：一个标注病例很少的科室——通常是针对某种罕见疾病——可以以更低成本适配该模型。但话说回来，这些都是在预留样本上的回顾性评估，而非真实临床条件下的检验。

做得好的地方

预训练的规模，以及可量化的标注效率收益。在 130 万张 X 光片上无标注预训练，再证明该模型用 50% 的标注就达到竞争对手用 100% 才达到的水平，这击中了肌肉骨骼 AI 真正的瓶颈：专家标注的成本。收益是有数字的（肿瘤上用一半标注 0.941 对 0.914），而非仅靠断言。

不同寻常的方法学严谨。公开评估数据集被刻意排除在预训练之外，以避免数据泄漏（data leakage）（即测试图像混入训练、人为抬高分数）。在无法按患者划分之处，作者用图像相似度（SSIM）和 MD5 指纹排查重复，并“为透明起见”公布阳性/阴性的例数。这种程度的谨慎并不常见。

报告了校准，而不仅是 AUROC。测量 ECE 并取得最佳校准（在 BTXRD 上 –27.8%）在临床上很重要：一个校准良好的模型说“我有 80% 的把握”时，它确实有 80% 的时候是对的，这对临床医生判断该信任到何种程度不可或缺。此外，代码与权重已存放在 GitHub，并提供了一个可访问的网页原型。

做得不够的地方

单一医院、单一国家：人群偏倚未被排除。这 130 万张图像全部来自同一家韩国机构、时间为 2010–2016 年——相同的设备、相同的协议、相同的人群。无法保证向其他机器、其他国家、其他体型的泛化，作者也承认这一点。尤其是，真正的外部验证（基于独立来源的数据）只覆盖十二项应用中的一项——骨肿瘤；其余十一项都是在公开数据集内部的预留样本上评估的。而用于肿瘤的两个外部来源（Radiopaedia、MedPix）是经过挑选的教学图像库——并非连续的临床队列，这引入了选择偏倚。

对面没有放射科医生，且指标会美化结果。尽管叙事建立在放射科医生短缺之上，却没有报告任何量化的人机直接对比：对照仍然是算法。此外，一些测量值提醒人们谨慎——解剖区域识别 0.999 的 AUROC，或完全均衡、不反映真实患病率的测试集（1,867 对 1,879），都是典型的误导性指标：在测试台上很出色，却无从预判在真实操作阈值下的表现。最后那个“6.21%”的平均提升，也只是相对其初始化模型而言。

可能残留泄漏、分辨率被压缩、可复现性有限。对于 FracAtlas、BTXRD 和 PesPlanus，训练/测试的划分是在图像层面而非患者层面进行的：尽管有 SSIM 和 MD5 的检查，同一患者的两张片子仍可能分落两侧，这为数据泄漏打开了一扇门。强制压缩到 224×224 像素可能抹去细微征象——无移位骨折、肿瘤微弱的髓内透亮——作者对此也予以承认。最后，预训练数据未公开，权重“仅供学术研究使用”发布，文章采用 CC BY-NC-ND 许可（不可商业再利用、不可衍生）：独立的可复现性与任何真实部署都因此受限。文中未提及任何 CE 标志或 FDA 批准。资助来源（韩国公共机构：KHIDI/卫生部、KUCRF、MOTIE、BK21 计划）以及无利益冲突均得到了恰当声明。

这会改变什么

对研究界而言，SKELEX 证实了基础模型的配方——大规模自监督预训练加上标注节省型适配——同样适用于肌肉骨骼 X 光这一此前缺乏大型通用模型的领域。把权重提供给研究者使用，让其他团队得以在其上构建。可预期的后续很清楚：多中心、多国家的预训练，扩展到全部十二项任务的患者级外部验证，更高的分辨率，以及最终与放射科医生的比较。

对临床医生而言，该工具今天还不可部署：它是一个研究原型（存在一个网页演示），没有任何前瞻性验证，没有与人工判读的比较，也没有监管许可。其中期的潜在价值有二：降低罕见疾病的标注成本，并在将来作为分诊辅助或第二意见——而绝非自主的诊断行为。

对患者和公众而言，其承诺是一种更广泛、更低成本的肌肉骨骼 AI，尤其适用于骨肿瘤等罕见情形。仍应保持审慎：一个在回顾性的韩国 X 光片上表现良好的模型，就目前而言并未被验证用于判读您自己的片子。预测不等于诊断，决策仍由医疗团队负责。

延伸阅读

该文章在 npj Digital Medicine 上开放获取：nature.com/articles/s41746-026-02826-9（DOI 10.1038/s41746-026-02826-9）；代码与权重在 github.com/skhoha/SKELEX，网页原型在 bonetudx.org。关于医学影像中的基础模型理念与单一来源数据的问题，参见我们对数字病理学中 GigaPath 的解读。关于如何把影像性能转化为真实的预后价值，参见我们对 Yang 2026 组织形态表型模型的解读。