SKELEX : un foundation model entraîné sur 1,3 million de radiographies pour lire l'os, du kyste à la fracture (Kim et al. 2026, npj Digital Medicine)

Shinn Kim, Soobin Lee, Kyoungseob Shin, Han-Soo Kim, Yongsung Kim, Minsu Kim, Juhong Nam, Somang Ko, Daeheon Kwon, Wook Huh, Ilkyu Han et Sunghoon Kwon (Université nationale de Séoul) publient le 2 juin 2026 dans npj Digital Medicine SKELEX, présenté comme le premier foundation model à grande échelle dédié aux radiographies de l'appareil locomoteur. Un autoencodeur masqué à dorsale ViT-Large est pré-entraîné, sans aucune étiquette, sur 1 296 540 radiographies issues d'un seul hôpital coréen entre 2010 et 2016, puis adapté à 12 tâches diagnostiques évaluées sur 7 jeux de données publics. Le modèle dépasse cinq références de 6,21 % en moyenne relative — par exemple une AUROC de 0,953 contre 0,884 pour son propre modèle d'initialisation sur la détection de tumeur osseuse —, il est mieux calibré que ses concurrents et atteint la performance des meilleurs avec moitié moins d'étiquettes. C'est une démonstration solide de l'intérêt du pré-entraînement auto-supervisé spécifique à un domaine ; il faut toutefois la lire à l'aune de données d'entraînement mono-centre et mono-pays, d'une véritable validation externe limitée à la seule tumeur osseuse, de l'absence de comparaison directe aux radiologues, d'une résolution réduite à 224×224, et de poids publiés pour le seul usage académique.

Le contexte

La radiographie est l'examen d'imagerie le plus fréquent au monde, et l'appareil locomoteur — os, articulations — en concentre une part énorme : fractures, arthrose, tumeurs osseuses, déformations. Or l'interprétation repose sur des radiologues dont le nombre ne suit pas le volume d'examens. L'apprentissage profond promet de l'aide depuis des années, mais le plus souvent sous une forme étroite : un modèle entraîné de façon supervisée (à partir d'images étiquetées une à une par un expert) pour une tâche unique, sur un seul jeu de données. Chaque nouvelle question — détecter une fracture du poignet, grader une arthrose du genou, repérer une tumeur — exige de repartir de zéro et de réannoter des milliers d'images, ce qui est lent et coûteux.

L'idée du foundation model (modèle de fondation) renverse cette logique. On pré-entraîne d'abord un grand réseau de façon auto-supervisée — sans étiquettes, en lui faisant apprendre la structure des images elles-mêmes — sur une masse de données, puis on l'adapte à de nombreuses tâches en aval avec peu d'exemples annotés. Cette recette a déjà transformé la pathologie numérique (avec GigaPath) et la radiographie thoracique. L'appareil locomoteur, lui, n'avait pas encore son grand modèle généraliste. SKELEX (pour musculoSKELEtal X-ray) se présente comme le premier à combler ce vide.

La méthode

L'article (npj Digital Medicine, 10.1038/s41746-026-02826-9, reçu le 16 janvier, accepté le 21 mai, publié le 2 juin 2026, en accès libre sous licence CC BY-NC-ND) repose sur un autoencodeur masqué (MAE, masked autoencoder : on cache au hasard une grande partie de l'image et on entraîne le réseau à reconstruire les zones manquantes — il apprend ainsi à représenter l'anatomie sans qu'on lui dise jamais ce qu'il regarde). La dorsale est un ViT-Large (vision transformer : l'image est découpée en petites tuiles de 16×16 pixels traitées comme les mots d'une phrase ; ici un encodeur de 24 blocs et un décodeur de 8 blocs). Le taux de masquage est de 75 %, et la perte de reconstruction n'est calculée que sur les tuiles cachées.

Le pré-entraînement se fait en deux temps : on part d'un MAE déjà entraîné sur ImageNet (photos du quotidien), puis on l'adapte au domaine sur le jeu radiographique. Ce jeu, baptisé SNUH-1M, compte 1 296 540 radiographies non annotées, extraites du PACS (le système d'archivage d'images) de l'hôpital de l'Université nationale de Séoul entre 2010 et 2016, couvrant 15 régions anatomiques et plus de 89 affections. L'ensemble du pré-entraînement n'a demandé qu'une seule carte graphique RTX A6000 et environ 1 630 heures de calcul — un budget modeste pour un modèle de cette taille.

Pour mesurer ce que le modèle a appris, les auteurs l'adaptent ensuite à 12 tâches diagnostiques sur 7 jeux de données publics : fracture du poignet de l'enfant et sa classification fine (GRAZPEDWRI-DX), détection de fracture et de matériel d'ostéosynthèse (FracAtlas), détection d'anomalie (MURA, 40 005 examens), présence puis caractérisation bénigne/maligne et sous-typage en 9 classes des tumeurs osseuses (BTXRD, issu de trois hôpitaux chinois), gradation de l'arthrose du genou sur l'échelle de Kellgren-Lawrence (OAI), pied plat (PesPlanus) et estimation de l'âge osseux (RSNA Bone Age). Point d'hygiène important : ces jeux publics ont été exclus du pré-entraînement pour éviter toute fuite, et la plupart des évaluations se font sur un échantillon de test mis de côté (10 %) au sein de chaque jeu. SKELEX est comparé à cinq modèles : ResNet-101, deux ViT pré-entraînés sur ImageNet (dont son propre modèle d'initialisation, ViT-MAE/I1K) et deux modèles médicaux auto-supervisés, BiomedCLIP et Radio-DINO. Les auteurs ajoutent un classifieur multi-têtes guidé par la région : un détecteur YOLO11x localise 29 régions anatomiques, puis une tête spécifique à chaque région prend le relais.

Les résultats

Sur l'ensemble des tâches, SKELEX apporte une amélioration relative moyenne de 6,21 % par rapport à son propre modèle d'initialisation, à protocole identique. Le résultat le plus net porte sur la détection de tumeur osseuse, avec une AUROC de 0,953 (l'AUROC, aire sous la courbe ROC, mesure la capacité à distinguer un cas positif d'un négatif : 1,0 est parfait, 0,5 équivaut au hasard) contre 0,884 pour ViT-MAE/I1K, 0,902 pour le ViT pré-entraîné sur ImageNet-21K, 0,903 pour ResNet-101, 0,914 pour BiomedCLIP et 0,867 pour Radio-DINO. Les gains relatifs vont de 5,39 à 12,30 % sur le sous-typage des tumeurs, de 2,78 à 13,47 % sur le pied plat et de 2,20 à 7,66 % sur la classification des fractures du poignet.

Deux résultats sont particulièrement parlants. D'abord la calibration : l'erreur de calibration attendue (ECE — l'écart entre la confiance annoncée par le modèle et son exactitude réelle ; plus elle est basse, plus on peut se fier à la probabilité affichée) tombe à 0,096 sur les tumeurs osseuses contre 0,133 pour le meilleur concurrent, soit une réduction relative d'environ 27,8 %. Ensuite l'efficacité-étiquette : avec seulement 50 % des données annotées, SKELEX atteint une AUROC de 0,941 sur la détection de tumeur — supérieure à la meilleure référence entraînée, elle, sur 100 % des étiquettes (0,914) ; même constat sur MURA (0,855 avec la moitié des étiquettes, contre 0,846 pour la meilleure référence à pleines données). Le classifieur guidé par la région identifie la zone anatomique avec une AUROC moyenne de 0,999 et conserve une AUROC supérieure à 0,9 sur toutes les classifications d'anomalies. Les écarts sont étayés par un test statistique de rééchantillonnage (bootstrap apparié, 5 000 tirages), avec des p-values souvent inférieures à 0,001.

Traduction clinique. Une AUROC de 0,953 est obtenue sur un jeu de test équilibré (1 867 tumeurs pour 1 879 cas sans tumeur). Or, en population réelle, une tumeur osseuse est rare : à prévalence faible, la même AUROC se traduit par un nombre absolu de faux positifs bien plus élevé qu'il n'y paraît — autant d'examens complémentaires et d'inquiétudes injustifiées. Le résultat le plus utile en pratique n'est donc pas le chiffre brut de détection, mais l'efficacité-étiquette : un service disposant de peu de cas annotés — typiquement pour une affection rare — pourrait adapter le modèle à moindre coût. Reste qu'il s'agit d'évaluations rétrospectives sur des échantillons mis de côté, pas d'un test en conditions cliniques réelles.

Ce qui est bien

L'échelle du pré-entraînement et un gain d'efficacité-étiquette mesuré. Pré-entraîner sans étiquettes sur 1,3 million de radiographies, puis montrer que le modèle atteint avec 50 % des annotations ce que les concurrents font avec 100 %, attaque le vrai goulot d'étranglement de l'IA musculosquelettique : le coût d'annotation par des experts. Le gain est chiffré (0,941 contre 0,914 sur les tumeurs à moitié moins d'étiquettes), pas seulement affirmé.

Une hygiène méthodologique inhabituelle. Les jeux publics d'évaluation ont été délibérément exclus du pré-entraînement pour éviter le data leakage (fuite de données, quand des images de test se retrouvent à l'entraînement et gonflent artificiellement les scores). Là où le découpage ne pouvait se faire par patient, les auteurs ont traqué les doublons par similarité d'image (SSIM) et empreinte MD5, et ils publient les effectifs positifs/négatifs « par transparence ». Ce niveau de précaution est rare.

La calibration est rapportée, pas seulement l'AUROC. Mesurer l'ECE et obtenir la meilleure calibration (–27,8 % sur BTXRD) compte cliniquement : un modèle bien calibré dit « je suis sûr à 80 % » quand il a effectivement raison 80 % du temps, ce qui est indispensable pour qu'un clinicien sache jusqu'où s'y fier. Le code et les poids sont par ailleurs déposés sur GitHub et un prototype web est accessible.

Ce qui est moins bien

Un seul hôpital, un seul pays : le biais de population n'est pas écarté. Les 1,3 million d'images viennent toutes du même établissement coréen, sur 2010-2016 — mêmes appareils, mêmes protocoles, même population. Rien ne garantit la généralisation à d'autres machines, d'autres pays, d'autres morphologies, et les auteurs le reconnaissent. Surtout, la vraie validation externe (sur des données d'origine indépendante) ne porte que sur une seule des douze applications, la tumeur osseuse ; les onze autres sont évaluées sur des échantillons mis de côté à l'intérieur des jeux publics. Et les deux sources externes utilisées pour les tumeurs (Radiopaedia, MedPix) sont des banques d'images pédagogiques sélectionnées — pas des cohortes cliniques consécutives, ce qui introduit un biais de sélection.

Pas de radiologue en face, et des métriques qui flattent. Malgré un discours fondé sur la pénurie de radiologues, aucune comparaison directe homme-machine chiffrée n'est rapportée : le comparateur reste algorithmique. Par ailleurs certaines mesures invitent à la prudence — une AUROC de 0,999 pour l'identification de la région anatomique, ou des jeux de test parfaitement équilibrés (1 867 contre 1 879) qui ne reflètent pas la prévalence réelle, sont des cas classiques de métrique trompeuse : excellents sur le banc d'essai, ils ne préjugent pas de la performance au seuil opérationnel réel. Le « 6,21 % » de progrès moyen, enfin, se mesure par rapport au seul modèle d'initialisation.

Fuite résiduelle possible, résolution réduite, reproductibilité bornée. Pour FracAtlas, BTXRD et PesPlanus, le découpage train/test s'est fait au niveau de l'image et non du patient : malgré les contrôles SSIM et MD5, deux clichés d'un même patient peuvent se retrouver de part et d'autre, une porte ouverte au data leakage. Le passage obligé en 224×224 pixels peut effacer des signes fins — fracture non déplacée, fine lucence médullaire d'une tumeur — ce que les auteurs admettent. Enfin, les données de pré-entraînement ne sont pas diffusées, les poids le sont « pour le seul usage de recherche académique » et l'article est sous licence CC BY-NC-ND (pas de réutilisation commerciale, pas de dérivés) : la reproductibilité indépendante et tout déploiement réel restent bornés. Aucun marquage CE ni autorisation FDA n'est mentionné. Le financement (organismes publics coréens : KHIDI/ministère de la Santé, KUCRF, MOTIE, programme BK21) et l'absence de conflit d'intérêts sont correctement déclarés.

Ce que ça change

Pour la communauté de recherche, SKELEX confirme que la recette des foundation models — pré-entraînement auto-supervisé massif puis adaptation économe en étiquettes — fonctionne aussi sur la radiographie de l'appareil locomoteur, un domaine jusqu'ici dépourvu de grand modèle généraliste. La mise à disposition des poids pour la recherche permet à d'autres équipes de construire dessus. Les suites attendues sont claires : un pré-entraînement multi-centres et multi-pays, une validation externe au niveau du patient étendue aux douze tâches, une résolution plus élevée, et enfin une comparaison aux radiologues.

Pour les cliniciens, l'outil n'est pas déployable aujourd'hui : c'est un prototype de recherche (une démonstration web existe), sans aucune validation prospective, sans comparaison à la lecture humaine et sans autorisation réglementaire. Son intérêt potentiel à moyen terme est double : abaisser le coût d'annotation pour les affections rares, et servir un jour d'aide au tri ou de second regard — jamais d'acte diagnostique autonome.

Pour les patients et le public, la promesse est celle d'une IA musculosquelettique plus large et moins coûteuse, utile en particulier sur des situations rares comme les tumeurs osseuses. La prudence reste de mise : un modèle performant sur des radiographies coréennes rétrospectives n'est pas, en l'état, validé pour interpréter votre cliché. Une prédiction n'est pas un diagnostic, et la décision demeure du ressort de l'équipe soignante.

Pour aller plus loin

L'article est en accès libre dans npj Digital Medicine : nature.com/articles/s41746-026-02826-9 (DOI 10.1038/s41746-026-02826-9) ; le code et les poids sont sur github.com/skhoha/SKELEX et un prototype web sur bonetudx.org. Sur l'idée de foundation model en imagerie médicale et la question des données mono-source, voir notre décryptage de GigaPath en pathologie numérique. Sur la traduction d'une performance d'imagerie en valeur pronostique réelle, voir notre décryptage du modèle de phénotypage histomorphologique de Yang 2026.