SKELEX: un foundation model entrenado con 1,3 millones de radiografías para leer el hueso, del quiste a la fractura (Kim et al. 2026, npj Digital Medicine)

Shinn Kim, Soobin Lee, Kyoungseob Shin, Han-Soo Kim, Yongsung Kim, Minsu Kim, Juhong Nam, Somang Ko, Daeheon Kwon, Wook Huh, Ilkyu Han y Sunghoon Kwon (Universidad Nacional de Seúl) publican en npj Digital Medicine el 2 de junio de 2026 SKELEX, presentado como el primer foundation model a gran escala dedicado a las radiografías del aparato locomotor. Un autoencoder enmascarado con dorsal ViT-Large se preentrena, sin etiqueta alguna, con 1 296 540 radiografías de un solo hospital coreano entre 2010 y 2016, y luego se adapta a 12 tareas diagnósticas evaluadas en 7 conjuntos de datos públicos. El modelo supera a cinco referencias en un 6,21 % de media relativa —por ejemplo una AUROC de 0,953 frente a 0,884 de su propio modelo de inicialización en la detección de tumor óseo—, está mejor calibrado que sus competidores y alcanza el nivel de los mejores con la mitad de las etiquetas. Es una demostración sólida del valor del preentrenamiento autosupervisado específico de un dominio; debe leerse, no obstante, a la luz de datos de entrenamiento de un solo centro y un solo país, una verdadera validación externa limitada solo al tumor óseo, la ausencia de comparación directa con radiólogos, una resolución reducida a 224×224 y pesos publicados únicamente para uso académico.

El contexto

La radiografía es la prueba de imagen más frecuente del mundo, y el aparato locomotor —huesos, articulaciones— concentra una parte enorme: fracturas, artrosis, tumores óseos, deformidades. Pero la interpretación depende de radiólogos cuyo número no sigue el ritmo del volumen de pruebas. El aprendizaje profundo promete ayuda desde hace años, pero casi siempre de forma estrecha: un modelo entrenado de manera supervisada (a partir de imágenes etiquetadas una a una por un experto) para una sola tarea, en un solo conjunto de datos. Cada nueva pregunta —detectar una fractura de muñeca, graduar una artrosis de rodilla, localizar un tumor— exige empezar de cero y reanotar miles de imágenes, lo que es lento y costoso.

La idea del foundation model (modelo de fundación) invierte esa lógica. Primero se preentrena una gran red de forma autosupervisada —sin etiquetas, haciéndole aprender la estructura de las propias imágenes— sobre una masa de datos, y luego se adapta a numerosas tareas posteriores con pocos ejemplos anotados. Esta receta ya ha transformado la patología digital (con GigaPath) y la radiografía de tórax. El aparato locomotor, en cambio, aún no tenía su gran modelo generalista. SKELEX (por musculoSKELEtal X-ray) se presenta como el primero en llenar ese vacío.

El método

El artículo (npj Digital Medicine, 10.1038/s41746-026-02826-9, recibido el 16 de enero, aceptado el 21 de mayo, publicado el 2 de junio de 2026, en acceso libre bajo licencia CC BY-NC-ND) se basa en un autoencoder enmascarado (MAE: se oculta al azar una gran parte de la imagen y se entrena a la red a reconstruir las zonas faltantes —así aprende a representar la anatomía sin que se le diga nunca qué está mirando). La dorsal es un ViT-Large (vision transformer: la imagen se divide en pequeñas casillas de 16×16 píxeles tratadas como las palabras de una frase; aquí un codificador de 24 bloques y un decodificador de 8 bloques). La tasa de enmascaramiento es del 75 % y la pérdida de reconstrucción se calcula solo en las casillas ocultas.

El preentrenamiento se hace en dos tiempos: se parte de un MAE ya entrenado con ImageNet (fotos cotidianas) y luego se lo adapta al dominio con el conjunto radiográfico. Ese conjunto, llamado SNUH-1M, cuenta con 1 296 540 radiografías sin etiquetar, extraídas del PACS (el sistema de archivo de imágenes) del Hospital de la Universidad Nacional de Seúl entre 2010 y 2016, que cubren 15 regiones anatómicas y más de 89 afecciones. Todo el preentrenamiento solo requirió una única tarjeta gráfica RTX A6000 y unas 1 630 horas de cálculo —un presupuesto modesto para un modelo de este tamaño.

Para medir lo que el modelo aprendió, los autores lo adaptan después a 12 tareas diagnósticas en 7 conjuntos de datos públicos: fractura de muñeca pediátrica y su clasificación fina (GRAZPEDWRI-DX), detección de fractura y de material de osteosíntesis (FracAtlas), detección de anomalía (MURA, 40 005 estudios), presencia y luego caracterización benigno/maligno y subtipado en 9 clases de los tumores óseos (BTXRD, de tres hospitales chinos), gradación de la artrosis de rodilla en la escala de Kellgren-Lawrence (OAI), pie plano (PesPlanus) y estimación de la edad ósea (RSNA Bone Age). Un punto de higiene importante: estos conjuntos públicos se excluyeron del preentrenamiento para evitar cualquier fuga, y la mayoría de las evaluaciones se hacen sobre una muestra de prueba apartada (10 %) dentro de cada conjunto. SKELEX se compara con cinco modelos: ResNet-101, dos ViT preentrenados con ImageNet (incluido su propio modelo de inicialización, ViT-MAE/I1K) y dos modelos médicos autosupervisados, BiomedCLIP y Radio-DINO. Los autores añaden un clasificador multicabeza guiado por la región: un detector YOLO11x localiza 29 regiones anatómicas y luego una cabeza específica de cada región toma el relevo.

Los resultados

En el conjunto de las tareas, SKELEX aporta una mejora relativa media del 6,21 % respecto a su propio modelo de inicialización, con protocolo idéntico. El resultado más claro es la detección de tumor óseo, con una AUROC de 0,953 (la AUROC, área bajo la curva ROC, mide la capacidad de distinguir un caso positivo de uno negativo: 1,0 es perfecto, 0,5 equivale al azar) frente a 0,884 de ViT-MAE/I1K, 0,902 del ViT preentrenado con ImageNet-21K, 0,903 de ResNet-101, 0,914 de BiomedCLIP y 0,867 de Radio-DINO. Las ganancias relativas van del 5,39 al 12,30 % en el subtipado de tumores, del 2,78 al 13,47 % en el pie plano y del 2,20 al 7,66 % en la clasificación de las fracturas de muñeca.

Dos resultados son especialmente elocuentes. Primero, la calibración: el error de calibración esperado (ECE —la diferencia entre la confianza que anuncia el modelo y su exactitud real; cuanto más baja, más fiable es la probabilidad mostrada) cae a 0,096 en los tumores óseos frente a 0,133 del mejor competidor, una reducción relativa de en torno al 27,8 %. Segundo, la eficiencia de etiquetas: con solo el 50 % de los datos anotados, SKELEX alcanza una AUROC de 0,941 en la detección de tumor —superior a la mejor referencia entrenada con el 100 % de las etiquetas (0,914)—; lo mismo ocurre en MURA (0,855 con la mitad de las etiquetas, frente a 0,846 de la mejor referencia con datos completos). El clasificador guiado por la región identifica la zona anatómica con una AUROC media de 0,999 y mantiene una AUROC superior a 0,9 en todas las clasificaciones de anomalías. Las diferencias se respaldan con una prueba estadística de remuestreo (bootstrap apareado, 5 000 sorteos), con p-valores a menudo inferiores a 0,001.

Traducción clínica. Una AUROC de 0,953 se obtiene en un conjunto de prueba equilibrado (1 867 tumores frente a 1 879 casos sin tumor). Ahora bien, en población real, un tumor óseo es raro: a baja prevalencia, la misma AUROC se traduce en un número absoluto de falsos positivos mucho mayor de lo que parece —otras tantas pruebas complementarias y angustias injustificadas. El resultado más útil en la práctica no es, pues, la cifra bruta de detección, sino la eficiencia de etiquetas: un servicio con pocos casos anotados —típicamente para una afección rara— podría adaptar el modelo a menor coste. Aun así, se trata de evaluaciones retrospectivas sobre muestras apartadas, no de una prueba en condiciones clínicas reales.

Lo que está bien

La escala del preentrenamiento y una ganancia de eficiencia de etiquetas medida. Preentrenar sin etiquetas con 1,3 millones de radiografías y luego mostrar que el modelo alcanza con el 50 % de las anotaciones lo que los competidores logran con el 100 % ataca el verdadero cuello de botella de la IA musculoesquelética: el coste de la anotación por expertos. La ganancia está cuantificada (0,941 frente a 0,914 en tumores con la mitad de las etiquetas), no solo afirmada.

Una higiene metodológica poco habitual. Los conjuntos públicos de evaluación se excluyeron deliberadamente del preentrenamiento para evitar el data leakage (fuga de datos, cuando imágenes de prueba acaban en el entrenamiento e inflan artificialmente las puntuaciones). Allí donde la partición no podía hacerse por paciente, los autores rastrearon duplicados por similitud de imagen (SSIM) y huella MD5, y publican los efectivos positivos/negativos «por transparencia». Este nivel de precaución es raro.

Se informa de la calibración, no solo de la AUROC. Medir el ECE y obtener la mejor calibración (–27,8 % en BTXRD) importa clínicamente: un modelo bien calibrado dice «estoy seguro al 80 %» cuando efectivamente acierta el 80 % de las veces, lo que es indispensable para que un clínico sepa hasta dónde fiarse. El código y los pesos están además depositados en GitHub y un prototipo web es accesible.

Lo que está menos bien

Un solo hospital, un solo país: el sesgo de población no está descartado. Los 1,3 millones de imágenes provienen todas del mismo centro coreano, entre 2010 y 2016 —mismos aparatos, mismos protocolos, misma población. Nada garantiza la generalización a otras máquinas, otros países, otras morfologías, y los autores lo reconocen. Sobre todo, la verdadera validación externa (con datos de origen independiente) cubre solo una de las doce aplicaciones, el tumor óseo; las otras once se evalúan sobre muestras apartadas dentro de los conjuntos públicos. Y las dos fuentes externas usadas para los tumores (Radiopaedia, MedPix) son bancos de imágenes pedagógicas seleccionadas —no cohortes clínicas consecutivas, lo que introduce un sesgo de selección.

Ningún radiólogo enfrente, y métricas que halagan. Pese a un discurso basado en la escasez de radiólogos, no se reporta ninguna comparación directa cuantificada entre persona y máquina: el comparador sigue siendo algorítmico. Además, algunas mediciones invitan a la prudencia —una AUROC de 0,999 para la identificación de la región anatómica, o conjuntos de prueba perfectamente equilibrados (1 867 frente a 1 879) que no reflejan la prevalencia real, son casos clásicos de métrica engañosa: excelentes en el banco de pruebas, no anticipan el rendimiento al umbral operativo real. El «6,21 %» de progreso medio, por último, se mide solo respecto al modelo de inicialización.

Posible fuga residual, resolución reducida, reproducibilidad acotada. Para FracAtlas, BTXRD y PesPlanus, la partición train/test se hizo a nivel de imagen y no de paciente: pese a los controles SSIM y MD5, dos placas de un mismo paciente pueden quedar a ambos lados, una puerta abierta al data leakage. El paso obligado a 224×224 píxeles puede borrar signos finos —fractura no desplazada, fina lucencia medular de un tumor— como admiten los autores. Por último, los datos de preentrenamiento no se difunden, los pesos se publican «solo para uso de investigación académica» y el artículo está bajo licencia CC BY-NC-ND (sin reutilización comercial, sin derivados): la reproducibilidad independiente y cualquier despliegue real siguen acotados. No se menciona ningún marcado CE ni autorización de la FDA. La financiación (organismos públicos coreanos: KHIDI/Ministerio de Salud, KUCRF, MOTIE, programa BK21) y la ausencia de conflicto de intereses se declaran correctamente.

Lo que cambia

Para la comunidad de investigación, SKELEX confirma que la receta de los foundation models —preentrenamiento autosupervisado masivo y luego adaptación económica en etiquetas— también funciona en la radiografía del aparato locomotor, un dominio hasta ahora sin gran modelo generalista. La puesta a disposición de los pesos para la investigación permite que otros equipos construyan sobre ellos. Las continuaciones esperadas son claras: un preentrenamiento multicéntrico y multipaís, una validación externa a nivel de paciente extendida a las doce tareas, una resolución más alta y, por fin, una comparación con los radiólogos.

Para los clínicos, la herramienta no es desplegable hoy: es un prototipo de investigación (existe una demostración web), sin validación prospectiva alguna, sin comparación con la lectura humana y sin autorización regulatoria. Su interés potencial a medio plazo es doble: rebajar el coste de anotación para las afecciones raras y servir algún día de ayuda al triaje o de segunda mirada —nunca de acto diagnóstico autónomo.

Para los pacientes y el público, la promesa es la de una IA musculoesquelética más amplia y menos costosa, útil en particular en situaciones raras como los tumores óseos. Conviene mantener la prudencia: un modelo que rinde bien con radiografías coreanas retrospectivas no está, tal cual, validado para interpretar su propia placa. Una predicción no es un diagnóstico, y la decisión sigue siendo responsabilidad del equipo asistencial.

Para saber más

El artículo está en acceso libre en npj Digital Medicine: nature.com/articles/s41746-026-02826-9 (DOI 10.1038/s41746-026-02826-9); el código y los pesos están en github.com/skhoha/SKELEX y un prototipo web en bonetudx.org. Sobre la idea de foundation model en imagen médica y la cuestión de los datos de fuente única, véase nuestro análisis de GigaPath en patología digital. Sobre la traducción de un rendimiento de imagen en valor pronóstico real, véase nuestro análisis del modelo de fenotipado histomorfológico de Yang 2026.