SHAP y SVM para predecir la trombosis venosa profunda tras cirugía por cáncer de endometrio (estudio Zhou 2026, npj Digital Medicine)

Qing Zhou, Fudan Liu, Donghong Wang y colegas (Universidad Médica de Zunyi, Guizhou, y Naval Medical University, Shanghái) publican el 27 de mayo de 2026 en npj Digital Medicine un modelo de machine learning explicable que predice la trombosis venosa profunda de las extremidades inferiores (TVPEI) tras cirugía por cáncer de endometrio, sobre 841 pacientes en la cohorte de derivación y 95 en la cohorte de validación externa. El modelo final es una Support Vector Machine (SVM) con cuatro variables — dímero D postoperatorio, edad, fibrinógeno, estadio clínico FIGO — con un AUC de 0,828 en validación interna y 0,819 en validación externa, complementado con explicaciones SHAP que descomponen cada predicción individual. Lectura importante porque ilustra la maduración de las herramientas interpretables en oncología perioperatoria, pero a manejar con prudencia: las imágenes diagnósticas se realizaron por síntomas (sesgo de detección reconocido por los autores), la cohorte es íntegramente china, el dímero D se mide entre 24 y 48 h tras la cirugía (a veces después del inicio silencioso del trombo) y no se reporta ninguna comparación frontal con los scores Caprini o Wells.

El contexto

El cáncer de endometrio es, en los países desarrollados, el cáncer ginecológico pélvico más frecuente; la atención estándar sigue siendo la cirugía de estadificación (histerectomía total con anexectomía bilateral, eventualmente linfadenectomía). La trombosis venosa profunda de las extremidades inferiores (TVPEI) es una complicación postoperatoria clásica, capaz de evolucionar a una embolia pulmonar potencialmente mortal si no se detecta a tiempo. La prevención actual se basa en scores clínicos estáticos — Caprini, Wells, Khorana — que combinan unos pocos factores (edad, antecedentes, IMC, anestesia, tipo de cirugía) y activan una profilaxis farmacológica o mecánica.

El problema bien documentado es que estos scores fueron desarrollados sobre cohortes mixtas (cirugía general, ortopedia, medicina interna) y rinden mal en oncología ginecológica. Tampoco integran los biomarcadores dinámicos postoperatorios (dímero D en particular) ni las características tumorales específicas (estadio FIGO, invasión linfovascular). De ahí el aumento — desde 2020 — de modelos de machine learning que explotan el conjunto de los datos perioperatorios del expediente electrónico. El nicho del trabajo aquí discutido es preciso: modelo dedicado a la cirugía del cáncer de endometrio, predicción individualizada y, sobre todo, interpretabilidad mediante SHAP para superar el muro de la «caja negra» que aún frena la adopción clínica.

El método

El estudio está dirigido por Lin Xu (Laboratorio Clave de Prevención y Tratamiento del Cáncer de la Provincia de Guizhou), Yonghu Chang (Facultad de Ingeniería de la Información Médica, Universidad Médica de Zunyi) y Donghong Wang (Departamento de Obstetricia y Ginecología, Hospital Afiliado de Zunyi). Artículo publicado el 27 de mayo de 2026 en npj Digital Medicine, DOI 10.1038/s41746-026-02782-4, bajo licencia CC BY 4.0. Financiación pública china (programas Qiankehe, Comisión de Salud del Guizhou). Los autores declaran ningún conflicto de interés financiero ni no financiero. El código se anuncia en acceso libre en github.com/cyh407; los datos quedan disponibles «previa solicitud razonable» con acuerdo de uso de datos.

El conjunto de datos retrospectivo comprende 841 pacientes operadas por cáncer de endometrio entre octubre de 2011 y marzo de 2026 en cinco hospitales de la provincia de Guizhou (Hospital Afiliado de Zunyi, Hospital Provincial del Pueblo de Guizhou en Guiyang, Hospital de Yanhe, Tercer Hospital Afiliado de Zunyi, Hospital Materno-Infantil de Liupanshui). El criterio compuesto «TVPEI postoperatoria» agrupa toda trombosis venosa profunda ocurrida en los 30 días tras la intervención y confirmada por ecografía Doppler color o flebografía por TC. De las 841 pacientes, 72 (8,6 %) desarrollaron TVPEI. La cohorte de derivación se divide 80/20 (entrenamiento n=673, validación interna n=168); una cohorte externa independiente de 95 pacientes reclutadas entre abril de 2025 y marzo de 2026 sirve como prueba.

Veintisiete variables perioperatorias se retienen tras filtrado de multicolinealidad (V de Cramér para discretas, Pearson para continuas). Veintiséis algoritmos de clasificación se comparan (NearestCentroid, BernoulliNB, RandomForest, AdaBoost, SVM, Regresión Logística, XGBoost, LightGBM, etc.) bajo cinco estrategias de reequilibrio (ninguna, sobremuestreo aleatorio, SMOTE, SMOTE-Tomek, ADASYN). El sobremuestreo aleatorio — que simplemente duplica ejemplos de la clase minoritaria — se selecciona como estrategia óptima en función del AUC medio. La validación cruzada estratificada en 5 pliegues afina los hiperparámetros, con reequilibrio aplicado únicamente dentro de los pliegues de entrenamiento para evitar fugas hacia los pliegues de validación.

Se aplica luego una Eliminación Recursiva de Características (RFE) a cada uno de los seis modelos más estables. La SVM alcanza el mejor compromiso rendimiento-parsimonia con solo cuatro variables: dímero D postoperatorio (medido entre 24 y 48 h tras la cirugía), edad, fibrinógeno y estadio clínico FIGO. La Support Vector Machine (SVM) es un clasificador que busca un hiperplano separador óptimo en un espacio de características transformado; sus decisiones se consideran habitualmente una «caja negra». Para corregir esa opacidad, los autores aplican SHAP (SHapley Additive exPlanations), un método derivado de la teoría de juegos que atribuye a cada variable una contribución cuantificada a la predicción de un paciente concreto, y que puede agregarse para obtener una importancia global. Las gráficas de dependencia SHAP visualizan las asociaciones no lineales de cada variable con el riesgo predicho.

Los resultados

El rendimiento ML reportado es el siguiente: AUC = 0,823 en el conjunto de entrenamiento, 0,828 (IC95 % 0,706–0,905) en validación interna, 0,819 en la cohorte externa. La calibración se califica como buena en ambos conjuntos independientes (curvas de calibración mostradas, sin prueba de Hosmer-Lemeshow ni puntuación de Brier). El Análisis de Curva de Decisión (DCA) muestra un beneficio neto positivo en un rango de umbrales de riesgo de 5 % a 52 %. No se reporta ningún valor de sensibilidad, especificidad, valor predictivo positivo ni negativo al umbral operativo en el texto principal — un vacío notable para una herramienta destinada a desencadenar profilaxis.

El análisis SHAP revela relaciones cualitativamente útiles. El dímero D postoperatorio presenta una correlación monótona positiva con el riesgo (importancia media |SHAP| = 0,06, la más alta). La edad muestra una asociación en U: los valores extremos — pacientes jóvenes con biología tumoral agresiva, o pacientes mayores con disfunción endotelial — aumentan el riesgo, el rango medio es neutro. El fibrinógeno es protector en valores bajos y luego se convierte en factor de riesgo más allá de un umbral estandarizado de aproximadamente 2. El estadio FIGO incrementa el riesgo de forma creciente. El modelo se encapsula después en un prototipo de interfaz web que devuelve una probabilidad individual y un force plot SHAP a partir de los cuatro valores introducidos.

Traducción clínica. Sobre 1.000 pacientes operadas por cáncer de endometrio a las que se aplicaría este modelo en rutina, aproximadamente 86 desarrollarían una TVPEI sintomática en los 30 días postoperatorios según la tasa base observada. Al umbral DCA de 8 %, el modelo clasificaría probablemente como «alto riesgo» entre 200 y 300 pacientes (la cifra exacta no se da), de las cuales aproximadamente la mitad serían verdaderos positivos. En la práctica, desplegada tal cual, la herramienta orientaría hacia una profilaxis reforzada (heparina de bajo peso molecular prolongada, compresión neumática intermitente, movilización precoz protocolizada) a algo más de una paciente de cada cuatro, y liberaría a los tres cuartos restantes de una profilaxis sistemática. Pero la traducción exacta depende del umbral elegido y del coste relativo de falsos positivos frente a falsos negativos, que el artículo deja a la discreción de los clínicos.

Lo que está bien

Tres fortalezas específicas.

El enfoque metodológico del comparador interno es riguroso. Los autores prueban 26 algoritmos bajo 5 estrategias de reequilibrio, con validación cruzada estratificada de 5 pliegues y reequilibrio aislado en los pliegues de entrenamiento. Esta disciplina contra fugas de información se hace explícita en la sección Métodos — demasiados artículos competidores la omiten. El análisis RFE multi-modelo refuerza la elección final de las cuatro variables: no es un único modelo el que decide, sino un consenso.

El esfuerzo de interpretabilidad es serio y operativo. SHAP no es un simple adorno post-hoc aquí: los autores extraen una lectura clínica de las asociaciones no lineales (forma en U para la edad, umbral para el fibrinógeno) y entregan una interfaz web prototipo con force plot individualizado. Esto responde a una demanda real de los clínicos, que rechazan los modelos no explicables incluso con AUC alto. La coherencia entre las contribuciones identificadas y la fisiopatología conocida (dímero D = activación fibrinolítica, fibrinógeno = inflamación/hipercoagulabilidad) refuerza la plausibilidad.

La validación externa existe y la cohorte es multicéntrica. Cinco hospitales participan en la derivación, y un subconjunto más reciente (abril 2025 – marzo 2026, n=95) constituye la prueba externa. El AUC casi idéntico entre interno (0,828) y externo (0,819) es un indicio fuerte de que el modelo no está groseramente sobreajustado al hospital principal. El código Python se anuncia público en GitHub, lo que permitiría al menos la reproducción computacional.

Lo que está menos bien

Tres limitaciones precisas.

Las imágenes se realizan por síntomas — un sesgo de detección mayor que cambia la naturaleza del objetivo. Los autores lo reconocen en la discusión: el Doppler o la flebografía por TC no fueron sistemáticos, sino realizados ante signos clínicos o anomalías biológicas. La etiqueta «TVPEI» en el conjunto de datos no es entonces «toda TVPEI ocurrida» sino «TVPEI sintomática detectada por la práctica habitual». Las trombosis asintomáticas — que pueden ser mayoría en series quirúrgicas — están ausentes. Es un caso de manual del modo de fallo shortcut learning: el modelo aprende a predecir la combinación «paciente a quien los clínicos decidieron hacer imágenes» más que la patología en sí. Cualquier generalización a un contexto de cribado sistemático requeriría una revalidación prospectiva con imágenes protocolizadas.

La ausencia de comparación frontal con los scores existentes es difícil de justificar. Caprini, Wells y Khorana se nombran en la introducción como la referencia a batir, pero ninguna tabla muestra su AUC en esta cohorte ni la diferencia estadística con la SVM de cuatro variables. Más problemático aún: la regresión logística forma parte de los seis modelos estables y usa las mismas cuatro variables, pero sus cifras finales no se comparan directamente con la SVM. Dado que los cuatro predictores retenidos (dímero D, edad, fibrinógeno, estadio) son variables continuas u ordinales para las que la regresión logística suele ser competitiva, el argumento de que la SVM aporta valor no está demostrado. Esto remite al modo de fallo comparador sesgado.

La cohorte es íntegramente china y la medida «predictiva» es postoperatoria. Las 841 + 95 pacientes proceden todas de Guizhou o Shanghái. No se presenta ninguna validación occidental. Las distribuciones de estadio FIGO, la edad mediana a la cirugía (53 años) y los protocolos de profilaxis difieren de los observados en Europa o América del Norte. Es el sesgo de población clásico. A ello se añade una debilidad de diseño: el dímero D se mide 24 a 48 h después de la cirugía. Para entonces, una trombosis silenciosa puede haber comenzado a formarse y el dímero D actúa tanto como marcador precoz del evento a detectar como predictor de un evento por venir. La herramienta es entonces menos un «predictor preoperatorio» que una «ayuda a la detección precoz postoperatoria» — útil, pero con un marco de uso distinto al sugerido por la introducción.

Lo que cambia

Para la comunidad de investigación en oncología perioperatoria con IA, el artículo confirma una tendencia de fondo: desde 2024, los modelos de predicción de complicaciones postoperatorias integran casi sistemáticamente un módulo de interpretabilidad (SHAP, LIME, mapas de atención). Lo que distingue a este trabajo es el esfuerzo de parsimonia — reducir a cuatro variables — y la entrega de un prototipo de interfaz web. Tres consecuencias previsibles: los próximos artículos competidores deberán incluir una comparación frontal con los scores clínicos validados; la comunidad SHAP deberá aclarar los límites de interpretabilidad cuando las variables están fuertemente correlacionadas (dímero D y fibrinógeno lo están); los reguladores deberán pronunciarse sobre el estatus SaMD de una interfaz web que produce probabilidades individuales.

Para los oncólogos ginecólogos y equipos de cirugía perioperatoria, el mensaje es de prudencia positiva. El modelo, en su forma actual, no está listo para un despliegue clínico generalizado: ninguna validación occidental, sesgo de detección reconocido, ausencia de comparación Caprini/Wells, datos disponibles solo «bajo petición». Haría falta, como mínimo, un estudio prospectivo con imágenes protocolizadas para todas las pacientes para estimar el rendimiento real del modelo, seguido de una comparación head-to-head con los scores estándar sobre criterios duros (TVPEI confirmada, embolia pulmonar, hemorragias bajo profilaxis). Mientras tanto, el interés principal del artículo es pedagógico: documenta una buena práctica de pipeline ML interpretable que otros equipos podrán replicar.

Para las pacientes y el público, la enseñanza útil es que la medicina de precisión perioperatoria está llegando — un modelo que decide paciente por paciente si la profilaxis antitrombótica debe intensificarse o aligerarse. Pero la introducción de tal herramienta en una consulta preoperatoria deberá acompañarse de una explicación honesta: se trata de un soporte probabilístico basado en una cohorte precisa, no de una certeza individual. Una paciente a quien se anuncia un «riesgo calculado en 12 %» tiene derecho a saber sobre qué población se validó el modelo, si se parece a esa población y cuál habría sido la profilaxis estándar sin modelo. La transparencia SHAP del lado del clínico solo tiene valor si se traduce en transparencia del lado de la paciente.

Para profundizar

El artículo completo está en acceso libre en el sitio de npj Digital Medicine: nature.com/articles/s41746-026-02782-4. El código se anuncia en GitHub. Para la crítica de la explicabilidad en salud, véase el artículo de referencia de Ghassemi, Oakden-Rayner y Beam (Lancet Digit Health 2021) que los propios autores citan. Para las recomendaciones ASCO 2020 sobre profilaxis del tromboembolismo venoso en oncología, véase Key et al., JCO 2020. Para nuestra cobertura de modelos de personalización terapéutica en oncología, véase nuestro análisis del estudio Liu 2026 sobre mixture-of-experts en cáncer de recto.