UNet-MoE-Cli: un mixture-of-experts para personalizar el neoadyuvante del cáncer de recto (Liu 2026, npj Digital Medicine)
Xiangyu Liu, Yuanling Tang, Song Zhang y colegas (Xidian University, West China Hospital de la Universidad de Sichuan, Instituto de Automatización de la Academia China de Ciencias) publicaron el 26 de mayo de 2026 en npj Digital Medicine UNet-MoE-Cli, un modelo de deep learning «mixture of experts» de compuerta dura que combina IRM multiparamétrica pretratamiento y variables clínicas para estimar, en cada paciente con cáncer de recto localmente avanzado, la probabilidad de respuesta patológica completa (pCR) bajo tres regímenes neoadyuvantes: radioquimioterapia estándar (nCRT), terapia neoadyuvante total (TNT) y quimioterapia sola (nCT). Sobre 855 pacientes (760 retrospectivos en tres centros chinos y 95 prospectivos bajo ChiCTR2400085797), el AUC alcanza 0,827 en validación interna y 0,790 en la cohorte prospectiva. El modelo recomienda escalada terapéutica en el 53 % de los pacientes y desescalada en el 6 %. Lectura importante porque empuja más lejos la promesa de una oncología guiada por datos, pero a manejar con precaución: la sensibilidad se queda en 0,45–0,53, el beneficio estimado de la escalada lo calcula el propio modelo, el experto nCT está entrenado en un solo centro, y la cohorte es enteramente china.
El contexto
El cáncer de recto localmente avanzado (LARC, estadios cT3-4 o cN+ sin metástasis) representa cerca del 40 % de los nuevos diagnósticos de cáncer rectal. Durante veinte años, el estándar de cuidado ha pasado de la radioquimioterapia larga preoperatoria (nCRT, unos 50 Gy en 25–28 fracciones con capecitabina) a la total neoadjuvant therapy (TNT, que añade 4 a 6 ciclos de CAPOX antes o después de la irradiación), y luego a estrategias puramente quimioterápicas sin radiación (nCT) para subgrupos seleccionados. Los ensayos PRODIGE-23 (Francia, 2020), RAPIDO (Países Bajos, 2020) y OPRA (Estados Unidos, 2022) consagraron la TNT como régimen de referencia para tumores de alto riesgo, aumentando las tasas de respuesta patológica completa (pCR) — desaparición completa del tumor en la pieza quirúrgica — del 14 % bajo nCRT al 28 % bajo TNT.
El problema es que esta intensificación se aplica a nivel poblacional, no individual. Un paciente que habría respondido a una nCRT corta recibe seis meses adicionales de quimioterapia y toda su toxicidad; un paciente destinado a no responder sufre el mismo protocolo largo sin beneficio. Los scores clínicos actuales (NCCN, MERCURY-2) estratifican el riesgo pero no predicen la respuesta a cada régimen específico. Este es precisamente el hueco que apunta el artículo: no un clasificador de riesgo, sino un modelo de respuesta contrafactual, capaz de estimar «esta paciente tendría X % de probabilidad de pCR bajo TNT, Y % bajo nCRT, Z % bajo nCT».
El método
El estudio está dirigido por Xin Wang (Cancer Center, West China Hospital, Universidad de Sichuan), Zhenyu Liu y Jie Tian (Instituto de Automatización de la Academia China de Ciencias). Publicado el 26 de mayo de 2026 en npj Digital Medicine, DOI 10.1038/s41746-026-02798-w, bajo licencia CC BY-NC-ND 4.0. Financiación pública china (National Key R&D Program 2024YFF1207400, NSFC 62333022 y otras). Los autores declaran no tener conflictos de interés. ChatGPT se usó para la edición lingüística.
El conjunto retrospectivo comprende 760 pacientes tratados entre junio de 2015 y mayo de 2022 en tres centros chinos: West China Hospital, Sun Yat-sen University Cancer Center, y el Sixth Affiliated Hospital de la Universidad Sun Yat-sen. Se reclutó una cohorte prospectiva de 95 pacientes entre julio de 2024 y enero de 2025 en dos de esos centros más un nuevo sitio, el Hospital del Cáncer de Yunnan (registro ChiCTR2400085797 del 18 de junio de 2024). La distribución retrospectiva de regímenes es desequilibrada: 414 pacientes con nCRT, 258 con TNT, solo 88 con nCT — este último brazo proveniente de un único centro. Las tasas basales de pCR por régimen son 19 % (nCRT), 30 % (TNT), 20 % (nCT). Inclusión: adenocarcinoma confirmado histológicamente, IRM T2 y mapa ADC pretratamiento, cirugía TME con evaluación patológica completa.
La arquitectura, llamada UNet-MoE-Cli, combina tres bloques. Un mixture of experts es un modelo compuesto en el que varias sub-redes («expertos») aprenden cada una a modelar un subproblema, y un mecanismo de «compuerta» (gate) selecciona el experto pertinente para una entrada dada. Aquí, cada experto se dedica a un régimen (TNT, nCRT, nCT) y la compuerta es hard-gated, es decir determinista: la elección del régimen selecciona el experto correspondiente vía argmax. El backbone de imagen es nnUNet (Isensee et al., 2021), una red de segmentación autoconfigurante entrenada en multi-tarea para a la vez delinear el tumor y extraer características. Las modalidades de IRM (T2W + ADC) se proyectan en embeddings 64-D mediante MLPs específicos por modalidad, se concatenan con las variables clínicas codificadas en one-hot (cT, cN, EMVI, CRM, afectación ganglionar lateral, localización), y se inyectan en el MoE. La función objetivo combina una pérdida de entropía cruzada sobre la pCR y una pérdida Dice sobre la segmentación. El número de parámetros no se reporta.
La evaluación usa un split aleatorio 80/20 del retrospectivo (618 entrenamiento / 142 validación), luego la cohorte prospectiva de 95 pacientes como test. Métricas reportadas: AUC, exactitud, sensibilidad, especificidad, VPP, VPN, curva de decisión (DCA), ponderación inversa de propensión (IPTW) por centro y estadio, test de DeLong para comparaciones de AUC, McNemar para comparaciones apareadas. Sin corrección de múltiples comparaciones, sin curva de calibración formal (Brier, Hosmer-Lemeshow), sin intervalos bootstrap explícitamente mencionados.
Los resultados
El AUC de UNet-MoE-Cli es de 0,827 (IC95 % 0,742–0,904) en validación interna y de 0,790 (0,667–0,900) en la cohorte prospectiva. Los comparadores internos — un LightGBM sobre variables clínicas (AUC 0,58–0,64), un ResNet-2D (0,64), un ResNet-3D (0,67–0,60), un UNet solo (0,73–0,65), una variante PoE (0,59) — son todos batidos, a veces claramente. Por régimen, el AUC es 0,80 bajo TNT, 0,82 bajo nCRT, 0,75 bajo nCT.
Pero la observación clínicamente importante está en la sensibilidad: 0,455 en validación, 0,526 en prospectivo. El modelo pierde la mitad de los respondedores reales. La alta especificidad (0,90–0,96) y el VPP correcto (0,58–0,77) cuentan la otra cara: cuando el modelo dice «respuesta completa», suele acertar; pero cuando dice «no», se equivoca una de cada dos veces.
En cuanto a recomendaciones, sobre la cohorte combinada validación + test (n=237): el 53,2 % de los pacientes se orienta a escalada, el 40,9 % a mantener su régimen, y el 5,9 % (n=14) a desescalada. Aquí hace falta lectura crítica. El artículo informa que bajo escalada recomendada, la pCR observada bajo régimen real es solo del 11,1 %, frente a una pCR estimada por el modelo del 31,0 % bajo el régimen escalado. El salto parece enorme — salvo que la «pCR estimada» es la salida del propio modelo aplicada a su propio consejo. La comparación es circular: sin un brazo aleatorizado y sin seguimiento prospectivo de un subgrupo que realmente recibió el régimen sugerido, no podemos decir si el beneficio es real o alucinado.
El subgrupo desescalada (n=14, pCR observada 92,9 %) es más interesante clínicamente pero demasiado pequeño para concluir: el intervalo de confianza va del 66 % al 99 % y estos pacientes ya estaban muy seleccionados (estadio T bajo, sin EMVI). Las curvas de Kaplan-Meier de supervivencia libre de enfermedad son significativas en entrenamiento (p=0,02) y en validación (p=0,03), pero no en el test prospectivo.
Traducción clínica. Sobre 1 000 pacientes con LARC a los que se aplicara este modelo en pretratamiento, unos 530 verían propuesta una escalada a TNT o régimen intensificado, y 60 una desescalada. Entre los 200 verdaderos respondedores (tasa media de pCR del 20 %), el modelo identificaría correctamente entre 90 y 105 — es decir, perdería 95 a 110 pacientes que habrían respondido y para quienes la desescalada habría sido legítima. Inversamente, entre los 800 no respondedores, clasificaría correctamente entre 720 y 770, recomendando con razón una escalada. El balance riesgo/beneficio depende, por tanto, del valor clínico que se conceda a evitar el sobretratamiento (toxicidad, infertilidad, deterioro funcional) frente a perder una oportunidad de desescalada.
Lo bueno
Tres fortalezas específicas.
La arquitectura mixture-of-experts por régimen es elegante y adecuada al problema. En vez de pedir a una sola red que aprenda la respuesta a todos los protocolos, el modelo aísla una sub-red por régimen, lo que reduce el riesgo de promediar efectos terapéuticos y permite estimar probabilidades contrafactuales propias de cada opción. La compuerta dura hace la inferencia interpretable: sabemos qué experto habló para qué paciente. Conceptualmente bien planteado para un problema de selección personalizada de tratamiento.
La cohorte prospectiva pre-registrada es un gesto metodológico real. ChiCTR2400085797 fue registrado el 18 de junio de 2024, antes de recoger los datos prospectivos. Los 95 pacientes de julio de 2024 a enero de 2025 fueron evaluados ciegos al modelo. Más sólido que una mera validación cruzada, aunque la cohorte siga siendo pequeña y limitada a tres centros de la misma región cultural.
El panel de comparadores internos es exhaustivo. Los autores prueban un LightGBM clínico, un ResNet-2D, un ResNet-3D, un UNet solo, una variante MoE blanda, una variante PoE — todos batidos. La ablación muestra que MoE + variables clínicas + multimodalidad IRM son necesarios para el rendimiento. Esta disciplina de ablación falta demasiado a menudo en los artículos competidores.
Lo menos bueno
Tres limitaciones precisas.
La sensibilidad de 0,45–0,53 hunde el valor clínico para la ayuda a la desescalada. Es el modo de fallo clásico de la métrica engañosa: un AUC de 0,80 suena bien, pero cuando la clase positiva (pCR) representa solo el 20 % de los casos, el modelo puede alcanzar ese AUC siendo excelente al decir «no respondedor» (especificidad 0,96) y mediocre al identificar los verdaderos respondedores. Para una herramienta cuyo argumento central es desescalar en respondedores, esa es exactamente la asimetría equivocada. Un VPP de 0,58 en validación significa que uno de cada dos pacientes etiquetados como «respondedor probable» no responderá — riesgo no despreciable de desescalada inapropiada.
La prueba de eficacia de la escalada es circular. La tabla-pivote del artículo compara la pCR observada bajo régimen real con la pCR estimada por el modelo bajo régimen recomendado. El salto de 11 % a 31 % no es una medida experimental, es la predicción de un modelo evaluando su propia prescripción. Sin un ensayo aleatorizado pragmático que asigne pacientes a «decisión MDT» vs «decisión MDT + modelo», es imposible saber si la escalada realmente mejora la respuesta, o si el modelo simplemente se equivoca igual en ambas direcciones.
El experto nCT está entrenado en un solo centro y la cohorte es 100 % china. Es el sesgo de población en dos dimensiones: geográfica y étnica. Los protocolos neoadyuvantes usados (CAPOX estándar, capecitabina concurrente) difieren de los validados en Europa (FOLFIRINOX en PRODIGE-23) o Estados Unidos (FOLFOX en OPRA). Las distribuciones de marcadores moleculares (MSI-H, KRAS, BRAF) varían entre poblaciones. No se presenta ninguna cohorte de validación occidental. Hasta que se demuestre esta generalización, el modelo solo se aplica a un paciente asiático que recibe el panel de regímenes estándar chino.
Lo que cambia
Para la comunidad de investigación en IA-oncología, el artículo formaliza un enfoque útil: modelar la respuesta específica por régimen en vez de una puntuación de riesgo agnóstica. La arquitectura MoE-por-tratamiento es trasladable a otras patologías donde coexisten varios protocolos competentes (cáncer de mama neoadyuvante, linfoma de Hodgkin, leucemias). Tres consecuencias esperadas: las futuras presentaciones a npj Digital Medicine y a Radiology AI deberán incluir comparaciones contrafactuales explícitas; la comunidad necesita un estándar para evaluar estos modelos con algo distinto a su propia salida; los reguladores (FDA SaMD, EMA) tendrán que aclarar el estatus de un «recomendador de régimen» frente a un simple «predictor de riesgo».
Para los oncólogos y equipos multidisciplinares del cáncer de recto, el mensaje operativo es paciencia. La herramienta no está lista para uso clínico: sin validación occidental, sin ensayo aleatorizado pragmático, código GitHub anunciado pero no público al momento de publicación, datos compartidos «previa petición razonable» (la bandera roja habitual de reproducibilidad). Hará falta, como mínimo, un ensayo prospectivo de fase II tipo SMART (Selection of Multimodal Adjuvant Regimen by Tool) que compare la estrategia «MDT + modelo» frente a «MDT solo» en endpoints duros (DFS, OS, calidad de vida) antes de cualquier despliegue. La pCR sigue siendo un endpoint intermedio imperfecto para supervivencia libre de enfermedad y supervivencia global.
Para los pacientes y el público, la enseñanza es que parte de la oncología de precisión de la próxima década se construye hoy sobre este tipo de algoritmo. La promesa — menos sobretratamiento, menos subtratamiento — es creíble y merece perseguirse. Pero el paso de un AUC publicado a una decisión clínica compartida exigirá años de ensayos comparativos. Cualquier paciente al que se proponga, en un futuro próximo, una recomendación algorítmica de régimen tendrá interés en preguntar: ¿en qué cohorte se validó el modelo? ¿cuál es su sensibilidad en los verdaderos respondedores? ¿se ha probado en pacientes como yo?
Para profundizar
El artículo completo está en acceso abierto en npj Digital Medicine: nature.com/articles/s41746-026-02798-w. El registro del ensayo prospectivo está en el Chinese Clinical Trial Registry, ChiCTR2400085797. El código se anuncia en github.com/LiM2D/RCRS tras aceptación (por verificar). Para el contexto de los ensayos TNT en cáncer de recto, ver OPRA (NEJM 2022), RAPIDO (Lancet Oncol 2020) y PRODIGE-23 (NEJM 2020). Para nuestra cobertura de los modos de fallo de modelos clínicos, ver nuestro decryptaje del estudio Restrepo 2026 sobre los VLMs clínicos.