MCEN: predecir la respuesta completa a la quimioterapia del cáncer de mama a partir de una biopsia, con la arquitectura Mamba (Zhang et al. 2026, npj Digital Medicine)
Wenchuan Zhang, Shuwan Zhang, Fengling Li, Yuanyuan Zhao, Jing Fu, Xiuli Xiao, Ting Yin, Qingjie Lv, Yuhao Yi y Hong Bu (West China Hospital, Universidad de Sichuan, y otros cuatro hospitales chinos) publican el 2 de junio de 2026 en npj Digital Medicine MCEN, un modelo de aprendizaje profundo basado en la arquitectura Mamba que predice, a partir de una biopsia con aguja leída como lámina digital, si una paciente con cáncer de mama logrará una respuesta patológica completa tras quimioterapia neoadyuvante. Entrenado con 1.023 pacientes de un solo hospital y luego probado en otros cuatro centros independientes —1.646 pacientes en total—, alcanza un AUROC de 0,923 en entrenamiento, cae a 0,76–0,81 en validación externa, y sube hasta 0,84 cuando se le añaden los datos clinicopatológicos de rutina. Es una demostración interesante del valor de Mamba para la patología digital y de una verdadera validación multicéntrica; conviene leerla, sin embargo, a la luz de una marcada brecha entrenamiento-validación, una cohorte exclusivamente china, criterios de exclusión que descartan las formas atípicas y la ausencia de toda comparación directa con patólogos.
El contexto
En muchos cánceres de mama, la quimioterapia se administra antes de la cirugía: es la quimioterapia neoadyuvante. El objetivo es reducir el tumor, hacer posible una cirugía conservadora de la mama y poner a prueba en tiempo real la sensibilidad del tumor al tratamiento. El mejor resultado posible tiene un nombre: la respuesta patológica completa (pCR, por pathological complete response), definida como la ausencia de todo cáncer invasivo residual en la mama y en los ganglios axilares al examinar la pieza quirúrgica. Las pacientes que alcanzan la pCR suelen tener un pronóstico mucho mejor; a la inversa, predecir de antemano quién no responderá permitiría evitar meses de quimioterapia tóxica e inútil, u orientar desde el inicio hacia otra estrategia.
El problema es que esta predicción es difícil. Las herramientas clásicas —subtipo molecular, índice de proliferación Ki-67, nivel de linfocitos infiltrantes del tumor (TIL) en lámina, firmas génicas, radiómica en RM— capturan cada una una faceta, pero su evaluación manual sufre una fuerte variabilidad entre observadores y no capta la complejidad espacial del microambiente tumoral. La patología digital (el análisis informático de láminas histológicas escaneadas en alta resolución, llamadas whole-slide images o WSI) ha abierto otra vía: redes neuronales convolucionales (CNN) ya han aprendido a predecir la pCR a partir de la biopsia inicial. Pero una WSI es una imagen gigapíxel —miles de millones de píxeles— y las arquitecturas transformer, que destacan en modelar dependencias de largo alcance mediante el mecanismo de atención, tienen un coste de cálculo que crece con el cuadrado de la longitud de la secuencia: impracticable a esa escala. Es ese cuello de botella el que el equipo propone superar con Mamba.
El método
El artículo (npj Digital Medicine, 10.1038/s41746-026-02849-2, recibido el 28 de enero, aceptado el 26 de mayo, publicado el 2 de junio de 2026, en acceso abierto bajo licencia CC BY-NC-ND) presenta MCEN —por Mamba-based model for Chemotherapy Efficacy using Needle biopsy. Mamba es un modelo de espacio de estados selectivo: en lugar de comparar cada elemento con todos los demás como la atención, recorre la secuencia manteniendo un estado interno comprimido que actualiza en cada paso, lo que le da una complejidad lineal conservando un campo receptivo global. Sobre una lámina gigapíxel dividida en decenas de miles de pequeñas teselas, esta propiedad lo cambia todo.
La tubería tiene tres tiempos. Primero la WSI de la biopsia se divide en teselas. Luego cada tesela es codificada por CONCH, un codificador visión-lenguaje preentrenado específicamente en imágenes de patología (los autores lo compararon con otros tres extractores —CTransPath, Phikon, ViT-S/16— y CONCH obtiene el mejor AUROC, 0,780, frente a 0,677 de ViT-S/16). Por último, un módulo de re-embedding en línea (un bloque transformer que reajusta las representaciones al contexto de la lámina) alimenta una agregación por Mamba bidireccional según el principio del multiple instance learning (MIL: solo hay una etiqueta para toda la lámina, y el modelo aprende a ponderar las teselas pertinentes sin anotación píxel a píxel). MCEN se compara con los métodos MIL de referencia —ABMIL, CLAM, TransMIL, además de simples promedios y máximos— y los supera, reduciendo además el tiempo de inferencia un 23,1 % respecto a TransMIL.
En cuanto a los datos, 1.646 pacientes proceden de cinco hospitales: West China (WC, n=1.023), Shengjing (SJ, n=306), Shanxi Cancer (SXC, n=187), Sichuan Provincial People's (SCPP, n=80) y Southwest Medical University (ASWMU, n=50). La cohorte WC se divide aleatoriamente en entrenamiento (n=819) y validación interna (n=204), con una tasa de pCR del 27,5 % en ambas; los otros cuatro centros sirven de pruebas externas independientes. Los autores aplican criterios de exclusión estrictos (sin cánceres bilaterales, multifocales, ni subtipos raros como carcinomas lobulillares, mucinosos o tubulares), normalización de tinción, early stopping y dropout contra el sobreajuste, e imputación por bosque aleatorio para los datos faltantes. Un brazo complementario fusiona la puntuación MCEN con las variables clinicopatológicas mediante un modelo XGBoost interpretado por SHAP.
Los resultados
MCEN alcanza un AUROC de 0,923 en la cohorte de entrenamiento (el AUROC, área bajo la curva ROC, mide la capacidad de distinguir una respondedora de una no respondedora: 1,0 es perfecto, 0,5 equivale al azar), pero 0,78 en validación interna y un rango de 0,761 a 0,809 en los cuatro centros externos. Añadir los datos clinicopatológicos de rutina eleva estas cifras: 0,937 en entrenamiento, 0,811 en validación y hasta 0,84 en externo. La puntuación del modelo separa claramente los grupos —media de 0,771 en las respondedoras frente a 0,212 en las no respondedoras en la cohorte de entrenamiento, diferencia significativa (p < 0,05) mantenida en todos los centros externos. En análisis multivariante, el subtipo molecular y la puntuación MCEN aparecen como predictores independientes, y los mapas de atención muestran que el modelo se concentra sobre todo en zonas de fibrosis y estroma. El rendimiento es menor en los subgrupos HR–/HER2+ y HR–/HER2– de algunos centros, probablemente por falta de efectivos.
Traducción clínica. En esta población, alrededor de una paciente de cada cuatro logra una pCR. Un AUROC de 0,76–0,81 en condiciones externas corresponde a una discriminación moderada: el modelo clasifica claramente mejor que el azar, pero queda lejos de la certeza —habrá respondedoras etiquetadas como de riesgo y no respondedoras tranquilizadas por error. En concreto, una puntuación así no puede decidir por sí sola aligerar o intensificar una quimioterapia; está pensada para sumarse al subtipo, al estadio y al Ki-67 para afinar una probabilidad, no para reemplazarlos. Y conviene recordar que la pCR es un criterio sustituto: se correlaciona con un mejor pronóstico, pero no es la supervivencia en sí.
Lo que está bien
Una verdadera validación externa multicéntrica. Es el punto fuerte. El modelo se entrena en un solo hospital y luego se evalúa sin ajuste en cuatro cohortes independientes de tamaños y prácticas distintos (306, 187, 80 y 50 pacientes), con un rendimiento que se sostiene (0,761–0,809). La mayoría de los estudios de pCR por IA se conforman con una validación interna sobre una única cohorte pequeña; aquí la prueba de fuego entre centros se supera realmente, que es el obstáculo más frecuente para el despliegue.
Una arquitectura eficiente, adaptada al problema, sobre una muestra ya disponible. Mamba aporta una complejidad lineal allí donde la atención transformer se ahoga en láminas gigapíxel, con una inferencia un 23,1 % más rápida que TransMIL a rendimiento comparable. Sobre todo, la entrada es la biopsia con aguja previa al tratamiento: la información está disponible en el momento exacto en que se decide la estrategia, sin examen adicional.
Honestidad metodológica y código público. Los autores informan con franqueza de la caída entre entrenamiento y validación, muestran en multivariante que la puntuación MCEN sigue siendo predictiva con independencia del subtipo, justifican la elección del codificador CONCH con una comparación cuantificada, y publican su código en GitHub para uso académico. La fusión con las variables clínicas se presenta como complementaria, no como un reemplazo.
Lo que está menos bien
Una brecha entrenamiento-validación que invita a la prudencia sobre la cifra estrella. Pasar de 0,923 en entrenamiento a 0,78 en validación interna, y luego a 0,76–0,81 en externo, es un signo clásico de optimismo: el 0,923 refleja sobre todo el ajuste a los datos vistos, no el rendimiento esperado en otra parte. Comunicar sobre la cota alta sería una métrica engañosa; el valor honesto, el que importa a una paciente, es el rango externo, y solo traduce una discriminación moderada en una tarea desequilibrada (27,5 % de pCR).
Sesgo de población, exclusiones y posible confusión por el subtipo. Los cinco centros son chinos y terciarios: nada garantiza la generalización a otras poblaciones, otros escáneres u otros protocolos de tinción, y los autores lo reconocen. Los criterios de exclusión estrictos (carcinomas lobulillares, mucinosos, tubulares, formas bilaterales o multifocales descartadas) restringen el modelo al solo carcinoma infiltrante de tipo no especial —un sesgo de selección que lo hace inaplicable tal cual a las formas atípicas. Por último, la pCR depende muy fuertemente del subtipo molecular (alta en los tumores triple negativos y HER2+, baja en los HR+/HER2–): como el modelo se apoya en la fibrosis y el estroma, que covarían con el subtipo, hay que preguntarse hasta qué punto aprende la biología de la respuesta y no un atajo correlacionado con el subtipo (shortcut learning). El análisis multivariante aboga por un valor añadido real, pero la cuestión merece análisis específicos por subtipo, que los propios autores reclaman.
Sin patólogo enfrente, retrospectivo y un criterio sustituto. No se informa de ninguna comparación directa humano-máquina: el comparador sigue siendo algorítmico (otros métodos MIL, modelos clínicos). El estudio es enteramente retrospectivo, sin validación prospectiva ni ensayo clínico pragmático, y se centra en la pCR —un criterio sustituto correlacionado con la supervivencia, no la supervivencia. La entrada se limita a la biopsia con aguja (la transposición a piezas quirúrgicas o a otros tumores queda por establecer), la licencia es CC BY-NC-ND (sin uso comercial, sin derivados) y no se menciona ningún marcado CE ni autorización regulatoria. A favor del trabajo: la financiación es pública (fondos provinciales chinos y la NSFC) y los autores no declaran conflictos de interés.
Lo que cambia
Para la comunidad investigadora, MCEN añade una piedra sólida a un movimiento ya en marcha: Mamba y los modelos de espacio de estados son alternativas creíbles a los transformers para la agregación MIL sobre láminas gigapíxel, con una ganancia de eficiencia medida. La puesta a disposición del código y la demostración de que una validación en cuatro centros es alcanzable ofrecen una base sobre la que otros equipos pueden construir —idealmente con cohortes multinacionales y análisis por subtipo.
Para los clínicos, la herramienta no es desplegable hoy: retrospectiva, sin comparación con la lectura experta, sin validación prospectiva y sin estatus regulatorio. Su interés potencial a medio plazo es claro —proporcionar, desde la biopsia inicial, una probabilidad de respuesta que se sume al subtipo y al Ki-67 para discutir una desescalada en las respondedoras probables u otra estrategia en las no respondedoras probables—, pero ello supone franquear la etapa prospectiva y confirmar el beneficio sobre criterios duros.
Para las pacientes y el público, la promesa es la de una quimioterapia más personalizada, leída a partir de una muestra ya tomada, sin gesto adicional. La prudencia sigue siendo necesaria: un modelo eficaz sobre láminas chinas retrospectivas no está, tal cual, validado para orientar un tratamiento, y una discriminación moderada significa errores en ambos sentidos. Una predicción no es una decisión, y la elección terapéutica sigue correspondiendo al equipo asistencial.
Para saber más
El artículo está en acceso abierto en npj Digital Medicine: nature.com/articles/s41746-026-02849-2 (DOI 10.1038/s41746-026-02849-2); el código está en github.com/Wenchuan-Zhang/MCEN. Sobre los modelos de fundación y el análisis de láminas en patología digital, véase nuestro análisis de GigaPath. Sobre la predicción de respuesta a un tratamiento neoadyuvante por imagen, véase nuestro análisis del modelo mixture-of-experts sobre RM de recto, y sobre la traducción de una lectura histológica en valor pronóstico, nuestro análisis del fenotipado histomorfológico de Yang 2026.