médical IA

Un pipeline de neuroimagen automatizado para el pronóstico cognitivo personalizado post-ictus (Brzus 2026, npj Digital Medicine)

Publicado el 28 de mayo de 2026 · 12 min lectura

Michal Brzus, Joseph Griffis, Aaron D. Boes y colegas (Universidad de Iowa) publican el 27 de mayo de 2026 en npj Digital Medicine un pipeline totalmente automatizado que ingiere resonancias magnéticas cerebrales DICOM en bruto, segmenta automáticamente las lesiones isquémicas, predice 28 desenlaces neuropsicológicos individuales mediante lesion network mapping, y devuelve un informe personalizado redactado por un LLM de pesos abiertos — todo el pipeline ejecutándose en menos de tres minutos por paciente. Los modelos se entrenan con 604 pacientes del Iowa Lesion Registry y se evalúan en una cohorte independiente de 153 pacientes con ictus isquémico imagenados con 17 modelos de escáner distintos (Siemens, Philips, GE, Olea Medical) entre 2002 y 2023. AUC entre 0,74 y 0,90 en cinco dominios cognitivos detallados, concordancia del 96 % entre predicciones obtenidas a partir de segmentaciones automáticas y manuales, e informes LLM generados de forma air-gapped por LLaMA 3.3 70B con salvaguardas explícitas — pero hay que leerlo con cuatro reservas mayores: los datos de entrenamiento y test provienen de la misma institución (Iowa), no se reporta ningún comparador clínico estándar (NIHSS, mRS, demografía sola), la validación clínica final de los informes la realiza el propio autor sénior, y cuatro de los siete autores son titulares de la patente asociada y cofundan la startup comercial NeuroPred Inc. que explotará la tecnología.

El contexto

El accidente cerebrovascular es la segunda causa mundial de mortalidad y la primera causa de discapacidad adquirida en el adulto. Las trayectorias de recuperación son muy heterogéneas — dos pacientes con lesiones de volumen comparable pueden terminar con secuelas cognitivas radicalmente distintas según la localización precisa del tejido destruido y según las redes funcionales en las que esa localización se inscribía. Las herramientas usadas en la práctica corriente — la escala NIHSS para la gravedad al ingreso, la escala de Rankin modificada (mRS) para la incapacidad funcional global, y unas pocas pruebas de cribado cognitivo como la MoCA — siguen siendo gruesas, casi nunca tienen en cuenta la cartografía individual del daño, y ofrecen un valor pronóstico débil para el detalle de las funciones cognitivas.

El campo del lesion network mapping, desarrollado en buena parte por el grupo de Aaron Boes en Iowa y de Michael Fox en Harvard desde 2015, propone una alternativa: proyectar cada lesión individual sobre conectomas estructurales y funcionales normativos para identificar no solo el tejido lesionado sino también la red que interrumpía. Varias publicaciones del mismo grupo (Bowren et al., Brain 2022; J. Neurosci. 2020) han demostrado que estos mapas predicen mejor los desenlaces cognitivos crónicos que el simple tamaño o la localización gruesa de la lesión. Faltaba transformar este método de investigación, hasta ahora manual y exigente, en una herramienta clínica desplegable. Eso es exactamente lo que intenta el artículo Brzus 2026.

El método

El estudio está dirigido por Aaron D. Boes, neurólogo en la Carver College of Medicine de la Universidad de Iowa, con coprimeros autores en ingeniería eléctrica (Michal Brzus) y neurología (Joseph Griffis, ex-Omniscient Neurotechnology 2021–2023). Artículo publicado el 27 de mayo de 2026 en npj Digital Medicine, DOI 10.1038/s41746-026-02803-2, bajo licencia CC BY 4.0. Financiación pública (NIH R01 NS114405, Roy J. Carver Trust, instrumento de IRM 1S10OD025025-01). Publicado como versión "Article in Press" no editada, por tanto aún sujeta a revisión.

El pipeline encadena cuatro componentes. Primero, un módulo de preprocesamiento DICOM: un clasificador propio (dcm_classifier, publicado en PyPI) identifica modalidad y plano de adquisición con una precisión anunciada superior al 99 %. Una 3D Residual U-Net realiza el brain masking (eliminación del cráneo) con una puntuación Dice media de 0,98. La herramienta SynthSR (Iglesias et al., Science Advances 2023) sintetiza una T1 de alta resolución a partir de las secuencias disponibles para fiabilizar el registro al atlas MNI-152 (éxito en el 99,7 % de 2 987 imágenes de validación). Segundo, una segmentación de lesión isquémica por una 3D Residual U-Net (entrenada con unos 450 sujetos de Iowa + 250 sujetos del challenge ISLES 2022), utilizando únicamente las secuencias de difusión (DWI + ADC) — los autores verificaron que añadir T1, T2 o FLAIR no aporta mejora estadísticamente significativa. Tercero, la predicción cognitiva mediante el Iowa Brain-Behavior Modeling Toolkit (Griffis et al., Human Brain Mapping 2024): 28 modelos de clasificación binaria Partial Least Squares (déficit / no déficit), cada uno combinando tres representaciones — máscara voxélica de la lesión, mapa estructural de red lesional (sLNM, calculado sobre el conectoma HCP MGH 32-fold vía Lead-DBS) y mapa funcional de red lesional (fLNM, calculado sobre la muestra normativa GSP-1000) — agregadas por una regresión logística ridge que también integra edad y nivel educativo. Cuarto, un módulo de informe que pasa las predicciones y la cartografía anatómica a LLaMA 3.3 70B, alojado localmente vía Ollama en un contenedor Docker aislado sin acceso a internet, que da formato a un PDF legible (nivel de lectura SMOG 6,6, es decir 6.º–7.º grado estadounidense), encapsulado en DICOM y devuelto al PACS.

El entrenamiento de los modelos cognitivos utiliza 604 pacientes del Iowa Lesion Registry (etiología mixta: ictus, pero también tumores y trauma, limitación que los autores reconocen) con evaluaciones neuropsicológicas al menos tres meses después de la lesión en el 98,7 % de ellos. La evaluación de extremo a extremo se realiza sobre 153 pacientes con ictus isquémico de la Benton Neuropsychology Clinic (siempre Universidad de Iowa), imagenados en la semana siguiente al ictus entre 2002 y 2023 sobre 17 modelos de escáner de cuatro fabricantes a 1,5 T y 3 T.

Los resultados

La segmentación detecta el 93 % de las lesiones mayores de 1 cm³ y el 98 % de las mayores de 2,5 cm³, con una puntuación Dice media de 0,69 (0,74 en escáneres posteriores a 2015), comparable a los mejores sistemas del challenge ISLES 2022. La concordancia del 96 % destacada en el resumen se refiere a las clasificaciones cognitivas predichas a partir de segmentaciones automáticas frente a las obtenidas a partir de segmentaciones trazadas a mano por un experto (681 predicciones individuales en 57 pacientes) — no a la concordancia bruta de segmentación, distinción que se pierde fácilmente en una lectura rápida.

El rendimiento cognitivo se reporta sobre 28 desenlaces neuropsicológicos. Cinco ejemplos detallados, elegidos para cubrir dominios distintos, dan AUC de 0,74 a 0,90: lenguaje expresivo (fluencia verbal, AUC ≈ 0,90), lenguaje receptivo (Token Test), visuoespacial (Judgment of Line Orientation, sensibilidad 91 % / especificidad 71 %), memoria de trabajo auditiva (Digit Span), funciones ejecutivas (Trails B). La comparación de estrategias de modelado muestra un aporte significativo de los mapas de red más allá de la lesión sola (Wilcoxon signed rank N=28, p=0,007) y de la adición de covariables demográficas (p=0,002). Los autores sin embargo reconocen explícitamente que las AUC varían sustancialmente entre los 28 desenlaces: algunos modelos superan el 0,8, muchos se sitúan entre 0,6 y 0,8, y algunos descienden por debajo de 0,5 — es decir peores que el azar. La especificidad también se desploma entre la validación cruzada de entrenamiento (0,84 para el Token Test) y el conjunto de test independiente (0,55), signo de un problema de calibración de umbrales. En cuanto al tiempo, el pipeline completo se ejecuta en promedio en 121 segundos en una estación Xeon + RTX 6000 Ada 48 GB, es decir menos de tres minutos para el 95 % de los casos.

Traducción clínica. Para fijar las ideas sobre 1 000 pacientes con ictus isquémico imagenados de forma rutinaria con este pipeline: 70 pacientes con lesiones pequeñas (<1 cm³) no serían detectados — precisamente aquellos en los que el riesgo cognitivo es más difícil de evaluar clínicamente. Sobre los 930 restantes, el informe LLM propondría probabilidades individuales para 28 funciones cognitivas; en la práctica, aproximadamente dos tercios de esas probabilidades serían útiles (AUC ≥ 0,7) y un tercio sería o incierto o engañoso. Con una especificidad observada en torno al 55 %, casi uno de cada dos pacientes clasificados "en riesgo" en un dominio cognitivo determinado sería en realidad un falso positivo. Es una ayuda a la decisión seria, siempre que clínicos y pacientes comprendan lo que las cifras dicen realmente.

Lo que está bien

La integración de extremo a extremo es técnicamente madura y el formato de salida está pensado para la clínica. El pipeline ingiere DICOM en bruto, gestiona 17 modelos de escáneres y tres fabricantes principales, se ejecuta en menos de tres minutos en una sola estación, y devuelve un PDF encapsulado en DICOM directamente al PACS hospitalario. Muy pocos artículos de predicción post-ictus llegan tan lejos en ingeniería de despliegue; la mayoría se detiene en un modelo evaluado sobre un dataset limpio.

El uso del LLM es inusualmente prudente y concretamente útil. El modelo (LLaMA 3.3 70B) se ejecuta localmente sin acceso a internet, nunca recibe una imagen ni una nota clínica, su rol se restringe explícitamente al formato lingüístico de plantillas fijas, y un parser Markdown verifica la adherencia a la plantilla a posteriori. Esta arquitectura corta la raíz de los modos de fallo clásicos de la IA generativa en salud (alucinación de cifras, fuga de PHI, recomendación terapéutica no solicitada). El nivel de lectura SMOG 6,6 indica además informes accesibles al propio paciente, lo que es una elección editorial coherente.

La metodología está anclada en una década de trabajos convergentes y la meta-arquitectura de predicciones es rigurosa. El enfoque lesion location + sLNM + fLNM agregado por regresión ridge no se inventó para la ocasión: prolonga diez años de trabajo del grupo (Boes Brain 2015, Bowren Brain 2022, Griffis HBM 2024) con validación cruzada estratificada 5×5, tests de permutación de 1 000 iteraciones y comparaciones estadísticas formales de estrategias. El código de la toolbox IBB y el de dcm_classifier son públicos en Zenodo y PyPI.

Lo que está menos bien

La heterogeneidad reivindicada no es una verdadera validación externa. El artículo destaca 17 modelos de escáneres y dos décadas de datos, pero el entrenamiento (Iowa Lesion Registry) y el test (Benton Neuropsychology Clinic) provienen ambos de la Universidad de Iowa. Población regional, protocolo de neuropsicología local, normas de clasificación de impairment calibradas en las mismas cohortes: el modelo nunca se ha enfrentado a un paciente de otro sistema hospitalario, otra región, otra etnia mayoritaria. Es el modo de fallo del sesgo de población, doblado de una variante particularmente insidiosa de shortcut learning — los modelos pueden haber aprendido a reconocer firmas de cohorte más que relaciones lesión-cognición. La generalización a otros centros queda por demostrar.

No se reporta ningún comparador clínico estándar. Los autores conceden que es "difícil comparar directamente con otros modelos publicados", pero eso no explica la ausencia del baseline más simple: ¿un modelo que utilizara únicamente la edad, la educación y la gravedad NIHSS habría dado resultados igual de buenos? Sin ese punto de referencia, y sin comparación frontal con los modelos de imagen competidores (Liu Stroke 2023, Matsulevits bioRxiv 2025), es imposible cuantificar la ganancia real aportada por la cartografía de red frente a una regresión logística clásica sobre tres variables. Es el modo de fallo del comparador sesgado por omisión.

La validación clínica de los informes LLM la realiza el propio autor sénior. Sobre los 153 informes generados, los autores anuncian que "no se identificó ninguna alucinación ni deriva estructural" en la revisión técnica, luego que un neurólogo vascular board-certified releyó treinta informes (≈ 20 %) sin detectar errores que afectaran al manejo. Ese neurólogo es A.D.B., es decir Aaron D. Boes, autor correspondiente, coinventor de la patente y cofundador de NeuroPred Inc. — la startup que comercializará esta tecnología. Una revisión por un clínico externo a ciegas habría reforzado considerablemente la credibilidad de este resultado. A esto se añaden AUC que caen por debajo de 0,5 para algunos desenlaces (información ausente del resumen) y una métrica de "concordancia del 96 %" que mide un acuerdo entre dos modos de segmentación y no un acuerdo con la verdad clínica, dos matices que se pierden en una comunicación acelerada.

Lo que cambia

Para la comunidad de investigación en neurología computacional, el artículo marca la llegada a madurez industrial del lesion network mapping. El método pasaba hasta ahora por pipelines de investigación manuales, exigentes en tiempo y experiencia (segmentación por un neurorradiólogo, normalización MNI, cálculo de conectividad). La automatización completa sacude la disciplina — las futuras publicaciones tendrán que posicionarse frente a un pipeline rápido y reproducible, y los laboratorios que no tienen recursos para desarrollar su propia infraestructura podrán apoyarse en los componentes open-source publicados. Las evaluaciones futuras deberían sin embargo exigir sistemáticamente una validación multicéntrica real y una comparación head-to-head con NIHSS y mRS.

Para los neurólogos vasculares y los equipos de rehabilitación, el mensaje es de prudencia informada. Los propios autores precisan que "no preconizan el uso clínico del componente de predicción de desenlaces en su forma actual" — declaración sobria que merece ser recordada. La herramienta no está lista para modificar una decisión de tratamiento individual, pero ya tiene su lugar como ayuda a la comunicación estructurada con el paciente y la familia (un informe legible a nivel de secundaria, en menos de tres minutos), como soporte para la planificación temprana de rehabilitación, y como base para estudios prospectivos en los que el pipeline se validara en paralelo a una evaluación neuropsicológica de referencia. La patente pending y la creación de NeuroPred Inc. anuncian una trayectoria comercial que habrá que vigilar, en particular la transparencia de la calibración en las cohortes futuras.

Para los pacientes y el gran público, la enseñanza útil es matizada. La promesa de un pronóstico cognitivo personalizado en menos de tres minutos a partir de una IRM estándar es real y está llegando; probablemente transformará la conversación post-ictus en los próximos cinco a diez años. Pero una probabilidad numérica no es un destino. Cuando un informe anuncie, por ejemplo, "riesgo elevado de déficit de memoria de trabajo", el clínico tendrá que saber traducir que esa estimación reposa en una cohorte de Iowa, que se equivoca casi una vez de cada dos en el sentido de los falsos positivos, y que ignora completamente los determinantes no cerebrales de la recuperación (motivación, apoyo social, acceso a la rehabilitación, comorbilidades). Cartografiar una lesión no agota el pronóstico de una vida.

Para profundizar

El artículo completo está en acceso abierto en el sitio de npj Digital Medicine: nature.com/articles/s41746-026-02803-2. Componentes públicos del pipeline: dcm_classifier en PyPI, y el Iowa Brain-Behavior Modeling Toolkit en Zenodo. Artículo fundacional del grupo sobre la predicción por lesion network mapping: Bowren et al., Brain 2022. Para una crítica metodológica reciente de los límites de la predicción de desenlaces post-ictus: Sperber et al., Brain Communications 2025 — citada por los propios autores. Para nuestra cobertura del uso crítico de los LLM en práctica clínica, véase nuestro decriptaje del estudio Auger 2026 sobre los LLM de frontera en esclerosis múltiple.