médical IA

EpiVLM: un modelo visión-lenguaje para detectar y clasificar crisis epilépticas en vídeo, del hospital al domicilio (He 2026, npj Digital Medicine)

Publicado el 29 de mayo de 2026 · 12 min lectura

Mengqiao He, Leihao Sha, Pengfei Wei, Lei Chen y colegas del West China Hospital (Universidad de Sichuan) y de los Shenzhen Institutes of Advanced Technology (Academia China de Ciencias) publican el 26 de mayo de 2026 en npj Digital Medicine EpiVLM, un modelo visión-lenguaje (VLM, un sistema que comprende conjuntamente imágenes y texto) que reconoce cinco semiologías de crisis epiléptica directamente sobre vídeos clínicos y domésticos, guiado por prompts redactados como un informe clínico. Evaluado sobre 232 grabaciones vídeo de 127 pacientes — 11 666 segmentos anotados por expertos — procedentes de dos centros terciarios chinos, grabaciones domiciliarias no controladas y un dataset público independiente, EpiVLM declara una exactitud de 0,795–0,947, una sensibilidad de 0,842–0,957, una tasa de falsos positivos por vídeo de 0,47–2,45 % y un retardo medio entre inicio de crisis y detección inferior a seis segundos, todo ello con prompts y umbrales fijados a priori sin recalibración específica por centro. A leer, sin embargo, con cuatro reservas: todos los centros terciarios son chinos, la cohorte de vídeos domiciliarios apenas se describe en el resumen, no se reporta comparación frontal con anotadores humanos, y un coautor está afiliado a la empresa privada Brain Everest LLC sin declaración de conflicto de intereses.

El contexto

La epilepsia afecta aproximadamente a cincuenta millones de personas en el mundo. Tanto el diagnóstico como el seguimiento se apoyan en gran medida en la semiología — la secuencia de manifestaciones clínicas observables de una crisis (movimientos, automatismos, postura, nivel de conciencia). En una unidad hospitalaria de monitorización de epilepsia (EMU), esta semiología se capta de forma continua mediante vídeo acoplado al EEG (vídeo-EEG), y su interpretación por un neurólogo entrenado sigue siendo el examen de referencia para caracterizar el tipo de crisis y orientar el balance prequirúrgico. El problema: el vídeo-EEG de larga duración exige personal altamente cualificado, es escaso y caro, y queda confinado a centros terciarios. Fuera del hospital, casi siempre son los familiares quienes graban una crisis con el móvil para enseñársela al médico, sin ninguna herramienta automática de análisis intermedia.

La detección automática de crisis en vídeo no es nueva: desde 2018, redes convolucionales 3D y, más recientemente, transformers de vídeo (TimeSformer, VideoMAE) han sido entrenados para reconocer movimientos convulsivos o automatismos en condiciones hospitalarias controladas (cámara fija, iluminación estable, un solo paciente en cama). El rendimiento caía típicamente al cambiar de centro, modelo de cámara o configuración de escena — el conocido modo de fallo del shortcut learning (el modelo aprende pistas de cohorte en vez de la semiología propiamente dicha). El artículo He 2026 se inscribe en la ola emergente de vision-language models en salud: en lugar de aprender a clasificar píxeles en silos, se inyecta en el modelo una descripción textual estructurada de lo que debe buscar, y se le pide un razonamiento clínico como salida. Este enfoque promete mejor generalización porque la «gramática» de una crisis (pérdida de contacto, movimiento tónico, clonías, automatismos) es en buena medida independiente del decorado.

El método

El estudio está codirigido por Lei Chen (Departamento de Neurología, West China Hospital, Universidad de Sichuan, Chengdu) y Pengfei Wei (Universidad del Sureste, Nanjing, y Shenzhen Institutes of Advanced Technology, Academia China de Ciencias). Los coautores comparten nueve afiliaciones, entre ellas el State Key Laboratory of Digital Medicine, la Southern University of Science and Technology, China Telecom Sucursal Sichuan, el Instituto del Cerebro Shenzhen-Hong Kong y Brain Everest LLC, una empresa privada con sede en Shenzhen. Artículo publicado el 26 de mayo de 2026 en npj Digital Medicine, DOI 10.1038/s41746-026-02810-3, bajo licencia CC BY 4.0. Financiación pública china (Proyecto Mayor STI Nacional sobre Ciencia del Cerebro 2021ZD0204300, Programa STI de Sichuan 2025NSFTD0027, West China Hospital 1.3.5 ZYYC23011, Comité STI de Shenzhen JCYJ20220818100213029). Los autores declaran no competing interests a pesar de que uno de ellos está afiliado a una LLC, punto sobre el que volvemos más abajo. El manuscrito se difunde en versión «no editada» (Article in Press), por lo que puede sufrir cambios.

El sistema se llama EpiVLM y combina dos bloques. Primero, un vision-language model que codifica un vídeo mediante un codificador visual (típico de las familias CLIP / SigLIP / VideoCLIP) y lo compara con texto proyectado al mismo espacio de representación. Segundo, prompts estructurados clínicamente: en lugar de preguntar al modelo «¿es esto una crisis?», los autores le proporcionan una descripción semiológica formalizada (por ejemplo los elementos de la clasificación operativa ILAE 2017 — pérdida de contacto, lateralización de cabeza/ojos, automatismos oroalimentarios, postura tónica, clonías) que el modelo contrasta con lo que ve en el vídeo. La salida es una clasificación en cinco semiologías mayores de crisis, escogidas para cubrir las categorías clínicamente relevantes más frecuentes en EMU. Los umbrales de decisión y los prompts se fijan a priori en la cohorte de desarrollo y se aplican tal cual a todas las cohortes de prueba sin recalibración — pieza central del trabajo metodológico.

El conjunto de datos total reúne 232 vídeos de 127 pacientes, es decir 11 666 segmentos anotados por expertos. Tres condiciones de adquisición están representadas: dos centros terciarios (que aportan el grueso de los datos de EMU con cámara fija e iluminación hospitalaria), grabaciones domiciliarias no controladas (mobiliario variado, iluminación doméstica, móviles y cámaras de vigilancia, a veces varias personas en el encuadre) y un dataset público independiente para validación externa estricta. Los baselines son arquitecturas estándar de vídeo deep learning del campo — típicamente CNN 3D tipo I3D o SlowFast y transformers de vídeo tipo TimeSformer o VideoMAE — entrenados con los mismos datos pero sin prompts clínicos estructurados.

Los resultados

En las cinco semiologías evaluadas, EpiVLM alcanza una exactitud (accuracy) de 0,795–0,947 y una sensibilidad de 0,842–0,957, según semiología y conjunto de prueba. El resumen destaca particularmente la estabilidad al pasar entre cohortes: con prompts y umbrales congelados, el rendimiento «se mantuvo consistente en condiciones de adquisición reales diversas sin recalibración específica por sitio». En los conjuntos de validación externa, la tasa de falsos positivos a escala de vídeo queda entre 0,47 % y 2,45 %. El retardo medio entre inicio de crisis y detección es inferior a 6 segundos, umbral relevante para aplicaciones de alerta domiciliaria, donde la rapidez condiciona la calidad de cualquier intervención. Comparado con los baselines estándar de vídeo deep learning entrenados con los mismos datos, EpiVLM domina en rendimiento global según los autores; las magnitudes precisas por semiología no se extraen del resumen.

Traducción clínica. Para fijar las ideas sobre 1 000 segmentos de vídeo analizados en el hogar por un sistema calibrado al 2 % de falsos positivos por vídeo: se retienen de media entre 5 y 25 falsas alertas por 1 000 secuencias, y la sensibilidad típica de 0,90 implica que aproximadamente 90 crisis de cada 100 realmente presentes se detectarían con retardo inferior a 6 segundos. Para una familia con un niño epiléptico farmacorresistente y varias crisis nocturnas semanales, esto representaría, en el mejor de los casos, una alerta fiable la mayor parte del tiempo, a costa de unas pocas falsas alertas mensuales. Para un servicio de neurología que pre-tría horas de vídeo de EMU antes de la lectura del epileptólogo, el beneficio se mide distinto: tiempo de revisión a la mitad, siempre que la sensibilidad sea suficiente para no perder una crisis rara.

Lo que está bien

El enfoque metodológico ataca de frente el modo de fallo más típico del campo. El shortcut learning es la lacra de la detección vídeo de crisis desde hace diez años: los modelos aprenden que una cama de hospital, una cámara fija en el techo y una sábana blanca «parecen» un vídeo de crisis y se desploman en cuanto la evaluación se traslada a un sofá del salón. Al reformular la tarea como alineamiento entre una descripción semiológica textual y un contenido vídeo, EpiVLM obliga al modelo a razonar sobre el movimiento descrito (pérdida de tono, movimiento clónico, desviación) y no sobre el decorado — y la estabilidad observada entre EMU, domicilio y dataset público independiente es coherente con esa hipótesis.

La disciplina de evaluación es seria. Prompts y umbrales decisionales congelados a priori, validación externa sobre un dataset público independiente, tasa de falsos positivos reportada a escala de vídeo (y no por ventana, lo que adornaría artificialmente las cifras), retardo onset-to-detection cronometrado — son las métricas adecuadas para pensar un despliegue real. La triple estratificación del conjunto de prueba (dos EMU + domicilio no controlado + benchmark público) es justamente lo que la literatura previa evitaba, y es lo que hace plausible la pretensión de «generalización cross-environment». Código y datos no están explícitamente enlazados en el resumen, pero la licencia CC BY 4.0 y los estándares de npj Digital Medicine hacen verosímil al menos una difusión parcial.

El retardo de detección por debajo de seis segundos es una cifra clínicamente útil. La seguridad inmediata en una crisis tónico-clónica reposa en gestos simples — proteger la cabeza, colocar en posición lateral de seguridad, cronometrar la duración para decidir si llamar a emergencias más allá de cinco minutos. Una alerta fiable que llegue en menos de seis segundos abre una ventana realista de intervención para un familiar en la habitación contigua o para un sistema domótico vinculado a una llamada automatizada. Muy pocos trabajos previos sobre detección vídeo se imponían esta disciplina temporal; la mayoría se conformaba con accuracy sobre ventana retrospectiva.

Lo que está menos bien

La validación externa es menos externa de lo que parece. Los dos centros terciarios son chinos, el equipo principal tiene base en Chengdu y Shenzhen, y el dataset público independiente no aparece nombrado en el resumen — podría ser asiático también. La población, los estándares de iluminación, los hábitos de mobiliario doméstico, la distribución de edad y comorbilidades pueden diferir significativamente de otros contextos (Europa, América del Norte, África subsahariana). Es precisamente el modo de fallo de sesgo de población, agravado por un sesgo cultural en las condiciones de captura a domicilio. Hasta que no se realice una validación prospectiva fuera de Asia, la promesa «cross-environment» queda parcialmente por demostrar. Además, la propia semiología varía poco de un continente a otro — ventaja de la elección de tarea — pero las condiciones de adquisición varían enormemente.

El comparador humano está ausente del resumen. Los baselines comparados son modelos vídeo deep learning. La verdadera pregunta clínica es: ¿alcanza EpiVLM el rendimiento de un familiar entrenado para detectar una crisis con el móvil? ¿de un enfermero de EMU? ¿de un epileptólogo experimentado? Sin esa referencia humana, las cifras presentadas son relativas a otros modelos, no al estándar actual de cuidados. Es un caso clásico del modo de fallo comparador sesgado por omisión — el baseline más simple (un humano razonablemente atento) queda invisible. A esto se añade el silencio del resumen sobre el rendimiento por clase: «accuracy 0,795–0,947» significa que al menos una semiología cae por debajo de 0,8, e identificar cuál cambiaría la lectura clínica del instrumento (probablemente las semiologías no motoras más sutiles, como las ausencias o los automatismos oroalimentarios).

La declaración de ausencia de conflicto de intereses merece cuestionamiento. Los autores declaran no competing interests, pero uno de los coautores (Shixian Wen) está afiliado a Brain Everest LLC, empresa privada con sede en Shenzhen, y otro (Wentao Wang) a China Telecom Corporation Limited, operador estatal chino de telecomunicaciones — dos socios industriales naturales para la comercialización de un sistema de alerta de crisis. La regla internacional (ICMJE) exige declarar toda afiliación con una entidad que pudiera beneficiarse financieramente del resultado, independientemente de la presentación de una patente. Esta omisión no invalida los resultados, pero complica la lectura independiente de las próximas publicaciones del mismo grupo. Cabe señalar en paralelo que el resumen no menciona ninguna patente sobre EpiVLM; esta información deberá buscarse en el manuscrito completo.

Lo que cambia

Para la comunidad de investigación en IA-salud, EpiVLM consolida una tendencia iniciada a finales de 2024: la migración de los modelos clínicos hacia arquitecturas visión-lenguaje que mezclan comprensión visual y razonamiento textual estructurado. El beneficio de generalización observado aquí — prompts y umbrales fijados a priori, rendimiento estable en tres condiciones de adquisición — alimentará los argumentos a favor de los VLM frente a los CNN y transformers de vídeo puros en imagen clínica. Los grupos que trabajan en detección de caídas, monitorización neonatal o semiología de otros trastornos del movimiento (Parkinson, distonías) encontrarán aquí un patrón de evaluación cross-environment reproducible. Queda por ver replicaciones de equipos independientes fuera de Asia y la aparición de un benchmark público oficial para la semiología de crisis — paso lógico siguiente.

Para los epileptólogos y los equipos de EMU, el uso inmediato más creíble no es la alerta autónoma sino el pre-triaje: EpiVLM puede reducir el volumen de vídeo que un experto debe revisar manualmente filtrando segmentos tranquilos y ordenando los sospechosos por semiología probable. La traducción clínica de una sensibilidad de 0,90 implica no obstante que una crisis de cada diez sería perdida por el filtro — lo que prohíbe usar el instrumento como sustituto de la revisión humana, pero autoriza un uso asistencial bajo control. La promesa domiciliaria (alerta familiar, diario automatizado de crisis) queda más lejos: requiere integración hardware (cámara, cómputo local o nube privada), certificación regulatoria como Software as a Medical Device y validación prospectiva con familias reales con medición de impacto sobre la calidad de vida. Ninguno de estos hitos se alcanza en el artículo.

Para los pacientes y sus familias, la enseñanza útil es que la promesa de una herramienta de vigilancia domiciliaria se vuelve técnicamente plausible — pero está lejos de ser un producto listo. Ningún sistema está actualmente aprobado en España por las agencias reguladoras ni en Estados Unidos por la FDA para la detección vídeo de crisis a domicilio. Si una familia graba una crisis para enseñársela al neurólogo, esa práctica sigue, sigue siendo útil, y ningún sistema actual elimina la necesidad de una opinión humana cualificada. El buen reflejo, mientras tanto: llevar un diario escrito o de audio de las crisis, grabar si es posible y discutir un eventual registro vídeo-EEG ambulatorio con el equipo asistencial.

Para profundizar

El artículo completo está disponible en acceso abierto en el sitio de npj Digital Medicine: nature.com/articles/s41746-026-02810-3. La clasificación operativa de tipos de crisis utilizada como referencia semiológica es la clasificación ILAE 2017. Para un estado anterior de la detección vídeo de crisis antes de los VLM: Pérez-García et al., Scientific Reports 2022. Para nuestra cobertura de otras aplicaciones de modelos visión-lenguaje en clínica, véase nuestro análisis del estudio Restrepo 2026 que muestra que el contexto textual domina la imagen en los VLM clínicos y nuestro análisis de PromptRad sobre prompt-tuning en radiología.