EpiVLM : un modèle vision-langage pour détecter et classer les crises d'épilepsie sur vidéo, de l'hôpital au domicile (He 2026, npj Digital Medicine)

Mengqiao He, Leihao Sha, Pengfei Wei, Lei Chen et collègues du West China Hospital (Université du Sichuan) et des Shenzhen Institutes of Advanced Technology (Académie chinoise des sciences) publient le 26 mai 2026 dans npj Digital Medicine EpiVLM, un modèle vision-langage (VLM, un système qui combine compréhension d'images et de texte) qui reconnaît cinq sémiologies de crise épileptique directement sur des vidéos cliniques et domestiques, à partir de prompts rédigés comme un compte-rendu clinique. Évalué sur 232 enregistrements vidéo de 127 patients soit 11 666 segments annotés par des experts — provenant de deux centres tertiaires chinois, d'enregistrements à domicile sans contrainte et d'un jeu de données public indépendant — EpiVLM affiche une précision de 0,795 à 0,947, une sensibilité de 0,842 à 0,957, un taux de fausses détections de 0,47 à 2,45 % par vidéo et un délai moyen entre début de crise et détection inférieur à six secondes, le tout avec des prompts et des seuils fixés a priori sans recalibrage spécifique aux centres. À lire toutefois avec quatre réserves : tous les centres tertiaires sont chinois, la cohorte de vidéos prises au domicile reste peu décrite dans le résumé, il n'y a pas de comparaison frontale avec des annotateurs humains non-experts, et l'un des co-auteurs est affilié à Brain Everest LLC sans déclaration d'intérêts.

Le contexte

L'épilepsie touche environ cinquante millions de personnes dans le monde. Le diagnostic comme le suivi reposent en grande partie sur la sémiologie — la séquence des manifestations cliniques observables d'une crise (mouvements, automatismes, posture, conscience). Dans une unité d'épileptologie hospitalière, cette sémiologie est captée en continu par vidéo couplée à l'EEG (vidéo-EEG), et son interprétation par un neurologue spécialisé reste l'examen de référence pour caractériser le type de crise et orienter le bilan préchirurgical. Le problème : la vidéo-EEG longue durée requiert un personnel hautement qualifié, est rare et coûteuse, et reste cantonnée à des centres tertiaires. Hors hôpital, ce sont presque toujours les proches qui filment une crise au smartphone pour la montrer au médecin, sans aucun outil automatique d'analyse.

La détection automatique de crises sur vidéo n'est pas nouvelle : depuis 2018, des réseaux convolutifs 3D et plus récemment des transformeurs vidéo (TimeSformer, VideoMAE) ont été entraînés à reconnaître des mouvements convulsifs ou des automatismes dans des conditions hospitalières contrôlées (caméra fixe, éclairage stable, un seul patient au lit). Les performances chutaient typiquement lorsqu'on changeait de centre, de modèle de caméra ou de configuration de scène — ce qu'on appelle dans la communauté ML le shortcut learning (le modèle apprend des indices de cohorte plutôt que la sémiologie elle-même). Le papier He 2026 s'inscrit dans la vague émergente des vision-language models en santé : au lieu d'apprendre à classifier des pixels en silos, on injecte dans le modèle une description textuelle structurée de ce qu'il faut chercher, et on lui demande de répondre comme un raisonnement clinique. Cette approche promet une meilleure généralisation, parce que la « grammaire » de la crise (perte de contact, mouvements toniques, clonies, automatismes) reste la même quel que soit le décor.

La méthode

L'étude est dirigée conjointement par Lei Chen (Département de neurologie, West China Hospital, Université du Sichuan, Chengdu) et Pengfei Wei (Southeast University, Nankin et Shenzhen Institutes of Advanced Technology, Académie chinoise des sciences). Les coauteurs partagent neuf affiliations parmi lesquelles le State Key Laboratory of Digital Medicine, la Southern University of Science and Technology, China Telecom Sichuan Branch, le Shenzhen-Hong Kong Institute of Brain Science et Brain Everest LLC, une société privée basée à Shenzhen. Article publié le 26 mai 2026 dans npj Digital Medicine, DOI 10.1038/s41746-026-02810-3, sous licence CC BY 4.0. Financement public chinois (Brain Science and Brain-like Intelligence Technology — National STI Major Project 2021ZD0204300, Sichuan STI Program 2025NSFTD0027, West China Hospital 1.3.5 ZYYC23011, Shenzhen STI Committee JCYJ20220818100213029). Les auteurs déclarent no competing interests alors même que l'un d'eux est affilié à une LLC, point sur lequel nous revenons plus bas. Le manuscrit est diffusé en version « non éditée » (Article in Press), donc susceptible d'évoluer.

Le système se nomme EpiVLM et combine deux briques. Première brique, un vision-language model qui encode une vidéo via un encodeur visuel (typique des familles CLIP / SigLIP / VideoCLIP) et la compare à du texte projeté dans le même espace de représentation. Deuxième brique, des prompts cliniquement structurés : plutôt que de demander au modèle « est-ce une crise ? », les auteurs lui fournissent une description sémiologique formalisée (par exemple les éléments décrits par la classification ILAE 2017 des types de crise — perte de contact, latéralisation tête/yeux, automatismes oro-alimentaires, posture tonique, clonies, etc.) que le modèle confronte à ce qu'il voit dans la vidéo. Le résultat est une classification parmi cinq sémiologies majeures de crise, choisies pour couvrir les catégories cliniquement pertinentes les plus fréquentes en EMU (epilepsy monitoring unit). Les seuils de décision et les prompts sont fixés a priori sur la cohorte de développement, puis appliqués tels quels à toutes les cohortes de test sans recalibrage — c'est le point d'orgue méthodologique de l'étude.

Le jeu de données total réunit 232 vidéos de 127 patients, soit 11 666 segments annotés par des experts. Trois conditions d'acquisition sont représentées : deux centres tertiaires (qui assurent le gros des données d'EMU avec caméra fixe et éclairage hospitalier), des enregistrements à domicile non contraints (mobilier varié, éclairages domestiques, caméras smartphone et caméras de surveillance, parfois plusieurs personnes dans le cadre), et un jeu de données public indépendant servant de validation externe stricte. Les comparateurs sont des architectures vidéo deep learning standard du domaine — typiquement des CNN 3D type I3D ou SlowFast et des transformeurs vidéo type TimeSformer ou VideoMAE — entraînés sur les mêmes données mais sans prompts cliniques structurés.

Les résultats

Sur les cinq sémiologies évaluées, EpiVLM atteint une précision (accuracy) de 0,795 à 0,947 et une sensibilité de 0,842 à 0,957 — selon la sémiologie et le jeu de test. Le résumé met particulièrement en avant la stabilité au passage entre cohortes : prompts et seuils étant gelés, les performances « restent cohérentes à travers des conditions d'acquisition réelles diverses sans recalibrage spécifique au site ». Sur les jeux de validation externe, le taux de fausses détections à l'échelle de la vidéo (faux positifs vidéo) reste compris entre 0,47 % et 2,45 %. Le délai moyen entre début de crise et détection est inférieur à 6 secondes, un seuil pertinent pour des applications d'alerte à domicile où la rapidité conditionne la qualité d'une intervention. Comparé aux baselines vidéo deep learning standard entraînées sur les mêmes données, EpiVLM domine sur la performance globale d'après les auteurs ; les magnitudes précises de l'écart par sémiologie ne sont pas extraites du résumé.

Traduction clinique. Pour fixer les idées sur 1 000 segments vidéo analysés à domicile par un système calibré à 2 % de fausses détections vidéo : on retient en moyenne entre 5 et 25 fausses alertes par 1 000 séquences, et la sensibilité de 0,90 typique implique qu'environ 90 crises sur 100 réellement présentes seraient détectées avec un délai sous 6 secondes. Pour une famille avec un enfant épileptique pharmacorésistant et plusieurs crises nocturnes par semaine, cela représenterait, dans le meilleur des cas, une alerte fiable la plupart du temps, au prix de quelques fausses alertes mensuelles à tolérer. Pour un service de neurologie qui pré-trie des heures de vidéos d'EMU avant lecture par un épileptologue, le bénéfice est mesuré différemment : un temps de revue divisé, à condition que la sensibilité soit suffisante pour ne pas manquer une crise rare.

Ce qui est bien

L'approche méthodologique attaque frontalement le mode d'échec le plus typique du domaine. Le shortcut learning est la plaie de la détection vidéo de crises depuis dix ans : les modèles apprennent qu'un lit d'hôpital, une caméra plafonnière fixe et un drap blanc « ressemblent » à une vidéo de crise et chutent dès qu'on déplace l'évaluation sur un canapé de salon. En reformulant la tâche en alignement entre une description sémiologique textuelle et un contenu vidéo, EpiVLM force le modèle à raisonner sur le mouvement décrit (perte de tonus, mouvement clonique, déviation) plutôt que sur le décor — et le constat de stabilité entre EMU, domicile et jeu de données public indépendant est cohérent avec cette hypothèse.

La discipline d'évaluation est sérieuse. Prompts et seuils décisionnels fixés a priori, validation externe sur un jeu public indépendant, taux de fausses détections rapporté à l'échelle de la vidéo (et non par fenêtre, ce qui flatterait artificiellement les chiffres), délai onset-to-detection chronométré — ce sont les bonnes métriques pour penser un déploiement réel. La triple stratification du jeu de test (deux EMU + domicile non contraint + benchmark public) est précisément ce que la littérature antérieure évitait jusqu'ici, et c'est ce qui rend la prétention à la « généralisation cross-environment » plausible. Code et données ne sont pas explicitement liés dans le résumé, mais le format CC BY 4.0 et le standard npj Digital Medicine rendent vraisemblable une mise à disposition au moins partielle.

Le délai de détection sous six secondes est un chiffre cliniquement utile. La sécurité immédiate dans une crise tonico-clonique repose sur des gestes simples — protéger la tête, mettre en position latérale de sécurité, chronométrer la durée pour décider d'appeler les secours au-delà de cinq minutes. Une alerte fiable arrivant en moins de six secondes ouvre une fenêtre d'intervention réaliste pour un proche dans la pièce voisine ou pour un système domotique relié à un appel automatisé. Très peu de travaux antérieurs sur la détection vidéo s'imposaient cette discipline temporelle ; la plupart se contentaient d'une accuracy sur fenêtre rétrospective.

Ce qui est moins bien

La validation externe est moins externe qu'il n'y paraît. Les deux centres tertiaires sont chinois, l'équipe principale est basée à Chengdu et Shenzhen, et le jeu de données public indépendant n'est pas nommé dans le résumé — il pourrait être asiatique également. Population, normes d'éclairage, habitudes de mobilier domestique, distribution d'âge et de comorbidités peuvent différer significativement d'autres contextes (Europe, Amérique du Nord, Afrique subsaharienne). C'est précisément le mode d'échec biais de population, doublé d'un biais culturel sur les conditions de prise de vue à domicile. Tant qu'une validation prospective n'a pas été menée hors d'Asie, la promesse de « cross-environment » reste partiellement à démontrer. Par ailleurs, la sémiologie elle-même varie peu d'un continent à l'autre — c'est un avantage du choix de tâche — mais les conditions d'acquisition, elles, varient énormément.

Le comparateur humain est absent du résumé. Les baselines comparées sont des modèles vidéo deep learning. La vraie question clinique est : EpiVLM atteint-il la performance d'un proche entraîné à repérer une crise sur smartphone ? d'un infirmier d'EMU ? d'un épileptologue expérimenté ? Sans cette référence humaine, les chiffres présentés sont relatifs à d'autres modèles, pas à la prise en charge actuelle. C'est un cas classique du mode d'échec comparateur biaisé par omission — le baseline le plus simple (un humain raisonnablement attentif) est invisible. À cela s'ajoute le silence du résumé sur la performance par classe : « accuracy 0,795–0,947 » signifie qu'au moins une sémiologie tombe sous 0,8, et identifier laquelle changerait la lecture clinique de l'outil (probablement les sémiologies non-motrices les plus subtiles, comme les absences ou les automatismes oro-alimentaires).

La déclaration d'absence de conflit d'intérêts mérite questionnement. Les auteurs déclarent no competing interests, mais l'un des co-auteurs (Shixian Wen) est affilié à Brain Everest LLC, une entreprise privée basée à Shenzhen, et un autre (Wentao Wang) à China Telecom Corporation Limited, l'opérateur télécom étatique chinois, deux partenaires industriels naturels pour la commercialisation d'un système d'alerte de crise. La règle internationale (ICMJE) demande de déclarer toute affiliation à une entité qui pourrait bénéficier financièrement du résultat, indépendamment d'un brevet déposé. Cette omission n'invalide pas les résultats, mais elle complique la lecture indépendante des prochaines publications du même groupe. À noter en parallèle qu'il n'y a aucune mention dans le résumé d'un dépôt de brevet sur EpiVLM ; cette information sera à retrouver dans le manuscrit complet.

Ce que ça change

Pour la communauté de recherche en IA-santé, EpiVLM consolide une tendance amorcée fin 2024 : la migration des modèles cliniques vers des architectures vision-langage qui mélangent compréhension visuelle et raisonnement textuel structuré. Le bénéfice de généralisation observé ici — prompts et seuils fixés a priori, performance stable sur trois conditions d'acquisition — donnera de l'eau au moulin de ceux qui défendent les VLM contre les CNN et transformeurs vidéo purs en imagerie clinique. Les groupes travaillant sur la détection de chute, la surveillance néonatale, ou la sémiologie d'autres troubles du mouvement (Parkinson, dystonies) trouveront ici un patron d'évaluation cross-environment qu'ils peuvent reproduire. Reste à voir des réplications par des équipes indépendantes hors d'Asie, et l'apparition d'un benchmark public officiel pour la sémiologie de crise — qui serait l'étape logique suivante.

Pour les épileptologues et les équipes d'EMU, l'usage immédiat le plus crédible n'est pas l'alerte autonome mais le pré-tri : EpiVLM peut diminuer le volume de vidéos à revoir manuellement par un humain expert, en filtrant les segments calmes et en ordonnant les segments suspects par sémiologie probable. La traduction clinique de la sensibilité de 0,90 implique néanmoins qu'une crise sur dix serait manquée par le filtre — ce qui interdit l'usage de l'outil comme remplacement de la revue humaine, mais autorise un usage en assistance avec contrôle. La promesse domiciliaire (alerte famille, journal automatisé de crises) est plus lointaine : elle suppose une intégration matérielle (caméra, calcul local ou cloud privé), une certification réglementaire comme Software as a Medical Device, et une validation prospective sur des familles réelles avec mesure d'impact sur la qualité de vie. Aucune de ces étapes n'est franchie dans l'article.

Pour les patients et leurs proches, l'enseignement utile est que la promesse d'un outil de surveillance à domicile devient techniquement plausible — mais qu'elle reste loin d'être un produit prêt à l'emploi. Aucun système n'est pour l'instant approuvé en France par la HAS ni aux États-Unis par la FDA pour la détection vidéo de crises au domicile. Si une famille filme une crise pour la montrer au neurologue, cette pratique demeure et reste utile, et aucun système actuel n'élimine la nécessité d'un avis humain qualifié. Le bon réflexe en attendant : tenir un journal écrit ou audio des crises, filmer si possible, et discuter de l'opportunité d'un enregistrement vidéo-EEG ambulatoire avec son équipe soignante.

Pour aller plus loin

L'article complet est en accès libre sur le site de npj Digital Medicine : nature.com/articles/s41746-026-02810-3. La classification opérationnelle des types de crise utilisée comme référence par la sémiologie est la classification ILAE 2017. Pour un état antérieur de la détection vidéo de crises avant les VLM : Pérez-García et al., Scientific Reports 2022. Pour notre couverture d'autres applications de vision-language models en clinique, voir notre décryptage de l'étude Restrepo 2026 qui montre que le contexte textuel domine l'image dans les VLM cliniques et notre décryptage de PromptRad sur le prompt-tuning en radiologie.