Décryptages

Décryptages

Tous les décryptages de publications scientifiques sur Tatakoto.

5 juin 2026 · 10 min

BreastGPT : un seul modèle multimodal pour tout le parcours du cancer du sein — ce que vaut vraiment un score de 90 % sur un benchmark maison (Liu et al. 2026, arXiv)

Décryptage du preprint déposé le 3 juin 2026 sur arXiv par Yang Liu et collègues (DAMO Academy d'Alibaba, Université du Zhejiang, Hupan Lab, West China Hospital, China Medical University) : BreastGPT, un modèle de langage multimodal de 8 milliards de paramètres censé couvrir tout le parcours clinique du cancer du sein — dépistage, diagnostic, planification du traitement — sur cinq modalités d'imagerie (mammographie, échographie, IRM, scanner, lames de pathologie) et le texte. Entraîné sur 1,86 million de paires question-réponse construites par les propres grands modèles d'Alibaba, il atteint 75,66 % d'exactitude sur les questions à choix et 89,92 % sur les questions ouvertes de son propre benchmark BreastStage-Bench. Une prouesse d'ingénierie réelle, mais l'essentiel de l'écart vient de l'entraînement sur la distribution exacte du test : le comparateur équitable ne gagne que quelques points, rien n'a été évalué sur de vrais patients ni comparé à des cliniciens, et le corpus est en grande partie généré par les modèles maison.

médical IA Lire l'article →
4 juin 2026 · 11 min

MCEN : prédire la réponse complète à la chimiothérapie du cancer du sein à partir d'une biopsie, avec l'architecture Mamba (Zhang et al. 2026, npj Digital Medicine)

Décryptage de l'article publié le 2 juin 2026 dans npj Digital Medicine par Wenchuan Zhang, Shuwan Zhang, Fengling Li, Qingjie Lv, Yuhao Yi et Hong Bu (West China Hospital, Université du Sichuan, et coll.) : MCEN, un modèle d'apprentissage profond fondé sur l'architecture Mamba qui prédit, à partir d'une biopsie à l'aiguille analysée en lame numérique, si une patiente atteinte d'un cancer du sein obtiendra une réponse pathologique complète après chimiothérapie néoadjuvante. Entraîné sur 1 023 patientes d'un hôpital chinois puis testé sur quatre centres indépendants (1 646 patientes au total), il atteint une AUROC de 0,923 à l'entraînement mais retombe à 0,76–0,81 en validation externe, la fusion avec les données clinicopathologiques montant jusqu'à 0,84. Solide par sa vraie validation multicentrique et l'efficacité de Mamba sur les images gigapixels, le travail reste limité par un écart entraînement-validation marqué, une cohorte exclusivement chinoise, des exclusions qui écartent les formes atypiques, et l'absence de comparaison aux pathologistes.

médical IA Lire l'article →
3 juin 2026 · 12 min

SKELEX : un foundation model entraîné sur 1,3 million de radiographies pour lire l'os, du kyste à la fracture (Kim et al. 2026, npj Digital Medicine)

Décryptage de l'article publié le 2 juin 2026 dans npj Digital Medicine par Shinn Kim, Soobin Lee, Ilkyu Han, Sunghoon Kwon et leurs collègues de l'Université nationale de Séoul : SKELEX, présenté comme le premier foundation model à grande échelle dédié aux radiographies de l'appareil locomoteur. Un autoencodeur masqué à dorsale ViT-Large est pré-entraîné de façon auto-supervisée sur 1 296 540 radiographies non annotées d'un seul hôpital coréen (2010-2016), puis adapté à 12 tâches diagnostiques sur 7 jeux de données publics. Il dépasse cinq modèles de référence de 6,21 % en moyenne relative (AUROC de 0,953 contre 0,884 pour son propre modèle d'initialisation sur la détection de tumeur osseuse), est mieux calibré et atteint la performance des meilleurs avec deux fois moins d'étiquettes. Convaincant sur l'efficacité-étiquette et l'hygiène méthodologique, le travail reste limité par des données d'entraînement mono-centre et mono-pays, une vraie validation externe restreinte à la seule application tumeur osseuse, l'absence de comparaison aux radiologues, une résolution réduite à 224×224, et des poids diffusés pour le seul usage académique.

médical IA Lire l'article →
2 juin 2026 · 12 min

PINNOCHIO : prédire le visage post-opératoire en chirurgie orthognathique avec un réseau contraint par la physique, aussi précis que les éléments finis mais en quelques secondes (Lee et al. 2026, arXiv)

Décryptage du preprint mis en ligne le 1er juin 2026 sur arXiv (soumis à MICCAI 2026) par Jungwook Lee, Daeseung Kim, Kevin Gu, Zhangfeng Hu, Tianshu Kuang, Finn Hopeman, Michael A.K. Liebschner, Jaime Gateno et Pingkun Yan (Rensselaer Polytechnic Institute, Houston Methodist, Baylor College of Medicine) : PINNOCHIO, un réseau de neurones contraint par la physique qui prédit la déformation des tissus mous du visage après repositionnement des mâchoires, en séparant le mouvement de l'interface os–tissu de la déformation hyperélastique du volume. Sur 40 cas cliniques réels (scanner pré-opératoire + surface 3dMD post-opératoire), il égale ou dépasse le simulateur par éléments finis de référence sur la fidélité de surface (distance de Chamfer 1,12 mm contre 1,30 ; 86,55 % des points à moins de 2 mm contre 80,90 %) tout en s'exécutant en 3,24 secondes au lieu de 3,5 heures. Convaincant sur la vitesse et la plausibilité biomécanique, le travail reste limité par une cohorte de 40 patients, une supervision qui ne porte que sur la surface externe, des paramètres mécaniques fixes identiques pour tous, et l'absence de code ou de poids publiés.

médical IA Lire l'article →
1 juin 2026 · 11 min

Quand un LLM doit mener l'interrogatoire lui-même : un banc d'essai inspiré de l'examen clinique montre que le raisonnement diagnostique interactif fait chuter la performance (Zhan & Gan 2026, arXiv)

Décryptage du preprint mis en ligne le 21 mai 2026 sur arXiv par Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu et Lu Gan : un banc d'essai « OSCE-inspiré » où un simulateur de patient standardisé oblige quinze grands modèles de langage (LLM) à mener eux-mêmes l'interrogatoire, tour après tour, avant de poser un diagnostic. Sur 468 cas, le passage de l'information servie d'emblée à la collecte active de l'anamnèse fait chuter l'exactitude diagnostique de 12,75 % et la qualité des preuves invoquées de 24,36 %, les erreurs venant surtout d'une fermeture diagnostique prématurée et d'un questionnement inefficace. Conclusion sobre et utile : les classements obtenus sur des QCM médicaux statiques surestiment probablement ce dont ces modèles sont capables en consultation réelle. Limites : un simulateur de patient lui-même algorithmique, une provenance des cas non détaillée dans le résumé accessible (risque de contamination), et des chiffres rapportés en valeurs relatives sans comparateur humain explicite.

médical IA Lire l'article →
31 mai 2026 · 12 min

GTBIS : un modèle de deep learning qui lit la morphologie des carcinomes neuroendocrines pulmonaires combinés pour en prédire le pronostic (Yang & Zhou 2026, npj Digital Medicine)

Décryptage de l'étude de Lin Yang, Ruyu Sheng, Zijian Yang, Shilong Liu et Meng Zhou (National Cancer Center / Cancer Hospital de l'Académie chinoise des sciences médicales à Pékin, Wenzhou Medical University et Harbin Medical University Cancer Hospital) publiée le 30 mai 2026 dans npj Digital Medicine : GTBIS, un modèle de deep learning interprétable qui analyse la morphologie des lames de pathologie pour distinguer le carcinome à petites cellules (SCLC) du carcinome neuroendocrine à grandes cellules (LCNEC), puis applique cette lecture aux tumeurs combinées cSCLC-LCNEC afin d'en stratifier le pronostic. Sur des cohortes multicentriques totalisant 670 patients, le modèle sépare les tumeurs combinées traitées par chimioradiothérapie en un sous-groupe SCLC-like de pronostic favorable (survie globale à cinq ans de 100 % contre 39,5 %, survie sans maladie de 87,5 % contre 36,0 %) et un sous-groupe LCNEC-like de mauvais pronostic, la classification restant un facteur pronostique indépendant en analyse multivariée. Mais l'effectif est modeste, les centres sont exclusivement chinois, la validation est rétrospective sans comparateur humain explicite, et la licence CC BY-NC-ND ferme l'adaptation.

médical IA Lire l'article →
30 mai 2026 · 12 min

Pathog-PDx : un système d'apprentissage automatique pour identifier 22 pathogènes respiratoires pédiatriques à partir du dossier électronique (Su 2026, npj Digital Medicine)

Décryptage de l'étude de Dubin Su, Qun Chen, Ruizhi Xu et collègues (First Affiliated Hospital of Xiamen University, Zhengzhou University, Nanjing University, Shenzhen Second People's Hospital et UIUC) publiée le 29 mai 2026 dans npj Digital Medicine : un système de diagnostic baptisé Pathog-PDx qui combine 42 variables cliniques et biologiques tirées du dossier électronique pour distinguer 22 sous-types de pathogènes responsables d'infections respiratoires chez l'enfant hospitalisé. Cohorte de développement de 134 500 enfants sur trois centres et deux bases de données, validation prospective indépendante sur 1 338 enfants, AUC moyenne 0,88 sur les 22 pathogènes et 0,95 pour le virus de la grippe, déploiement en ligne d'un système d'aide à la décision. Mais tous les centres de développement sont chinois, le comparateur clinique humain est absent, la licence CC BY-NC-ND ferme l'adaptation académique, et la nature même du gold standard à 22 classes mérite d'être discutée.

médical IA Lire l'article →
29 mai 2026 · 12 min

EpiVLM : un modèle vision-langage pour détecter et classer les crises d'épilepsie sur vidéo, de l'hôpital au domicile (He 2026, npj Digital Medicine)

Décryptage de l'étude de Mengqiao He, Leihao Sha, Pengfei Wei, Lei Chen et collègues (West China Hospital, Sichuan University et Shenzhen Institutes of Advanced Technology, CAS) publiée le 26 mai 2026 dans npj Digital Medicine : un modèle vision-langage (VLM) baptisé EpiVLM qui combine des prompts cliniquement structurés et un raisonnement vidéo pour reconnaître cinq sémiologies de crise épileptique sur 232 enregistrements vidéo de 127 patients (11 666 segments annotés) issus de deux centres tertiaires, de domiciles non contraints et d'un jeu de données public indépendant. Précision 0,795 à 0,947, sensibilité 0,842 à 0,957, faux positifs vidéo 0,47 à 2,45 %, délai onset-to-detection moyen inférieur à 6 secondes, prompts et seuils fixés a priori sans recalibrage. Mais centres principalement chinois, contenu détaillé de la cohorte « domicile » peu décrit dans le résumé, absence de comparaison frontale avec annotateurs humains, et une affiliation commerciale (Brain Everest LLC) chez l'un des co-auteurs sans déclaration d'intérêts.

médical IA Lire l'article →
28 mai 2026 · 12 min

Pipeline neuro-imagerie automatisé pour le pronostic cognitif post-AVC (étude Brzus 2026, npj Digital Medicine)

Décryptage de l'étude de Michal Brzus, Joseph Griffis, Aaron D. Boes et collègues (Université d'Iowa) parue le 27 mai 2026 dans npj Digital Medicine : un pipeline DICOM vers PDF entièrement automatisé qui segmente les lésions ischémiques par 3D Residual U-Net, prédit 28 outcomes neuropsychologiques par lesion network mapping, et rédige un rapport personnalisé via LLaMA 3.3 70B air-gapped, en moins de trois minutes. Entraînement sur 604 patients de l'Iowa Lesion Registry, test indépendant sur 153 patients AVC ischémique imagés sur 17 modèles de scanners. AUC de 0,74 à 0,90 sur cinq domaines cognitifs détaillés, 96 % de concordance entre prédictions issues de segmentations automatiques et manuelles. Mais entraînement et test du même centre, aucun comparateur clinique (NIHSS, mRS, démographie seule), revue clinique des rapports par l'auteur senior lui-même, et quatre des sept auteurs détiennent le brevet associé et co-fondent NeuroPred Inc.

médical IA Lire l'article →
27 mai 2026 · 12 min

SHAP et SVM pour prédire la thrombose veineuse profonde après chirurgie du cancer de l'endomètre (étude Zhou 2026, npj Digital Medicine)

Décryptage de l'article de Qing Zhou et collègues paru le 27 mai 2026 dans npj Digital Medicine : un modèle SVM à quatre variables (D-dimères postopératoires, âge, fibrinogène, stade FIGO) prédit la thrombose veineuse profonde après chirurgie du cancer de l'endomètre, avec AUC 0,828 en validation interne et 0,819 en cohorte externe sur 841 + 95 patientes chinoises. SHAP rend les contributions interprétables. Mais imagerie déclenchée par symptômes (biais de détection), cohorte 100 % chinoise, pas de comparaison frontale avec les scores Caprini/Wells, et D-dimères mesurés après la chirurgie — il s'agit donc plus d'une aide à la détection précoce que d'une prédiction stricte.

médical IA Lire l'article →
26 mai 2026 · 11 min

UNet-MoE-Cli : un mixture-of-experts pour personnaliser le néoadjuvant du cancer du rectum (étude Liu 2026, npj Digital Medicine)

Décryptage de l'article de Xiangyu Liu et collègues paru le 26 mai 2026 dans npj Digital Medicine : UNet-MoE-Cli, un mixture-of-experts deep learning sur IRM multiparamétrique et variables cliniques, estime régime par régime la probabilité de réponse pathologique complète au néoadjuvant du cancer du rectum localement avancé. AUC 0,827 en validation interne, 0,790 en cohorte prospective (ChiCTR2400085797), mais sensibilité de 0,45–0,53 seulement, expert nCT mono-centre, cohorte 100 % chinoise, et bénéfice de l'escalade calculé par le modèle lui-même.

médical IA Lire l'article →
25 mai 2026 · 9 min

Quand le texte mange l'image : ce que l'étude Restrepo 2026 révèle sur la fragilité contextuelle des VLMs cliniques sur MIMIC-CXR

Décryptage du preprint arXiv 2605.17436 du 17 mai 2026 de David Restrepo (CentraleSupélec-Université Paris-Saclay) et collègues : huit modèles vision-langage évalués sur 1 000 radiographies thoraciques MIMIC-CXR perdent jusqu'à 66 % de leurs bonnes décisions quand on remplace le texte du dossier par celui d'un patient de classe opposée. Image-seule plafonne à 0,50–0,68, texte-seul égale le multimodal. Même MedGemma adapté au médical s'effondre. Ces VLMs sont des classifieurs de comptes-rendus déguisés en lecteurs d'images.

médical IA Lire l'article →
24 mai 2026 · 8 min

PromptRad : étiqueter des comptes-rendus de scanner du foie avec 32 exemples annotés, et faire jeu égal avec GPT-4

Décryptage du preprint arXiv 2605.20052 (BioNLP 2026 @ ACL) de Ying-Jia Lin et collègues (Chang Gung University, Taïwan) : un PubMedBERT de 110 millions de paramètres, ajusté par prompt-tuning avec un verbalisateur enrichi par UMLS, atteint 89,2 % de F1 macro sur sept catégories de lésions hépatiques en scanner — à partir de 32 comptes-rendus annotés seulement, et avec une meilleure gestion des négations que GPT-4.

médical IA Lire l'article →
23 mai 2026 · 9 min

10 000 cas synthétiques contre quatre LLM frontières : ce que l'étude Auger 2026 révèle sur les angles morts de Gemini 3 et GPT-5 en sclérose en plaques

Décryptage du preprint medRxiv d'avril 2026 de Stephen D. Auger (Imperial College London) : jusqu'à 10 000 cas synthétiques de sclérose en plaques avec vérité-terrain, quatre modèles frontières (Gemini 3 Pro/Flash, GPT-5.2/5-mini) évalués sur diagnostic, localisation, examens et conduite à tenir. La précision diagnostique ne prédit pas la sécurité thérapeutique : Gemini sous-utilise les corticoïdes appropriés, GPT-5 propose une thrombolyse intraveineuse dans près d'un cas sur dix.

médical IA Lire l'article →
22 mai 2026 · 8 min

GPT-4 en radiologie : pourquoi le format d'explication d'un LLM change la précision diagnostique des médecins

Décryptage du papier npj Digital Medicine 2026 de Spitzer et al. : essai randomisé sur 101 radiologues comparant trois formats d'explication de GPT-4. Le chain-of-thought apporte 12,2 points de précision, le diagnostic différentiel induit un biais d'automatisation. Implications pour le déploiement clinique des LLMs.

médical IA Lire l'article →
21 mai 2026 · 8 min

GigaPath en pathologie numérique : ce que change un foundation model entraîné sur 1,3 milliard de tuiles

Décryptage du papier Nature 2024 sur Prov-GigaPath, foundation model transformer pour la pathologie numérique. Architecture, données, performance sur 26 benchmarks de cancer, et ce que cela change vraiment pour le diagnostic.

médical IA Lire l'article →