GigaPath en pathologie numérique : ce que change un foundation model entraîné sur 1,3 milliard de tuiles
Le papier publié dans Nature en mai 2024 par Microsoft Research et Providence Health présente GigaPath, un modèle de fondation pour la pathologie numérique entraîné sur 1,3 milliard de tuiles d'images extraites de 171 189 lames histopathologiques, issues de 30 060 patients couvrant 28 types de cancer. Évalué sur 26 benchmarks publics, il dépasse les modèles antérieurs sur 18 d'entre eux, avec des gains notables sur la classification de sous-types de cancers rares et la prédiction de mutations à partir d'images. C'est un palier méthodologique réel, à lire avec quelques précautions sur la généralisation et la disponibilité du modèle.
Le contexte
La pathologie numérique consiste à numériser les lames de microscope pour les analyser informatiquement. Depuis 2017, l'IA en pathologie reposait sur des réseaux convolutionnels (CNN) entraînés pour des tâches spécifiques — détecter le cancer du sein, classer les sous-types de lymphome, etc. Ces modèles fonctionnaient mais demandaient à chaque fois un dataset annoté propre à la tâche, coûteux à constituer.
L'arrivée des foundation models change cette logique. Ces modèles, pré-entraînés sur d'énormes corpus sans tâche spécifique, apprennent des représentations générales qu'on peut adapter rapidement à n'importe quelle tâche aval avec peu de données annotées. C'est ce qui a transformé le NLP avec BERT puis les LLMs. En pathologie, les premiers vision foundation models à grande échelle sont apparus en 2023-2024 : CTransPath, RudolfV, Prov-GigaPath (le papier décrypté ici) et d'autres.
La méthode
L'architecture est en deux étages. Premier étage, un vision transformer dérivé de DINOv2 extrait des représentations (embeddings) de chaque tuile carrée de 256×256 pixels d'une lame. Ce transformer a 1,1 milliard de paramètres et est entraîné par apprentissage auto-supervisé (sans étiquettes) sur 1,3 milliard de tuiles. Le sigle transformer désigne une architecture neuronale basée sur le mécanisme d'attention, devenue standard depuis 2017 en NLP et plus récemment en vision.
Deuxième étage, un transformer de séquence appelé LongNet agrège les milliers de tuiles d'une lame entière en une représentation globale. LongNet est conçu pour traiter des séquences très longues sans exploser en coût mémoire, ce qui était une limite des transformers classiques face aux lames histopathologiques (qui contiennent typiquement 5 000 à 50 000 tuiles).
Les données d'entraînement viennent du système hospitalier Providence Health, aux États-Unis. 171 189 lames numérisées, 30 060 patients, 28 types de cancer, période 2017-2023. Tous américains, tous d'un seul réseau hospitalier. L'évaluation se fait ensuite sur 26 benchmarks externes publics, couvrant classification de sous-types, détection de mutations génétiques à partir d'images, prédiction de survie.
Les résultats
Sur 18 des 26 tâches testées, GigaPath dépasse l'état de l'art précédent (principalement CTransPath, modèle de référence publié fin 2022). Les gains les plus marqués portent sur trois domaines.
La classification de sous-types de cancers rares, où les datasets traditionnels manquent d'exemples. Sur certaines tâches de classification de lymphomes ou de sarcomes, GigaPath gagne 3 à 8 points d'AUC (aire sous la courbe ROC, qui mesure la capacité à distinguer un positif d'un négatif — 1 est parfait, 0,5 est le hasard).
La prédiction de mutations génétiques à partir des images seules — par exemple détecter une mutation PIK3CA dans le cancer du sein juste en regardant les coupes histologiques, sans séquencer l'ADN. C'est un usage non évident des images, et GigaPath y gagne plusieurs points d'AUC sur des mutations comme TP53, KRAS, PIK3CA.
La prédiction de survie pour certains cancers à partir de l'image histologique. Sur le glioblastome et certains sous-types de cancer du sein, GigaPath améliore la stratification des patients en groupes de risque.
Ce qui est bien
Trois forces notables.
L'échelle d'entraînement est sans précédent. CTransPath en 2022 utilisait 32 000 lames. GigaPath en utilise 171 000. La règle des foundation models — *plus de données, plus de paramètres, mieux ça marche* — semble tenir aussi en pathologie.
L'architecture LongNet est un vrai apport technique. Elle permet pour la première fois de traiter une lame entière sans la découper artificiellement, et donc de capturer des relations spatiales entre régions distantes — utile par exemple pour les cancers à composante stromale étendue.
Le code et les poids du modèle ont été publiés sur GitHub et Hugging Face, sous licence non-commerciale mais accessible à la recherche académique. C'est mieux que les modèles entièrement propriétaires de certains concurrents, et permet la réplication et l'extension par d'autres équipes.
Ce qui est moins bien
Trois limites sérieuses à garder en tête.
Les données d'entraînement viennent d'un seul système hospitalier. Providence Health est un grand réseau (51 hôpitaux), mais tous américains, avec des protocoles de fixation et de coloration probablement homogènes. La pathologie est sensible aux variations de pratiques techniques entre laboratoires — un même cancer ne ressemble pas exactement à lui-même selon le scanner utilisé, le temps de fixation, l'opérateur. Aucune validation prospective sur des populations européennes, asiatiques ou africaines n'est rapportée. La performance reste à prouver hors du contexte américain.
La licence non-commerciale verrouille l'usage clinique réel. Aucun hôpital ne peut déployer GigaPath en production diagnostique sans renégocier avec Microsoft. C'est compréhensible commercialement, mais cela signifie que le modèle reste un outil de recherche, pas un outil clinique. Plusieurs concurrents — RudolfV (Aignostics), Virchow (Paige) — sont eux aussi sous licences restrictives ou entièrement propriétaires. Le champ a un problème de bien commun.
L'évaluation comparative est partielle. GigaPath est comparé principalement à CTransPath (2022) et à quelques modèles antérieurs. Or 2024 a vu émerger en parallèle plusieurs autres foundation models en pathologie (RudolfV, Virchow, Phikon-v2) qui ne sont pas systématiquement comparés. Sans benchmark indépendant et rigoureux entre ces modèles, l'affirmation « état de l'art » mérite prudence.
Mention complémentaire : tous les auteurs principaux travaillent chez Microsoft Research ou Providence Health, qui détiennent les droits du modèle. Cinq des sept auteurs corresponding sont employés du sponsor. Cela ne disqualifie pas le résultat, mais une étude de réplication indépendante serait bienvenue.
Ce que ça change
Pour la communauté de recherche, c'est une nouvelle baseline. GigaPath rejoint quelques autres modèles disponibles qu'on peut fine-tuner sur n'importe quelle tâche pathologie avec peu de données annotées. Le coût d'expérimentation baisse, l'innovation s'accélère.
Pour les cliniciens pathologistes, rien ne change immédiatement. Aucun déploiement en routine n'est imminent — il faudrait validation prospective multi-centres, certification réglementaire (FDA SaMD, CE), intégration dans les workflows existants des systèmes de gestion de lames numériques. Horizon réaliste : 3 à 7 ans pour un usage clinique généralisé, avec d'abord des indications limitées (sous-typage de tumeurs rares, où l'IA est plus rapide que la consultation d'experts).
Pour les patients et le grand public, le changement est à venir mais réel. La pathologie est la discipline médicale la plus susceptible d'être profondément transformée par l'IA dans les dix prochaines années, parce qu'elle repose entièrement sur l'analyse visuelle de patterns — exactement ce que ces modèles font. Ce qui se prépare en silence dans les papiers comme GigaPath finira par changer la rapidité, la cohérence et probablement la précision des diagnostics oncologiques.
Pour aller plus loin
Le code et les poids de Prov-GigaPath sont disponibles sur GitHub et Hugging Face sous licence non-commerciale. Pour le panorama des autres foundation models en pathologie, voir la revue de 2024 de Zhang et al. dans npj Digital Medicine. Pour le débat sur la régulation FDA des modèles de fondation en imagerie, le rapport 2024 de la FDA sur les "AI/ML-Enabled Medical Devices" est en accès libre.