médical IA

用于卒中后个体化认知预后的自动化神经影像流水线（Brzus 2026年，npj Digital Medicine）

发布于 2026年5月28日 · 12 分钟阅读

Michal Brzus、Joseph Griffis、Aaron D. Boes及其同事（爱荷华大学）于2026年5月27日在《npj Digital Medicine》发表了一个全自动化的流水线：它可以摄入原始DICOM格式的脑部MRI，自动分割缺血性病灶，通过病灶网络映射（lesion network mapping）预测28项个体神经心理学结局，并由一个开源权重的大语言模型撰写个性化报告——整个流水线每例患者运行时间不到三分钟。模型在爱荷华病灶登记库的604例患者上训练，在一个独立队列上评估：153例缺血性卒中患者，2002–2023年间使用17种不同型号扫描仪（Siemens、Philips、GE、Olea Medical）成像。在五个详细的认知领域上AUC在0.74至0.90之间，自动分割与手动分割得到的预测之间一致性达96%，LLM报告由LLaMA 3.3 70B在物理隔离（air-gapped）环境下生成，并有明确的护栏机制——但阅读时必须保持四点主要保留：训练集和测试集均来自同一所机构（爱荷华），未报告任何标准临床比较器（NIHSS、mRS、纯人口学），报告的最终临床验证由资深作者本人完成，且七位作者中有四位持有相关专利并共同创立了将商业化该技术的初创公司NeuroPred Inc.。

背景

卒中是全球第二大死亡原因，也是成人后天性致残的首要原因。康复轨迹高度异质——两位病灶体积相当的患者，最终的认知后遗症可能截然不同，这取决于受损组织的精确位置，以及它所嵌入的功能网络。临床常规使用的工具——入院时严重程度的NIHSS评分、整体功能障碍的改良Rankin量表（mRS）、以及MoCA等几个认知筛查工具——仍然粗糙，几乎从不考虑个体化的损伤映射，对认知功能细节的预后价值较弱。

自2015年以来，主要由爱荷华Aaron Boes团队和哈佛Michael Fox团队发展起来的病灶网络映射（lesion network mapping）领域，提供了另一种途径：将每个个体病灶投影到规范化的结构和功能连接组上，识别的不仅是受损组织，更是它所中断的网络。同一团队的多篇论文（Bowren等，Brain 2022；J. Neurosci. 2020）已经证明，这些映射比病灶简单的大小或粗略位置更能预测慢性认知结局。剩下要做的就是把这一研究方法——迄今为止还是手工且要求很高——转化为一个可部署的临床工具。Brzus 2026这篇论文正是在尝试这件事。

方法

本研究由爱荷华大学Carver医学院神经病学家Aaron D. Boes领导，电气工程方向（Michal Brzus）与神经病学方向（Joseph Griffis，2021–2023年曾任职于Omniscient Neurotechnology）的共同第一作者各一名。2026年5月27日发表于npj Digital Medicine，DOI 10.1038/s41746-026-02803-2，采用CC BY 4.0许可。公共经费资助（NIH R01 NS114405、Roy J. Carver Trust、MRI设备1S10OD025025-01）。论文以"Article in Press"未编辑版本发布，仍有可能修订。

流水线由四个组件串联而成。第一，DICOM预处理模块：自研分类器（dcm_classifier，已发布在PyPI）识别成像模态和采集平面，号称准确率高于99%。一个3D Residual U-Net执行脑掩膜（去颅骨），平均Dice分数为0.98。SynthSR工具（Iglesias等，Science Advances 2023）从可用序列合成高分辨率T1，以稳定向MNI-152图谱的配准（2 987张验证图像上成功率99.7%）。第二，缺血性病灶分割由另一个3D Residual U-Net完成（在约450例爱荷华受试者 + 250例ISLES 2022挑战赛受试者上训练），仅使用扩散序列（DWI + ADC）——作者验证过添加T1、T2或FLAIR并不带来统计显著的改进。第三，认知预测通过Iowa Brain-Behavior Modeling Toolkit（Griffis等，Human Brain Mapping 2024）：28个二分类偏最小二乘（Partial Least Squares）分类模型（受损/未受损），每个都结合三种表示——病灶的体素级掩膜、结构性病灶网络映射（sLNM，通过Lead-DBS在HCP MGH 32-fold连接组上计算）、功能性病灶网络映射（fLNM，在GSP-1000规范样本上计算）——由一个同时纳入年龄和教育程度的ridge逻辑回归聚合。第四，报告模块把预测结果和解剖映射喂给LLaMA 3.3 70B，该模型通过Ollama本地托管在一个完全无互联网访问的隔离Docker容器中，将其格式化为可读的PDF（SMOG阅读等级6.6，即美国6–7年级水平），以DICOM封装后送回PACS。

认知模型的训练使用604例患者，数据来自Iowa Lesion Registry（病因混合：卒中，也包括肿瘤和外伤，作者承认这是一项局限），其中98.7%的患者在病灶发生至少三个月后进行了神经心理学评估。端到端评估在153例缺血性卒中患者上进行，数据来自Benton神经心理学诊所（同样在爱荷华大学），所有患者在卒中后一周内成像，时间跨度为2002年至2023年，使用了四家厂商的17种型号扫描仪，磁场强度为1.5 T和3 T。

结果

分割检测到93%的1 cm³以上病灶，以及98%的2.5 cm³以上病灶，平均Dice分数为0.69（2015年后的扫描仪上为0.74），与ISLES 2022挑战赛中表现最佳的系统相当。摘要中突出的96%一致性实际上指的是自动分割与专家手工分割所得到的预测认知分类之间的一致性（57例患者上的681个个体预测）——而不是分割本身的原始一致性，这个区别在快速阅读时很容易丢失。

认知表现报告涵盖28项神经心理学结局。为覆盖不同领域而详细给出的五个例子，AUC在0.74至0.90之间：表达性语言（言语流畅度，AUC ≈ 0.90）、接受性语言（Token Test）、视空间（Judgment of Line Orientation，敏感性91% / 特异性71%）、听觉工作记忆（Digit Span）、执行功能（Trails B）。建模策略的比较显示，在仅使用病灶的基础上添加网络映射带来显著增益（Wilcoxon符号秩检验N=28，p=0.007），再加入人口学协变量进一步提升（p=0.002）。然而作者明确承认，28项结局上的AUC差异很大：一些模型超过0.8，许多在0.6至0.8之间，少数则低于0.5——也就是比随机猜测更差。特异性也从训练交叉验证（Token Test为0.84）大幅下降到独立测试集（0.55），提示阈值校准存在问题。运行时间方面，完整流水线在Xeon + RTX 6000 Ada 48 GB工作站上平均耗时121秒，95%的病例在三分钟以内完成。

临床转换。为了固定这些数字的现实意义，假设有1 000例缺血性卒中患者按此流水线常规成像：70例携带小病灶（<1 cm³）的患者会在分割阶段被遗漏——而这恰恰是临床上认知风险最难评估的那一群人。在剩下的930例中，LLM报告会针对28项认知功能给出个体概率；实际上，约三分之二的概率是有用的（AUC ≥ 0.7），而三分之一要么不确定要么有误导性。在观察到的特异性约为55%的情况下，被标记为某一认知领域"高风险"的患者中，几乎一半实际上是假阳性。这是一项严肃的决策辅助工具，前提是临床医生和患者真正理解这些数字到底在说什么。

好的方面

端到端的整合在技术上已经成熟，输出格式为临床而设计。流水线摄入原始DICOM，处理17种型号扫描仪和三家主要厂商，在一台工作站上不到三分钟内运行完毕，并将DICOM封装的PDF直接送回医院PACS。很少有卒中后预测的论文在部署工程方面走得这么远；多数停留在干净数据集上评估出来的一个模型。

LLM的使用不寻常地谨慎，且在临床上确实有用。模型（LLaMA 3.3 70B）在本地运行，无互联网访问，从不接收图像或临床记录，其角色被明确限定为对固定模板进行自然语言格式化，并且事后由一个Markdown解析器检查模板遵从性。这一架构切断了医疗领域生成式AI典型失败模式（数字幻觉、PHI泄漏、未经请求的治疗建议）的根源。SMOG 6.6的阅读等级还意味着报告对患者本人也是可读的，这是一个连贯的编辑选择。

方法学根植于十年的相互呼应的工作，且预测元架构严谨。"病灶位置 + sLNM + fLNM"经ridge回归聚合的方法并非为此次新创：它延续了该团队十年的工作（Boes Brain 2015、Bowren Brain 2022、Griffis HBM 2024），采用分层5×5交叉验证、1 000次置换检验，以及对各策略的正式统计比较。IBB工具箱和dcm_classifier的代码在Zenodo和PyPI上公开。

不太好的方面

所声称的异质性并不是真正的外部验证。论文强调17种型号扫描仪和二十年的数据，但训练（Iowa Lesion Registry）和测试（Benton神经心理学诊所）都来自爱荷华大学。地区人群、本地神经心理学方案、以同一队列校准的损伤分类标准：模型从未面对过来自另一家医院系统、另一个地区、另一主体民族的患者。这是人群偏倚失败模式，再叠加一种特别隐蔽的捷径学习变体——模型可能学到的是识别队列特征，而不是病灶-认知关系。向其他中心的推广有待证明。

未报告任何标准临床比较器。作者承认"很难与其他已发表模型直接比较"，但这并不能解释为什么连最简单的基线都缺席：一个仅使用年龄、教育和NIHSS严重程度的模型能否做得一样好？没有这个参照点，也没有与竞争性影像模型（Liu Stroke 2023、Matsulevits bioRxiv 2025）的正面比较，就不可能量化网络映射相对于一个朴素的三变量逻辑回归所带来的真实增益。这是因省略而触发的比较器偏倚失败模式。

LLM报告的临床验证由资深作者本人完成。在生成的153份报告中，作者宣称技术复审中"未识别到任何幻觉或结构漂移"，随后一位获得卒中专科认证的神经病学家复审了三十份报告（≈20%），未发现任何会影响患者管理的错误。而这位神经病学家就是A.D.B.，即Aaron D. Boes——通讯作者、专利共同发明人，也是即将商业化此项技术的NeuroPred Inc.的联合创始人。由一位外部临床医生进行盲评本可大大增强这一结果的可信度。再加上某些结局的AUC低于0.5（这一信息未出现在摘要中），以及"96%一致性"指标实际衡量的是两种分割方式之间的一致而非与临床金标准的一致——两个细微之处都很容易在快速传播中丢失。

带来的改变

对计算神经病学研究界而言，这篇论文标志着病灶网络映射方法走向工业化成熟。该方法以往依赖人工研究流水线，在时间和专业能力上都要求很高（神经放射科医生进行分割、MNI归一化、连通性计算）。全面自动化重新洗牌了这一领域——未来的论文将不得不与一个快速且可重现的流水线对位，而没有资源建立自己基础设施的实验室也能依托已公开的开源组件。但今后的评估应系统性地要求真正的多中心验证，以及与NIHSS和mRS的正面比较。

对血管神经病学家和康复团队而言，信息是"知情的谨慎"。作者自己也明确表示，他们"并不主张以当前形式临床使用结局预测组件"——这一冷静的声明值得被记住。该工具尚未准备好改变个体治疗决策，但它已经可以承担两个角色：与患者及家属进行结构化沟通的辅助（在不到三分钟内生成一份中学水平可读的报告），以及早期康复规划的支持；它还可以作为前瞻性研究的基础，让流水线与参考神经心理学评估并行验证。专利申请中和NeuroPred Inc.的成立预示一条商业轨迹，这一轨迹需要持续观察，特别是未来队列上校准过程的透明度。

对患者和大众而言，有用的启示是细腻的。从一次标准MRI出发，在不到三分钟内得到个性化认知预后的承诺是真实的，并且正在到来；它很可能在未来五到十年内重塑卒中后的对话。但一个数字概率并不是命运。当一份报告写出，例如，"工作记忆缺陷高风险"时，临床医生需要能够翻译出：这个估计基于一个爱荷华队列，在假阳性方向上几乎每两次就错一次，而且完全忽略了康复的非脑部决定因素（动机、社会支持、康复可及性、合并症）。绘制一个病灶，并不能穷尽一个生命的预后。

延伸阅读

完整论文可在npj Digital Medicine网站上以开放获取方式查阅：nature.com/articles/s41746-026-02803-2。流水线的公开组件：PyPI上的dcm_classifier，以及Zenodo上的Iowa Brain-Behavior Modeling Toolkit。该团队关于基于病灶网络映射的预测的奠基性论文：Bowren等，Brain 2022。关于卒中后结局预测局限的近期方法学批评：Sperber等，Brain Communications 2025——作者自己也引用了这篇。关于我们对LLM在临床中批判性使用的报道，参见我们对Auger 2026研究关于多发性硬化中前沿LLM的解读。