Pathog-PDx:一个从电子病历识别22种儿童呼吸道病原体的机器学习系统(Su 2026, npj Digital Medicine)
由厦门大学附属第一医院(宁万山,通讯共同作者)牵头,与郑州大学、南京大学、深圳市第二人民医院以及美国伊利诺伊大学厄巴纳-香槟分校的合作者共同完成的Dubin Su、Qun Chen、Ruizhi Xu等,于2026年5月29日在npj Digital Medicine发表Pathog-PDx——一个机器学习系统(machine learning:一族从带标签样本学习决策规则的技术)——它综合电子病历中42项临床与实验室特征,用于区分22种住院儿童呼吸道感染病原体亚型。开发队列涵盖三家临床中心与两个数据库的134,500名儿童;独立前瞻验证队列1,338名儿童;22种病原体的平均AUC(受试者工作特征曲线下面积,在0.5到1.0之间度量阳性与阴性样本的区分能力)为0.88;流感病毒的AUC为0.95,敏感度0.88,特异度0.86;明确处理共感染;并以公开web服务方式部署了一套决策支持系统。然而需保留四点:所有开发中心均在中国;摘要未提供人类临床比较;CC BY-NC-ND许可证关闭了学术性二次开发;用以为22个类别打标签的金标准本身值得单独讨论——分子检测在不同病原体上的精度差异显著。
背景
急性呼吸道感染是全球儿童发病的首要原因,根据世卫组织,也是5岁以下儿童死亡的第二大原因。当一名发热伴症状的儿童入院时,治疗决策取决于病原体:肺炎链球菌或肺炎支原体使用抗生素,流感病毒或SARS-CoV-2使用靶向抗病毒药,呼吸道合胞病毒(RSV)或普通鼻病毒则仅需对症支持。临床上医生往往在检测结果出来之前就要做决定:多重PCR与培养通常需要6至48小时才能给出可操作的结果,而奥司他韦对流感的疗效窗口在最初48小时内便接近关闭。Pathog-PDx瞄准的,正是决策与诊断之间的这道缝隙。
既往方法主要聚焦于一种或少数几种病原体——典型是以床旁临床变量或影像图像为输入、训练用以识别RSV毛细支气管炎、肺炎链球菌肺炎或Covid-19的二分类模型。同时对22种病原体亚型进行分类、并明确处理共感染(同一名儿童可同时存在两到三种病原体)是相对较新的目标,在已发表文献中仍不多见。Pathog-PDx的押注是:从电子病历(EHR)聚合而成的、跨器官的稳定信号——血常规、炎症标志物、基本生化、编码的临床体征、合并症——所携带的信息足以在特异性微生物检测结论出炉之前预判诊断方向。
方法
研究由宁万山(厦门大学附属第一医院临床医学研究院)主导,共同通讯作者包括杨永刚(同一机构儿科)、郭亚萍(郑州大学基础医学院)和杨晶晶(厦门大学附属第一医院呼吸与重症医学)。合作者共享十一个机构隶属,大多为中国机构(厦门、南京、郑州、深圳、复旦大学附属儿科医院厦门院区),加上UIUC Siebel School of Computing and Data Science的一位作者(Jiajun Fan)。文章于2026年5月29日发表于npj Digital Medicine,DOI 10.1038/s41746-026-02818-9,许可协议为CC BY-NC-ND 4.0(非商业、不得演绎)——后文将回到这一点。资助全部来自中国政府公共项目(国家重点研发计划2021ZD0201300与2022YFC2704300、国家自然科学基金32400532与32570802、福建、河南与厦门的省市项目)。作者声明无利益冲突。手稿以"未编辑"(Article in Press)版本发布,仍可能修订。
系统命名为Pathog-PDx(Pathogen Diagnostic System for Pediatric Respiratory Infections)。输入为电子病历中的42项变量——儿童人口学信息、入院时编码的临床体征、既往史与合并症、血常规与常规生化结果、炎症标志物(可能包括CRP与降钙素原)——输出为22个病原体类别中每一类的概率,以及共感染的联合概率。作者声称采用了可解释的架构:在没有完整手稿的前提下,合理推测其骨干为梯度提升模型(XGBoost或LightGBM)耦合Shapley值解释(SHAP),这是健康领域表格型模型的标准范式。文中提到的对比基线为"常规模型"——大概率是多类别逻辑回归、随机森林和一个临床规则基线。
开发数据集覆盖134,500名住院儿童,来自三家中国临床中心与两个数据库。独立的前瞻性验证集为1,338名儿童,来自第四家机构——这是方法上的有力之处,因为该队列在训练过程中模型从未见过,且是在模型冻结之后采集的。摘要未详细说明用于为22种病原体打标签的金标准,但按中国当下的实际做法,可能综合了呼吸道多重PCR、细菌培养以及针对特定病原体的血清学检测——其分析灵敏度在不同病原体之间差异显著。
结果
在前瞻验证队列上,Pathog-PDx在22种病原体上的平均AUC为0.88。以临床常见的流感病毒为例,其AUC为0.95,敏感度为0.88,特异度为0.86。作者表示模型在单一感染与共感染上均超越常规方法——而后者正是儿科实践中的主要难点,RSV与细菌性继发感染经常并存。系统已部署为公开web服务,地址为pathogpdx.zzu.edu.cn,托管于郑州大学服务器,针对每一名患者在"常规检测结果出来之前"给出预测,明确目标是为治疗提供预判。
临床翻译。将数字落到1,000名以发热伴呼吸道症状入院的儿童身上,其中约100人确为流感(东亚流感季典型患病率):按公布的流感性能,模型会正确识别100例真流感中的88例(12例假阴性),代价是在900例非流感中产生126例假阳性(敏感度0.88、特异度0.86)。在全部22个类别上,0.88的平均AUC意味着总体区分能力良好,但几乎必然掩盖了不同病原体之间显著的差异:稀有或生物学特征不明显的病原体(腺病毒、副流感4型、某些季节性冠状病毒)很可能分类效果不如流感或肺炎链球菌。对于应对季节性高峰的儿科病房,这一工具不能取代多重PCR,也不能取代临床判断,但可以在等待实验室确诊期间,为奥司他韦的经验性处方或将一名儿童置于呼吸隔离这样的决定提供可信的方向。
做得好的地方
独立的前瞻验证确实存在,这并不常见。该方向上发表的临床ML模型多数停留在交叉验证的内部验证或对单个外部站点的回顾性验证。这里则有1,338名儿童前瞻性纳入了一个专门构建的队列,用于在模型训练完成之后对其进行评估——模型必须对从未见过的患者进行分类,时间窗也在开发队列之后。这是除了随机对照试验之外最为严格的评估流程。再加上公开部署了一个可工作的web服务,"从论文走到可用原型"这一步被切实跨越,这在临床ML文献中仍属少数情况。
处理共感染的多类目标瞄准的是真问题。近十年来连续发表的"是否RSV"二分类模型,无法帮助需要在同一名儿童身上对RSV、流感、偏肺病毒、肺炎链球菌与支原体进行风险排序的临床医生。一个在输出端提供22个类别联合概率、并显式处理共感染的模型,改变了其实用价值:临床医生获得的是一张概率排序表,更贴近他们实际的推理过程。这种标签与评估的多类纪律技术上比二分类要难,值得肯定。
输入变量随处可得。Pathog-PDx使用的42项特征是电子病历中的常规字段:人口学信息、编码的临床体征、血常规、CRP、基础生化。没有一项需要专用影像、活检或昂贵的分子套餐。这意味着,在重新校准并外部重新验证的前提下,模型在原理上可以迁移到欧美的大学医院——甚至可以迁移到具备最低限度标准检验能力的资源较少的中心。变量选择因此与"追求泛化"的目标一致,尽管泛化本身尚需证明。
做得不够好的地方
所有开发中心均在中国——人群偏差明显。为134,500名训练儿童提供数据的三家临床中心与两个数据库都来自中国(厦门、郑州、深圳、复旦大学附属儿科医院厦门院区)。儿童呼吸道感染的流行病学因大洲而异:肺炎支原体在中国2023-2024年经历了异常的流行波峰,改变了类别分布;细菌/病毒比例取决于疫苗覆盖(PCV13、麻腮风、流感疫苗),从而依赖卫生系统;某些区域流行的病原体(典型如禽偏肺病毒或某些季节性冠状病毒)在特定国家明显过表达。此处的失败模式是经典的人群偏差:模型学到的条件分布"临床体征+生物学→病原体"并不具备普适性。要证明它适用于马赛、波士顿或内罗毕的发热儿童,需要中国之外的外部验证——本文未提供。
摘要中缺失人类比较。Pathog-PDx与之比较的是"常规模型"——很可能是多类别逻辑回归与随机森林——并表现更优。真正的临床问题不同:在同样的42项变量下,一名资深的儿科住院医生能否达到相当的区分度?再加上一位儿科感染病顾问呢?没有这个人类参照系,所呈现的数字仅是对算法基线的优势,并不能让我们判断Pathog-PDx相对于日常临床判断是否带来了增量价值。这就是因省略而产生的有偏比较失败模式:最关键的基线——一名拥有同样数据的资深临床医生——是看不见的。同时,摘要对各类别的性能保持沉默:22种病原体的平均AUC为0.88,几乎必然意味着至少若干亚型低于0.75,识别是哪几种(可能是罕见或生物学特征不明显的病原体)对于"在实践中相信哪部分输出"是决定性的。
CC BY-NC-ND许可证关闭学术二次开发,并牵出金标准问题。论文以CC BY-NC-ND 4.0发表——不是Nature开放获取惯用的CC BY 4.0。NC禁止任何商业用途(合理);ND禁止任何衍生作品,使得对代码、模型权重乃至图表进行学术性改编、复现或迁移到其他场景都受到限制。再叠加一个方法论层面的根本问题:摘要并未详细说明用于为22个类别打标签的金标准。然而呼吸道多重PCR的分析灵敏度因病原体而异(流感很好,支原体较弱),细菌培养系统性低估脆弱菌株,迟发血清学只能回顾性覆盖某些诊断。如果某些类别使用了不够可靠的标准来打标签,那就是将标签噪声(label noise)注入到了训练中,可能让相关病原体的性能下降,或者更糟——制造一种"分类很好"的错觉,让模型学到的是检测方法的生物学特征,而不是病原体本身。在没有从完整手稿中提取这些细节之前,shortcut learning失败模式仍未被正式排除。
这意味着什么
对AI-健康研究界,Pathog-PDx契合了最近一波在"鉴别诊断"问题上重新回归表格数据的浪潮——此前若干年大量投入集中在影像上。其价值在于把标准推到22类并允许共感染:二分类"是否RSV"的基准已不够,社区开始要求一张按概率排序的可能病原体表。从事临近问题——新生儿脓毒症、儿科急诊脓毒症、脑膜炎鉴别诊断——的团队会在这里找到一个可复现的pipeline模式(常规EHR变量、在独立队列上做前瞻验证、以web服务形式部署)。剩下需要看到的是欧美团队在自己的数据上做出复现,这能告诉我们这个信号是否可迁移,抑或只是训练期内中国呼吸道流行病学的局部特征。
对儿科临床医生而言,最可信的近期用途不是取代多重PCR,而是在住院最初几小时进行治疗预判——那是临床医生决定是否给奥司他韦、是否将一名RSV儿童隔离、是否经验性覆盖细菌共感染的时刻。流感AUC为0.95对这一用途而言是可信的数字。在其他类别上,由于缺乏逐病原体的细节,谨慎做法是把Pathog-PDx视为辅助提出假设,而不是诊断。目前此类系统尚未获得法国HAS批准,也未取得CE的Software as a Medical Device认证,更未获得美国FDA许可。在中国之外的真实临床使用,需要在当地重新验证并完成监管认证,这都不是本文的范围。
对患者与家属而言,有用的启示是:借助能够利用入院时已经可得的常规化验的模型,识别儿童毛细支气管炎或肺炎背后病原体在技术上正变得更快。这并不能取代临床路径:发热而病情加重的儿童仍需医生诊视,治疗决定仍由人类做出。在这类工具被验证并通过认证以供中国境外使用之前,正确的反应仍是审慎地使用抗生素(抗生素对病毒无效)、为高风险儿童每年接种流感疫苗,以及多个欧洲国家如今已对婴儿推荐的RSV免疫接种。
延伸阅读
完整论文可在npj Digital Medicine网站以开放获取方式查阅:nature.com/articles/s41746-026-02818-9。作者部署的决策支持系统可访问pathogpdx.zzu.edu.cn(托管于郑州大学)。关于世卫组织对儿童呼吸道感染管理的框架,可参见WHO Pocket Book of Hospital Care for Children。关于我们对机器学习用于电子病历驱动临床决策的其他报道,参见我们对Zhou 2026 SHAP-SVM模型预测肿瘤患者静脉血栓栓塞的解读,以及对Brzus 2026卒中后认知预后神经影像pipeline的解读。