当大语言模型必须自己问诊:一个受临床考试启发的基准显示,交互式诊断推理会拉低表现(Zhan 与 Gan 2026,arXiv)
Chen Zhan、Xihe Qiu、Xiaoyu Tan、Xibing Zhuang、Gengchen Ma、Yue Zhang、Shuo Li、Peifeng Liu、Xiaoxiao Ge、Liang Liu 与 Lu Gan(监督、经费与修订归于 Xihe Qiu、Xiaoxiao Ge、Liang Liu 与 Lu Gan)于 2026 年 5 月 21 日在 arXiv 上发布了一个"受 OSCE 启发"的基准:一个标准化病人模拟器,十五个大语言模型(LLM,large language models:训练用于预测文本的模型,这里用作临床推理助手)必须像临床考试中的医学生一样,自己完成问诊,然后再作出诊断。在 468 个病例上,这种交互式模式——一轮一轮地自己提问——相比一开始就提供全部信息的设置,使诊断准确率下降 12.75%,使所引证据的质量下降 24.36%,错误主要源于过早的诊断闭合与低效的提问。这一教训冷静而有用:在静态医学选择题上的排行榜,很可能高估了这些模型在真实问诊中的能力。这一发现伴随三点保留意见——病人模拟器本身也是算法、病例来源在可获取版本中未作说明、数字以相对值给出而没有人类参照。
背景
四年来,LLM 在医学中的表现主要在笔试上衡量:USMLE 式的选择题(美国执业医师资格考试)、MedQA 等数据集、封闭式临床小案例。在这些测试中,最好的模型如今已超过人类的及格线,由此掀起了一波关于"AI 医生"的宣传。但这些测试有一个共同特征:所有有用的信息都在题干中一次性给出。模型拿到年龄、既往史、症状、化验结果,然后选一个答案。而真实问诊并非如此:临床医生从一个模糊的主诉出发,必须决定问哪些问题、开哪些检查、何时停下——这是一种在不确定性下的顺序推理,其中的功夫既在于处理信息,也在于寻找信息。
论文针对的正是这一落差。它属于近来一类关于临床模型交互式评测的工作,模拟医患对话而非选择题。其声称的新意是一个受 OSCE 启发的框架:OSCE(Objective Structured Clinical Examination,客观结构化临床考试)是医学生面对"标准化病人"——一位受训扮演某个病例的演员——并就采集病史、查体与推理能力被打分的考试。把这种形式移植到 LLM,作者旨在衡量的不是模型在被喂入全部信息时知道什么,而是当它必须问出正确的问题时能发现什么。
方法
该预印本(arXiv:2605.22047,10.48550/arXiv.2605.22047)于 2026 年 5 月 21 日以 CC BY 4.0 许可发布(允许在署名前提下复用与改编——这是一个有利之处,我们稍后再谈),构建了两个部件。其一是标准化病人模拟器:一个扮演病人的智能体,回答被测模型的问题,并且只在被询问时才逐步透露信息。其二是一个受控且可复现的主动诊断询问协议,其中 LLM 进行多轮对话,然后给出诊断。作者的确切单位、模拟器引擎的具体性质以及十五个模型的具体名单,在可获取的摘要中并未出现;我们不会去杜撰,并将这些标记为需要在完整稿件中核实的部分。
该基准包含 468 个病例与 十五个模型,既有专有的也有开源的。对每个病例比较两种设置。在 full-context(完整上下文)设置中,整份病历一开始就交给模型,如同经典选择题——这是理想化的上界。在主动设置中,模型起初只看到一个就诊主诉,必须一轮一轮地询问模拟器,重建信息后再下结论。测量两个量:诊断准确率(最终诊断是否正确?)与所引证据的质量(supporting-evidence quality:支持诊断所援引的要素是否相关、是否充分?)。随后一项错误分析对失败进行归类。
这种双重测量比单一分数更为严格:模型可能因错误的理由而碰对诊断,或依赖它其实并未采集到的证据。把准确率与推理质量分开,正是一项严肃的临床评测区别于"对答案比赛"的关键。
结果
核心结果是两种设置之间的明显落差。从完整上下文转为主动询问,诊断准确率下降 12.75%,所引证据的质量下降 24.36%(相对于 full-context 设置报告的数值)。换言之,下降对推理的冲击甚于对结论:模型不仅更常诊断出错,更重要的是它们为所提出的诊断给出的论证明显更差。错误分析把这些下降归因于两种行为:过早的诊断闭合——模型过早锁定一个假设,还没采集到足以确认或排除它的信息——以及低效的提问——它提出信息量低的问题,或漏掉关键问题。值得注意的是,这正是在新手临床医生身上被充分描述过的两种认知偏差;LLM 把它们复制了出来。
临床转译。由于这是一个基准而非病人试验,转译更多是关于解读而非生命数目。要记住的要点是:在一组模型必须自己采集病史的问诊中,相比把完整病历直接交给它的理想情形,大约每八个正确答案就会丢失一个(相对而言),而论证性推理的质量则有近四分之一蒸发。对一个旨在于真实交流中辅助医生的工具而言,这并非细节:笔试上展示的表现,描述的是一个被充分喂养的模型的上界,而不是它必须主导问诊时的行为。不过,这些数字仍是相对的平均值:摘要中没有绝对值、没有模型间的离散程度、也没有置信区间,它们指示的是一个稳健的趋势,而非可原样套用到某位具体病人身上的风险度量。
做得好的地方
评测瞄准了正确的问题。当前排行榜的主要弱点在于,它们测试的是现成交付的知识,而非调查的能力。通过采用 OSCE 形式——在下结论前向标准化病人采集病史——论文衡量的是一项在临床中真正重要、而选择题忽视的能力。这正是"AI 通过医学考试"那类文献所缺失的方法学护栏。
双重指标把结论与推理分开。同时测量诊断准确率与所引证据的质量,再对错误(过早闭合、低效提问)进行归类,给出的是对模型的诊断,而不只是一个分数。证据质量的下降(−24.36%)大于准确率的下降(−12.75%),这是一个有价值的观察:它提示在主动模式下某些"正确"诊断是在缺乏扎实推理的情况下得到的,而单纯的正确率会把这一点掩盖。
规模、可复现性与开放许可。十五个模型、专有与开源兼有、468 个病例,处于一个被描述为受控且可复现的协议中:足够广,使趋势不至于取决于某一个模型或少数几个病例。而以 CC BY 4.0 许可发布——允许在署名前提下复用与改编——便于其他团队接手这一基准,这与锁住部分文献的非商业、禁止演绎许可形成对比。
做得不够的地方
病人是模拟的,而模拟器本身又是一个模型。测试的真实性完全取决于标准化病人的质量。如果它由一个 LLM 驱动,评测就在一定程度上变得循环:一个模型询问另一个模型,二者可能共享相同的盲点(相同的训练数据、相同的措辞)。这是把人群偏倚这一失败模式应用到评测上的一个变体:模拟病人不是真实病人,没有那些杂乱的叙述、遗漏、合并症与含糊的措辞。因此外部效度——这种表现能否迁移到真实问诊?——仍有待确立,而摘要并未宣布在真实临床对话上的任何验证。
468 个病例的来源未作说明,因而存在污染风险。如果这些病例来自公开合集(小案例、病例库、开放医学数据集),十五个模型在训练中可能已经见过它们。这就是把数据泄漏(data leakage)这一失败模式移植到 LLM 上,称为数据污染:"full-context"上界会因记忆而被人为抬高,从而在机制上夸大与主动模式之间的落差。在病例来源与污染控制于完整正文中得到记录之前,12.75% 这个数字应被读作两种设置之间的差异,而非衡量"调查有多难"的纯粹尺度。
相对百分比,没有人类对照,也没有绝对值。摘要给出的是相对下降(−12.75%、−24.36%),却没有起始的绝对准确率、没有模型间的离散程度、也没有置信区间。这是误导性指标的近亲:一个看似惊人的相对下降,依基线水平不同,可能掩盖着大相径庭的现实。尤为重要的是,缺少一个在相同协议下的人类对照:在完整病历与需自己主导的问诊之间,一位医生又会丢失多少正确答案?没有这一参照,我们知道 LLM 在交互模式下会退化,却不知道它退化得比临床医生更多还是更少——而正是这一比较,才能决定它们作为助手的用处。
它改变了什么
对研究界而言,这一信息是呼吁改变衡量的单位。只要临床模型还在静态选择题上排名,所展示的进步就有高估真实能力的风险。这类交互式基准——更妙的是其以 CC BY 4.0 开放发布——提供了一个其他团队可以接手、扩展到真实对话、并加以抗污染加固的补充。自然的下一步是一个使用真实病人或真实转录文本的版本,以及一个人类比较组。
对临床医生而言,这有用地印证了床旁的直觉:一个能出色回答完整小案例的工具,并不因此就是好的问诊对象。模型表现出的过早诊断闭合与低效提问,恰恰是住院医师被教导要避免的陷阱。具体而言,这些系统中没有任何一个如今获批作为医疗器械(既无 CE 标志,也无 FDA 许可,亦无法国 HAS 的肯定意见)以自主完成问诊,而这篇论文解释了为何谨慎仍属必要。
对病人与公众而言,启示很直接:一个在你一次性把一切描述清楚时似乎"懂医学"的对话智能体,当它必须像真正的医务人员那样,在恰当的时机问出恰当的问题时,可能会错得更多。基于 LLM 的"症状自查器"类消费级工具继承了这一局限。它们可以提供信息与方向,但不能取代临床问诊——诊断决定仍是专业人员的事。
延伸阅读
该预印本在 arXiv 上开放获取:arxiv.org/abs/2605.22047(DOI 10.48550/arXiv.2605.22047),采用 CC BY 4.0 许可。关于 LLM 在临床安全方面的局限,参见我们对 Auger 2026 关于 LLM 在多发性硬化中临床安全边界研究的解读。关于影像中 LLM 回答的形式如何误导评测,参见我们对 Spitzer 2026 关于放射学中解释格式效应的解读。