médical IA

当大语言模型必须自己问诊：一个受临床考试启发的基准显示，交互式诊断推理会拉低表现（Zhan 与 Gan 2026，arXiv）

发布于 2026年6月1日 · 11 分钟阅读

Chen Zhan、Xihe Qiu、Xiaoyu Tan、Xibing Zhuang、Gengchen Ma、Yue Zhang、Shuo Li、Peifeng Liu、Xiaoxiao Ge、Liang Liu 与 Lu Gan（监督、经费与修订归于 Xihe Qiu、Xiaoxiao Ge、Liang Liu 与 Lu Gan）于 2026 年 5 月 21 日在 arXiv 上发布了一个"受 OSCE 启发"的基准：一个标准化病人模拟器，十五个大语言模型（LLM，large language models：训练用于预测文本的模型，这里用作临床推理助手）必须像临床考试中的医学生一样，自己完成问诊，然后再作出诊断。在 468 个病例上，这种交互式模式——一轮一轮地自己提问——相比一开始就提供全部信息的设置，使诊断准确率下降 12.75%，使所引证据的质量下降 24.36%，错误主要源于过早的诊断闭合与低效的提问。这一教训冷静而有用：在静态医学选择题上的排行榜，很可能高估了这些模型在真实问诊中的能力。这一发现伴随三点保留意见——病人模拟器本身也是算法、病例来源在可获取版本中未作说明、数字以相对值给出而没有人类参照。

背景

四年来，LLM 在医学中的表现主要在笔试上衡量：USMLE 式的选择题（美国执业医师资格考试）、MedQA 等数据集、封闭式临床小案例。在这些测试中，最好的模型如今已超过人类的及格线，由此掀起了一波关于"AI 医生"的宣传。但这些测试有一个共同特征：所有有用的信息都在题干中一次性给出。模型拿到年龄、既往史、症状、化验结果，然后选一个答案。而真实问诊并非如此：临床医生从一个模糊的主诉出发，必须决定问哪些问题、开哪些检查、何时停下——这是一种在不确定性下的顺序推理，其中的功夫既在于处理信息，也在于寻找信息。

论文针对的正是这一落差。它属于近来一类关于临床模型交互式评测的工作，模拟医患对话而非选择题。其声称的新意是一个受 OSCE 启发的框架：OSCE（Objective Structured Clinical Examination，客观结构化临床考试）是医学生面对"标准化病人"——一位受训扮演某个病例的演员——并就采集病史、查体与推理能力被打分的考试。把这种形式移植到 LLM，作者旨在衡量的不是模型在被喂入全部信息时知道什么，而是当它必须问出正确的问题时能发现什么。

方法

该预印本（arXiv:2605.22047，10.48550/arXiv.2605.22047）于 2026 年 5 月 21 日以 CC BY 4.0 许可发布（允许在署名前提下复用与改编——这是一个有利之处，我们稍后再谈），构建了两个部件。其一是标准化病人模拟器：一个扮演病人的智能体，回答被测模型的问题，并且只在被询问时才逐步透露信息。其二是一个受控且可复现的主动诊断询问协议，其中 LLM 进行多轮对话，然后给出诊断。作者的确切单位、模拟器引擎的具体性质以及十五个模型的具体名单，在可获取的摘要中并未出现；我们不会去杜撰，并将这些标记为需要在完整稿件中核实的部分。

该基准包含 468 个病例与 十五个模型，既有专有的也有开源的。对每个病例比较两种设置。在 full-context（完整上下文）设置中，整份病历一开始就交给模型，如同经典选择题——这是理想化的上界。在主动设置中，模型起初只看到一个就诊主诉，必须一轮一轮地询问模拟器，重建信息后再下结论。测量两个量：诊断准确率（最终诊断是否正确？）与所引证据的质量（supporting-evidence quality：支持诊断所援引的要素是否相关、是否充分？）。随后一项错误分析对失败进行归类。

这种双重测量比单一分数更为严格：模型可能因错误的理由而碰对诊断，或依赖它其实并未采集到的证据。把准确率与推理质量分开，正是一项严肃的临床评测区别于"对答案比赛"的关键。

结果

核心结果是两种设置之间的明显落差。从完整上下文转为主动询问，诊断准确率下降 12.75%，所引证据的质量下降 24.36%（相对于 full-context 设置报告的数值）。换言之，下降对推理的冲击甚于对结论：模型不仅更常诊断出错，更重要的是它们为所提出的诊断给出的论证明显更差。错误分析把这些下降归因于两种行为：过早的诊断闭合——模型过早锁定一个假设，还没采集到足以确认或排除它的信息——以及低效的提问——它提出信息量低的问题，或漏掉关键问题。值得注意的是，这正是在新手临床医生身上被充分描述过的两种认知偏差；LLM 把它们复制了出来。

临床转译。由于这是一个基准而非病人试验，转译更多是关于解读而非生命数目。要记住的要点是：在一组模型必须自己采集病史的问诊中，相比把完整病历直接交给它的理想情形，大约每八个正确答案就会丢失一个（相对而言），而论证性推理的质量则有近四分之一蒸发。对一个旨在于真实交流中辅助医生的工具而言，这并非细节：笔试上展示的表现，描述的是一个被充分喂养的模型的上界，而不是它必须主导问诊时的行为。不过，这些数字仍是相对的平均值：摘要中没有绝对值、没有模型间的离散程度、也没有置信区间，它们指示的是一个稳健的趋势，而非可原样套用到某位具体病人身上的风险度量。

做得好的地方

评测瞄准了正确的问题。当前排行榜的主要弱点在于，它们测试的是现成交付的知识，而非调查的能力。通过采用 OSCE 形式——在下结论前向标准化病人采集病史——论文衡量的是一项在临床中真正重要、而选择题忽视的能力。这正是"AI 通过医学考试"那类文献所缺失的方法学护栏。

双重指标把结论与推理分开。同时测量诊断准确率与所引证据的质量，再对错误（过早闭合、低效提问）进行归类，给出的是对模型的诊断，而不只是一个分数。证据质量的下降（−24.36%）大于准确率的下降（−12.75%），这是一个有价值的观察：它提示在主动模式下某些"正确"诊断是在缺乏扎实推理的情况下得到的，而单纯的正确率会把这一点掩盖。

规模、可复现性与开放许可。十五个模型、专有与开源兼有、468 个病例，处于一个被描述为受控且可复现的协议中：足够广，使趋势不至于取决于某一个模型或少数几个病例。而以 CC BY 4.0 许可发布——允许在署名前提下复用与改编——便于其他团队接手这一基准，这与锁住部分文献的非商业、禁止演绎许可形成对比。

做得不够的地方

病人是模拟的，而模拟器本身又是一个模型。测试的真实性完全取决于标准化病人的质量。如果它由一个 LLM 驱动，评测就在一定程度上变得循环：一个模型询问另一个模型，二者可能共享相同的盲点（相同的训练数据、相同的措辞）。这是把人群偏倚这一失败模式应用到评测上的一个变体：模拟病人不是真实病人，没有那些杂乱的叙述、遗漏、合并症与含糊的措辞。因此外部效度——这种表现能否迁移到真实问诊？——仍有待确立，而摘要并未宣布在真实临床对话上的任何验证。

468 个病例的来源未作说明，因而存在污染风险。如果这些病例来自公开合集（小案例、病例库、开放医学数据集），十五个模型在训练中可能已经见过它们。这就是把数据泄漏（data leakage）这一失败模式移植到 LLM 上，称为数据污染："full-context"上界会因记忆而被人为抬高，从而在机制上夸大与主动模式之间的落差。在病例来源与污染控制于完整正文中得到记录之前，12.75% 这个数字应被读作两种设置之间的差异，而非衡量"调查有多难"的纯粹尺度。

相对百分比，没有人类对照，也没有绝对值。摘要给出的是相对下降（−12.75%、−24.36%），却没有起始的绝对准确率、没有模型间的离散程度、也没有置信区间。这是误导性指标的近亲：一个看似惊人的相对下降，依基线水平不同，可能掩盖着大相径庭的现实。尤为重要的是，缺少一个在相同协议下的人类对照：在完整病历与需自己主导的问诊之间，一位医生又会丢失多少正确答案？没有这一参照，我们知道 LLM 在交互模式下会退化，却不知道它退化得比临床医生更多还是更少——而正是这一比较，才能决定它们作为助手的用处。

它改变了什么

对研究界而言，这一信息是呼吁改变衡量的单位。只要临床模型还在静态选择题上排名，所展示的进步就有高估真实能力的风险。这类交互式基准——更妙的是其以 CC BY 4.0 开放发布——提供了一个其他团队可以接手、扩展到真实对话、并加以抗污染加固的补充。自然的下一步是一个使用真实病人或真实转录文本的版本，以及一个人类比较组。

对临床医生而言，这有用地印证了床旁的直觉：一个能出色回答完整小案例的工具，并不因此就是好的问诊对象。模型表现出的过早诊断闭合与低效提问，恰恰是住院医师被教导要避免的陷阱。具体而言，这些系统中没有任何一个如今获批作为医疗器械（既无 CE 标志，也无 FDA 许可，亦无法国 HAS 的肯定意见）以自主完成问诊，而这篇论文解释了为何谨慎仍属必要。

对病人与公众而言，启示很直接：一个在你一次性把一切描述清楚时似乎"懂医学"的对话智能体，当它必须像真正的医务人员那样，在恰当的时机问出恰当的问题时，可能会错得更多。基于 LLM 的"症状自查器"类消费级工具继承了这一局限。它们可以提供信息与方向，但不能取代临床问诊——诊断决定仍是专业人员的事。

延伸阅读

该预印本在 arXiv 上开放获取：arxiv.org/abs/2605.22047（DOI 10.48550/arXiv.2605.22047），采用 CC BY 4.0 许可。关于 LLM 在临床安全方面的局限，参见我们对 Auger 2026 关于 LLM 在多发性硬化中临床安全边界研究的解读。关于影像中 LLM 回答的形式如何误导评测，参见我们对 Spitzer 2026 关于放射学中解释格式效应的解读。