一万例合成病例对决四个前沿大语言模型:Auger 2026研究揭示Gemini 3和GPT-5在多发性硬化中的临床盲点

Stephen D. Auger(伦敦帝国理工学院)于2026年4月22日在medRxiv上发表了一项大规模评估研究,针对四个最前沿的生成式模型——Google的Gemini 3 Pro和Flash,OpenAI的GPT-5.2和GPT-5-mini——在多达10 000个程序化生成、并经亚专科专家验证真值标签的多发性硬化(MS)合成病例上进行测试。核心发现可以用一句话概括:诊断准确性并不能预测治疗推荐的安全性。即使诊断正确,模型仍可能为感染患者推荐大剂量皮质类固醇,或为MS患者推荐静脉溶栓——两者都是不合适的,后者甚至是危险的。这是一篇重要的论文,因为它提出了一种可扩展的压力测试方法,并将讨论从选择题基准转向真正的运营安全。

背景

大语言模型(LLMs,在海量文本语料上训练的生成式语言模型)在美国医师执照考试(USMLE)选择题、MedQA、NEJM图像挑战上的得分已达到90%或更高。相关新闻稿给人留下了"临床推理已经稳固"的印象。但自2024年以来,一类较为低调的平行文献不断积累信号:这些选择题分数并不能迁移到实践——略微修改临床片段后模型性能就崩溃,参考文献被幻觉式编造,对提示措辞极度敏感,以及本文的核心:说出诊断名称的能力与选择正确处理方案的能力之间存在系统性脱节。

大规模衡量这种脱节会遇到一堵物流墙。真实病例稀少,真值标签的标注成本高昂,病例多样性受医院队列纳入偏倚的限制。多发性硬化(MS)为绕过这一问题提供了特别有用的领域:它有形式化的诊断标准(2017年McDonald标准,2024年修订)、一个刻板的临床-解剖映射(空间和时间上播散的病灶,脊髓、视神经、脑干、半球综合征),以及经过验证的治疗策略(急性发作期大剂量皮质类固醇、疾病修正治疗、明确的禁忌症)。Auger利用这种规律性,生成了数万个具有可验证标签的合理病例——这是任何单一医院都无法提供的,也是现有公共基准所没有的。

方法

研究由Stephen D. Auger主导,他是临床神经科医师,任职于伦敦帝国理工学院的英国痴呆研究所护理研究与技术中心(UK DRI Care Research and Technology Centre),并在Imperial College Healthcare NHS Trust从事临床工作。预印本于2026年4月22日在medRxiv上发布,DOI 10.64898/2026.04.22.26351488

整个体系由三块构成。第一块:一个MS临床病例的程序化生成器,系统性地组合症状(视觉、感觉、运动、共济失调、括约肌障碍)、查体体征、辅助检查结果(脑和脊髓MRI、脑脊液寡克隆带、血清学、诱发电位)和合理的合并症。每个病例都附有结构化真值标签:最可能的诊断、病灶的解剖定位、推荐的检查、预期的治疗管理。系统可配置为每次运行生成1 000至10 000个独特病例。

第二块:四个前沿生成式模型——Gemini 3 Pro和Gemini 3 Flash(Google)、GPT-5.2和GPT-5-mini(OpenAI)——使用标准化提示对每个病例进行查询。指令要求四类输出:病灶的解剖定位、有序的鉴别诊断、要开具的辅助检查、治疗处理方案。LLMs并不知道病例一定是MS——它们必须自行推断。

第三块:一个混合自动评估器将LLM输出与真值进行比较。它结合了术语匹配(受控医学术语的对应,附SNOMED式同义词处理)和通过向量嵌入实现的语义比较(捕捉同义改写和等价措辞)。该评估器在70个病例的初始队列上经MS亚专科临床医师以盲法方式进行验证,他们评判两件事:合成病例的真实性,以及自动评估器与他们自身人类判断之间的一致性。只有在通过这两项验证后,系统才扩展到10 000个病例。

真值(ground truth)一词在AI评估中指的是用以与模型输出进行比较的参考标签。本研究的优势在于提出了一种既临床合理又可程序化的真值——因此可大规模获得,且不存在单一标注者偏倚。

结果

主要发现是诊断准确性与治疗推荐安全性之间的系统性脱节。四个模型在大多数病例中都能正确识别MS为最可能的诊断——纯粹的"选择题任务"性能令人尊敬。但一旦考察治疗推荐,画面就恶化,并揭示出按厂商划分的两种相反的失败模式。

Google一侧。Gemini 3 Flash仅在7.2%的病例(95%置信区间:5.6–8.8)中推荐临床适当的皮质类固醇,Gemini 3 Pro为15.8%(13.6–18.1)。作为比较,GPT-5-mini达到23.5%(20.8–26.1)。更值得关注的是,Gemini模型经常在皮质类固醇被禁忌的情况下推荐大剂量甲泼尼龙——尤其是当合成病例明确提到活动性感染时,或当症状是偶然发现、距今超过14天、或缺少发病时间信息时(一个已稳定的症状不是急性发作,不应使用攻击量皮质类固醇治疗)。这里的失败模式是欠特异性:模型识别出讨论的是MS,默认触发"急性发作"协议,并忽略了本应取消该协议的临床修饰因子。

OpenAI一侧。失败模式相反,并且更令人警觉。GPT-5.2在9.6%的MS病例中推荐立即开始静脉溶栓(一种保留给急性缺血性卒中的治疗,在适应证之外使用是危险的),GPT-5-mini为6.4%。两个Gemini模型在这项荒谬推荐上则保持在1%以下。这不是舍入误差:在10 000个病例上,GPT-5.2会为大约960名患者推荐无用且具潜在出血风险的溶栓。这里的失败模式是模式碰撞——模型把MS的急性神经表现与急性缺血性卒中的急性神经表现混淆,并触发了对应的协议。

这些错误中没有一个能被"MS急性发作的一线治疗是什么?"这种选择题基准检测出来。它们只有在要求模型对完整病例进行自由交互式推理时才出现——而那正是实际临床所要求的。

临床转化。对于1 000名连续提交给一个无监督LLM的患者,GPT-5.2会推荐约96次不必要的静脉溶栓。根据卒中文献,超适应证的溶栓暴露于约2%至6%的颅内出血风险——即每1 000人队列中额外2至6例颅内出血,仅归因于路径错误。反过来,Gemini 3 Flash会让1 000人中约928人无法获得适当的急性发作期皮质类固醇治疗,可能延迟神经功能恢复。这些情景在实践中都尚未出现,因为这些模型目前都没有在临床中自主部署——这正是论文的论点:必须在部署之前,而不是之后,发现这些缺陷。

好的方面

三项具体优势。

评估规模在临床LLM测试上前所未有。历史上的公共基准(MedQA、MedMCQA、NEJM图像挑战)至多包含几千道题目,并且经常被训练数据所污染。10 000个带结构化真值且即时生成的合成病例既解决了泄漏问题(模型不可能见过这些病例),又允许测量罕见错误率——这正是临床安全所要求的。1%的错误在100个病例上不可见,而在10 000个病例上一目了然。

自动评估器经过盲法对照专家验证。对MS亚专科临床医师在70个病例上的前置验证,避免了自指评估的经典陷阱(一个LLM被另一个LLM评判,缺乏人类校准)。这一方法论要求在临床LLM基准文献中仍远未成为标准,那里报告的"准确率"往往是一个GPT-4评估器在评判另一个GPT-4——明显的"模型自当裁判员"偏倚。

论文测试的是真正的2026前沿模型。Gemini 3 Pro/Flash和GPT-5.2/5-mini是撰写时的当前版本。临床LLM文献深受快速过时之苦:2023年发表的GPT-3.5基准对2026年来说几乎没有教益。本研究至少在下一代模型发布前都将具备参考价值,并建立了一种可复现的评估方法学。

不太好的方面

三项需要牢记的精确限制。

病例是合成的,因此生态效度有限。程序化生成的病例,即便由70位专家验证其真实性,也不是真正的患者。它缺少模糊性、矛盾性、缺失信息、真实问诊的噪声,尤其缺少纵向背景(个人史、当前治疗、完整家族史)。此处要点名的失败模式是人群偏倚:在合成病例上测得的性能很可能是真实病例性能的上限,因为合成病例更"干净"。Auger明确承认这一点,并将其生成器定位为前瞻性队列验证之前的预筛选工具——而非替代品。

研究只涉及一种疾病。选MS是因为它有形式化标准和刻板映射。无法保证结论能迁移到鉴别诊断更开放的场景(普通内科、儿科、老年多病共存)。LLM中的shortcut learning——学习寄生相关性的倾向——可能因疾病的统计规律性不同而表现各异。要谈一种"可推广的方法",至少需要扩展到三到四种特异性对比鲜明的疾病。

缺少人类对照和前瞻性评估。论文将LLM彼此比较并与真值比较,但没有与真实临床医师面对同一合成病例时的表现进行比较。因此无法判断GPT-5-mini的23.5%适当皮质类固醇推荐率是"灾难性低"还是"可比于值班初期的住院医师"。这个问题悬而未决,任何在没有对照下引用这些数字的评论都会很快陷入盲目热情("GPT-5还不如新手")或其反面("23%已经比疲惫的医生好")。经典的误导性指标陷阱在此潜伏:一个没有临床参考分母的百分比无法独立解读。

补充说明:medRxiv预印本,尚未经过同行评议;最终版本可能有所修改。

这意味着什么

对于临床AI研究社区而言,这是一个重要的方法学信号。临床LLM评估大量依赖选择题,这些题目衡量医学知识的记忆,却错过了风险最高的维度——从诊断到处方的完整决策链。本文提供了一个可操作的框架,可大规模生成带真值的病例,并使用经人类专家校准的评估器。这是一块可复用的方法学基石,预计未来几个月会有其他团队将其应用到其他疾病。

对于临床医师和卫生主管部门而言,信息是冷静的:所测试的四个模型中,没有一个在当前状态下可在自主模式下用于开具处方。美国FDA、欧洲EMA和法国HAS应将此类大规模压力测试视为批准任何用于临床的生成式AI设备的前置条件。对于模型厂商(Google、OpenAI、Anthropic、Mistral),论文提示下一代模型应明确地以"治疗安全性"为训练目标,而不仅仅是诊断准确性。"知道这是MS"和"知道对MS该怎么办"之间的区别,正是要去测量的边界。

对于患者和公众而言,有用的启示是:LLM尚不足以替代医师进行处方,即便它们能给出疾病的正确名称。一个面向消费者的医疗聊天机器人完全可以正确诊断你的疾病,同时建议一种危险的治疗。这种脱节是反直觉的——语言的流畅给人以整体能力的错觉,掩盖了完整链条上的漏洞——这也解释了为什么真实的临床应用(目前仍然)要经过一个掌握主导权的医师,以及为什么在2026年,绕开医师只咨询聊天机器人仍然是个坏主意。

延伸阅读

Stephen D. Auger的预印本在medRxiv上开放获取,DOI 10.64898/2026.04.22.26351488。关于本文用作真值的MS诊断标准,参见Thompson等,Lancet Neurology,2018(2017年McDonald标准,DOI 10.1016/S1474-4422(17)30470-2)。关于临床LLM特有失败模式的概述,参见Omiye等,npj Digital Medicine,2023(DOI 10.1038/s41746-023-00939-z)。关于法国对医疗生成式AI的监管框架,HAS报告《整合人工智能的医疗设备临床评估的良好实践》(2024年12月)仍是参考。关于近期一项关于LLM在放射学中解释格式的研究,参见我们对Spitzer等2026年npj Digital Medicine论文的解读