médical IA

放射科中的GPT-4：为什么LLM的解释格式会改变医生的诊断准确性

发布于 2026年5月22日 · 8 分钟阅读

Philipp Spitzer等人于2026年4月23日在npj Digital Medicine发表了一项随机对照试验，在101名美国放射科医生中比较GPT-4三种解释格式对诊断准确性的影响，每人评估20个病例（共2,020次评估）。思维链（chain-of-thought）解释使准确性比对照组提高12.2个百分点（p = 0.001），而鉴别诊断格式——尽管直觉上更"医学化"——并未带来统计显著的提升，反而在模型出错时诱发明显的自动化偏见。这是一篇重要的文章，因为它将问题从"LLM是否优秀？"转向"如何让它分享所知而不强加其错误？"。

背景

大型语言模型（LLM，在海量文本语料上训练的生成式语言模型）在2024–2025年间在放射学病例上达到了较高的诊断性能。GPT-4（OpenAI于2023年底发布的多模态模型）、Med-PaLM 2、Claude及其后继模型现在在NEJM Image Challenge或MedQA等公开基准上常规超过70–80 %的准确率。研究问题已经发生了转变：不再是"这些模型能用吗？"，而是"如何将它们整合到一个工作流程中，使其真正补充放射科医生而非取代或误导他们？"

2024–2025年的多项研究开始记录一个反直觉的现象：单独的LLM可能比放射科医生 + LLM组合更准确，因为医生在模型出错时过度信任它（自动化偏见），或者在不理解的情况下拒绝它的好建议。医疗决策支持并不是一个新话题——1980至90年代的专家系统如MYCIN或INTERNIST曾撞上同样的墙：一个给出答案而不解释原因的系统，会让不知道为何如此的医生不知道何时该信任它。LLM在这里带来了一项重要的技术新意：它们可以与预测一并生成自然语言的解释，采用不同的格式。但哪种格式？此前没有大规模随机试验对这些格式进行过比较。

方法

研究由Philipp Spitzer和Daniel Hendriks（共同第一作者）主导，与慕尼黑大学（LMU）放射科临床团队（Jan Rudolph、Sarah Schlaeger、Jens Ricke、Boj Friedrich Hoppe）以及Stefan Feuerriegel（LMU）合作。在AsPredicted上进行了公开预注册（编号4tgb-sr3z），获得LMU伦理批准EK-MIS-2024-320。

该设计为平行组（受试者间）随机试验。101名美国注册放射科医生，平均执业经验13.6年（标准差8.0），被随机分配到四个组之一。每位放射科医生评估20个取自NEJM Image Challenge的放射学病例，以图像加简短临床信息呈现。诊断以自由文本输入——非选择题——然后人工编码以纠正拼写错误。总计：2,020次评估。

四个组如下。对照组（n = 24）：无LLM支持，允许互联网搜索但不允许使用LLM。标准输出组（n = 24）：GPT-4直接给出诊断而无解释（"最可能的诊断是X"），平均长度62.7个词。鉴别诊断组（n = 30）：GPT-4给出前5个最可能的假设及排序，并附简短理由，平均长度208.6个词。思维链组（n = 23）：GPT-4在最终诊断之前给出逐步推理，平均长度188.6个词。

chain-of-thought（CoT，思维链）是一种提示技术，明确要求模型在回答之前将推理分解为多个步骤。自2022年以来在通用LLM中被记录（Wei等人），它提高了推理任务的性能，并且——这是本论文的核心——提高了推理过程对人类用户的可读性。

所用模型是GPT-4的多模态版本（可处理图像加文本）。GPT-4独自在这20个病例上的表现为：标准输出75 %，思维链80 %，鉴别诊断top-1为65 % / top-5为80 %。

结果

主要结果是按解释格式的明显异质性效应。

思维链格式显著改善放射科医生的准确性：相对于对照组提高12.2个百分点（95 %置信区间：5.3到19.2；p = 0.001）。这是研究中观察到的最强效应。

标准输出和鉴别诊断格式相对于对照组没有统计显著的提升：分别为 +5.0 pp（95 % CI：-1.8到11.8；p = 0.150）和 +2.5 pp（95 % CI：-4.0到9.0；p = 0.446）。反直觉：鉴别诊断尽管最接近传统医学推理，却最无用。

与其他格式直接比较时，思维链仍居首位：比标准输出高 +7.2 pp（p = 0.040），比鉴别诊断高 +9.7 pp（p = 0.004）。GPT-4单独使用超越所有放射科医生组，包括任何格式下由GPT-4辅助的医生。这一结果需要非常谨慎地阅读（见局限性），但与2024–2025年逐渐增加的文献一致。

对LLM建议的依从性很说明问题。当GPT-4出错时，鉴别诊断组的放射科医生仍有80 %采纳其诊断；标准输出组为30.6 %；思维链组为30.4 %。这种差距提示了一个具体机制：结构化为五个假设的鉴别诊断呈现出方法论上的全面性表象，从而瓦解了放射科医生的批判性判断。这正是自动化偏见的经典失败模式（人类倾向于过度信任自动化系统，尤其当这些系统看起来严谨时）。

临床转化。在1,000个难度可比的放射学病例上，未辅助的放射科医生大约能正确解决600例。同一位医生在使用思维链GPT-4辅助下可解决722例，而在使用标准输出或鉴别诊断格式下只解决605到625例——无实质差异。但当LLM出错时（在该基准上约25 %的时间），鉴别诊断格式导致采纳的错误几乎是其他两种格式的两倍。

做得好的地方

三个具体的优势。

预注册的随机设计。研究在数据收集之前公开预注册于AsPredicted，杜绝了p-hacking和事后选择有利分析的可能。这种方法学要求在临床LLM文献中尚远未成为常态，值得认可——大多数临床模型评估仍是回顾性、事后的，并在看过数据后才选择指标。

对照设置公正。对照组并非一无所有：他们可以访问互联网、PubMed、任何非LLM文档。这是正确的对照——2026年放射科医生在实际工作中的状态。先前文献中常见的"LLM对零"比较系统性地高估了LLM的贡献，因为剥夺了医生平时可用的资源。

样本量可信。101名注册放射科医生，平均执业13.6年，2,020次独立评估，构成了与大型放射学决策支持研究可比的样本。检出12 pp效应的统计功效稳健。这也是该领域少有的招募高年资放射科医生而非住院医生的研究之一。

做得不够好的地方

三个需要注意的具体限制。

这是一项vignette study（情境研究），不是真实临床工作流程。放射科医生回答20个孤立的病例，背景信息有限，没有完整的病历，没有同一天的可比连续病例，没有现实的时间压力。生态效度有限——夜班读80份扫描的放射科医生与在办公桌前以自己节奏回答20个情境题的放射科医生大不相同。作者承认这一点并呼吁开展真实条件下的研究。任何对患者结局（死亡率、并发症、避免的检查）的外推仍有待完成。

GPT-4很可能存在污染。病例来自NEJM Image Challenge，这是公开且年代久远的资源。GPT-4在训练期间极有可能见过这些病例及其答案。作者提出了一种记忆测试并得出相似度得分较低的结论，但这种依赖仍然是一个经典的失败模式：这是data leakage（数据泄漏）在LLM中的体现，任何简单的相似度测试都无法完全检测。GPT-4的绝对得分（75–80 %）因此应在这一保留下解读——在真正未见过的临床病例上的表现可能更低。

受试者间设计削弱了组间比较。由于每位放射科医生只看到一种格式，组间观察到的差异部分反映的可能是医生之间的差异而非格式之间的差异——尤其是每组只有23至30人。受试者内设计（每位放射科医生在可比病例上测试每种格式）会更有力，作者也明确建议作为后续工作。在思维链组的23名受试者中，一位特别优秀的放射科医生会将该组的平均值改变到不可忽视的程度。这是有限抽样下人群偏见的经典失败模式。

补充说明：单一测量时点，无纵向随访，所参考的预出版版本中未提供资助和利益冲突信息。

带来的改变

对AI健康研究界而言，信号很明确：解释格式不是用户体验细节，而是人-AI组合性能的主要决定因素。临床LLM文献过度关注模型的原始得分（"AI能打败医生吗？"），而忽略了在实践中医生仍掌握主导权，其准确性将取决于模型如何表达。未来的评估应系统比较多种解释格式，就像临床试验比较药物剂量一样。这是需要纳入TRIPOD-LLM或CLAIM等新兴指南的新评估维度。

对临床医生而言，信息既令人鼓舞又令人担忧。鼓舞：精心选择的解释格式可以带来12个百分点的诊断准确性提升，在每个百分点都至关重要的领域这是临床上有意义的。担忧：直觉上"医学化"的格式（鉴别诊断）恰恰是模型出错时诱发最危险过度信任的格式。任何临床LLM的部署都必须在真实条件下针对其具体格式进行验证，而不仅仅是原始性能。思维链不是万能配方：它在这里、在这个背景下、用这个模型有效。

对患者和公众而言，启示更微妙。放射学中的AI既不是新闻稿中的奇迹革命，也不是怀疑论者担心的安慰剂。它是一项可能有帮助、可能有害的技术，其真实影响取决于大多数商业供应商不予记录的界面选择。询问医院使用哪种模型、采用何种格式、经过怎样的本地验证，成为一个合理的问题。

延伸阅读

Spitzer等人的论文以开放获取方式发表于Nature，DOI为10.1038/s41746-026-02619-0。AsPredicted上的公开预注册可在aspredicted.org/4tgb-sr3z查阅。关于思维链提示的背景，请参见Wei等人，NeurIPS 2022（arXiv:2201.11903）。关于医学中的自动化偏见，法国HAS报告《整合人工智能的医疗器械临床评估最佳实践》（2024年12月）仍是重要参考。关于GPT-4在医学基准上的原始表现，NEJM Image Challenge评估（Buckley等人，npj Digital Medicine 2024）是有用的起点。