当文本吞噬图像:Restrepo 2026研究揭示了临床VLM在MIMIC-CXR上的上下文脆弱性
David Restrepo(CentraleSupélec-巴黎-萨克雷大学及IHU PRISM,Gustave Roussy)及其团队于2026年5月17日在arXiv上发布了一项对八个临床视觉-语言模型在MIMIC-CXR中提取的1 000张胸部X光片上的评估。结果令人不安:当提供给模型的临床文本与图像相矛盾时——即将健康患者的报告附在病理性X光片上,或反之——最初正确的决策中有31%至66%会反转为错误。相反,将图像替换为另一位患者的图像几乎不会改变结果。仅图像的准确率仅略高于随机水平(0.50–0.68),而仅文本就能与多模态性能匹敌。核心结论一针见血:这些VLM,包括前沿的GPT-5和Gemini 3 Pro以及经过医学适配的MedGemma变体,本质上充当报告分类器,图像只是背景。这是一篇重要的论文,因为它否定了将这些模型用作自主阅读支持的可能性,并提出了一种可重复使用的压力测试方法论。
背景
视觉-语言模型(VLMs,vision-language models)是结合图像输入和文本输入并产生文本输出的生成模型类别。在最简单的版本中,向它们展示一张X光片并询问「这张图像显示有病变吗?」。在临床版本中,输入会丰富以患者病历的元素(检查原因、既往史、既往报告),这接近放射科医师的阅读条件。自2024年以来的营销承诺,受GPT-4V、MedGemma、Med-PaLM-M发布的支持,是经过良好训练的VLM能够整合这两个来源,像人类一样进行临床推理。
最近的几项工作(Sim等人,ACL 2025;Deng等人,CVPR 2025 「Words or vision: Do VLMs have blind faith in text?」)已经表明,通用VLMs在多模态推理中赋予文本过大的权重。但这些研究停留在非临床任务上。这篇论文将批评带到了胸部放射学领域,并增加了标准评估中缺失的两个维度:对与问题无关的既往报告的鲁棒性,以及对语义等价的prompt重新表述的稳定性。这两个变量恰恰是RAG系统(retrieval-augmented generation,自动注入相关文档)或临床智能体(编排一系列工具的LLM)在实践中会改变而临床医师无法控制的。
方法
研究由David Restrepo(MICS团队,CentraleSupélec-巴黎-萨克雷大学,以及Gustave Roussy的IHU PRISM癌症数据科学单位)主导,与Ira Ktena(牛津Ellison Institute of Technology)、Maria Vakalopoulou和Stergios Christodoulidis(CentraleSupélec)以及Enzo Ferrante(CONICET,布宜诺斯艾利斯)合作。预印本arXiv 2605.17436于2026年5月17日发布,DOI 10.48550/arXiv.2605.17436,采用CC BY 4.0许可证。代码和评估脚本在GitHub上。公共资助:欧盟Marie Skłodowska-Curie COFUND计划(DeMythif.AI,n° 101127936)和France 2030 / ANR IA Cluster DATAIA(ANR-23-IACL-0003)。计算资源来自Jean Zay(IDRIS-CNRS)和Ruche(Mesocentre Paris-Saclay)。未声明商业利益冲突。
数据集是MIMIC-CXR-JPG(PhysioNet)的均衡子集:1 000张正位胸部X光片,500张正常(标签No Finding),500张带有CheXpert命名法中五个目标之一的单一病理(胸腔积液30.2%、肺不张25.6%、心脏肥大21.8%、肺水肿18.8%、肺实变3.6%)。多种共存病理的病例被排除以避免标签歧义。
测试了八个模型:四个通用open-weights VLM(Qwen2-VL-7B-Instruct、LLaVA-v1.5-7B、Janus-Pro-7B、Llama-3.2-11B-Vision-Instruct),两个医学适配的开放模型(MedGemma-4B和MedGemma-1.5-4B),以及两个前沿专有模型(2025年8月7日快照的GPT-5和Gemini 3 Pro)。开放模型使用确定性推理(温度0),通过系统prompt强制二元「Yes/No」输出。
三种扰动协议。
第一协议:Selective Modality Shifting(SMS)。保持一半输入正确,将另一半替换为相反类别患者的相应输入。四种条件:No Shift(图像+文本一致,基线)、Text Shift(正常图像+病理患者的文本,或反之)、Image Shift(一致文本+相反类别患者的图像),以及两个单模态基线(Text-Only和Image-Only)。关键指标是Negative Flip Rate(NFR),即扰动后从正确翻转为错误的初始正确预测的比例。
第二协议:注入不相关历史。在prompt开头插入多达五份临床上合理但主题无关的既往报告(脑部MRI、腹盆腔CT、膝关节X光、腕关节超声),有一个对抗性约束:如果当前胸部X光是病理性的,则干扰报告为正常。报告由GPT-5生成,合成日期为3至12个月前。
第三协议:prompt敏感性。测试四种语义等价的表述——标准问答、角色扮演(「你是一名临床助理」)、正式咨询请求(RADIOLOGY CHECK REQUEST)和检查清单——并通过Fleiss的κ统计量测量预测之间的一致性。所有95%置信区间均通过非参数bootstrap获得(100次迭代,50%子抽样)。
结果
基线(图像+一致文本)的范围在0.66(Janus-Pro)到0.83(GPT-5、Gemini 3 Pro)之间。所有模型在干净的基准测试上都「有效」。
在Text Shift下,性能崩溃。GPT-5从0.83降到0.18,Gemini 3 Pro从0.83降到0.17,Qwen2-VL从0.81降到0.20,MedGemma-1.5从0.79降到0.26——低于随机水平(0.50)。Text Shift下的Negative Flip Rate范围从31.3%(Janus-Pro)到66.0%(Gemini 3 Pro):当插入相反类别的文本时,最初正确决策的三分之一到三分之二会翻转为错误。
在Image Shift下,相反,性能几乎不动。GPT-5 0.83 → 0.82;Qwen2-VL 0.81 → 0.80;MedGemma 0.76 → 0.72。Image Shift下的NFR保持在2.0%到15.5%之间。模型看不到,或几乎看不到图像的不一致。这种不对称性是论文的核心结果。
单模态基线证实了这一点。仅文本在大多数模型上达到0.78–0.83——与多模态相当。仅图像最高只达到0.50到0.68。GPT-5和Gemini 3 Pro在仅图像设置中获得0.67–0.68,略高于随机水平;Qwen2-VL和LLaVA正好降到0.50。作者总结道:「VLM decisions are dominated by the text modality, even when visual evidence is available.」通过角色扮演prompt要求模型优先考虑图像没有产生任何显著效果。
注入不相关的既往报告也会降低性能。LLaVA-1.5在五份干扰报告下从0.79降到0.66,Janus-Pro从0.70降到0.53,MedGemma-1.5从0.85降到0.71。NFR对Janus-Pro达到21.1%,对MedGemma-1.5达到18.8%——近五分之一的正确预测翻转。前沿GPT-5和Gemini 3 Pro表现更好(NFR < 3%),但并非免疫。这里要标记的失败模式是无关信息的干扰,在本例中是在文本模态内部。
prompt敏感性在不同模型间波动很大。在modality shifting设置中,Qwen2-VL在不同表述之间保持了优秀的一致性(Fleiss κ = 0.802),Gemini 3 Pro 0.762,GPT-5 0.753,但Janus-Pro崩溃到0.046(基本是随机的),LLaVA-1.5停留在0.391。一个不改变临床含义的表述变化因此可以反转预测。
临床转换。如果一个放射科使用本文测试的开放VLM之一来预筛选1 000张胸部X光片,且检查原因报告有误——这在值班时是常见情况,因为检查申请单可能从前次检查复制——根据模型不同,将观察到1 000个决策中313到660次错误的重新分类。如果RAG系统默认注入患者最近五份报告(临床智能体中常见的做法),1%到21%的正确预测会翻转为错误,而循环中的人类无法识别原因——错误既不来自图像,也不来自该图像的诊断,而是来自添加到上下文中的与主题无关的文本。
好的方面
三项具体优势。
压力测试协议可重现并可移植到其他模态。代码以宽松许可证发布在GitHub上,Selective Modality Shifting方法被完整描述。任何实验室都可以在自己的数据或新模型上重新执行相同的协议。这是一项方法学贡献,至少与原始数字同等重要——社区需要一个标准网格来测试干净基准测试无法测试的内容。
模型面板广泛而平衡。四个通用open-weights VLM,两个医学适配的,两个专有前沿模型。MedGemma——专门针对医学图像+文本训练——遭受与未适配模型完全相同的失败这一发现,是直到昨天商业团队还会争辩的点。作者总结道:「Domain adaptation alone is insufficient to ensure genuine visual grounding.」强有力的论断,现在已得到支持。
所选指标是正确的。NFR(Negative Flip Rate,Yan等人CVPR 2021)准确捕捉了临床上令人担忧的问题:不是平均性能,而是正确决策在扰动下翻转的风险。四个prompt的Fleiss κ捕捉决策稳定性。非参数bootstrap的置信区间在方法学上是可靠的。
不太好的方面
三项具体限制。
数据集小且来自单一中心。从MIMIC-CXR中提取的1 000张X光片——波士顿Beth Israel Deaconess Medical Center的语料库,已知存在偏差(主要是成人人群、特定扫描仪、当地报告惯例)。作者既没有评估对另一个PACS的泛化,也没有评估对另一种报告语言的泛化,也没有评估对另一种模态(CT、MRI)的鲁棒性。这是典型的人群偏差。该限制在「Limitations」部分被明确承认,但这并不能消除它。
任务是二元的,病例选择排除了真实复杂性。二元表型(正常 vs 异常),病例仅携带单一CheXpert病理。实践中的胸部放射学是多标签、模糊的,并按严重程度分层。经典的误导性指标陷阱在两个方向上潜伏:在更难的病例上Text Shift下的性能可能更糟,或者协议可能低估了文本会合法地帮助模型消除模棱两可图像歧义的情况。
干扰报告是合成的,由GPT-5生成。真实的既往检查报告带有文体标记、作者偏见和时间引用,LLM生成器无法精确复制。这些合成干扰物在多大程度上高估或低估了医院记录的真实文本噪声仍然是一个开放问题。作者在其限制中承认了这一点。
这改变了什么
对于医学影像AI研究界,论文提高了门槛:临床VLM不能再声称在测试队列上具有干净的AUC,如果其预测在Text Shift下崩溃的话。模态感知必须被证明,而不是假设。三个具体后果:未来的基准测试(CheXpert、MIMIC、RSNA)应默认集成SMS协议;评估比较器应包括诚实的仅文本基线(而不是仅图像,正如常见情况,这会美化多模态模型);同行评审场所应要求对每个发表的临床VLM进行prompt敏感性测试。
对于评估这些工具以便部署的临床医师和生物医学团队,信息是可操作的:在这种文本依赖性得到解决之前,临床VLM只能用作已经阅读图像的人类之后的第二阅读者,绝不能作为自主的第一阅读者,根据图像+检查原因对来引导处理。自动将最近报告、化验和既往影像堆叠到上下文窗口中的临床智能体特别有风险:它们积累了离题文本,关闭了剩余的真实图像阅读。
对于患者和公众,启示是间接但重要的。临床VLM的营销论点——「我们的模型像医生一样看X光片」——在这个样本上经不起检验。这并不意味着这些模型毫无价值;这意味着基准测试的性能与从图像进行推理的能力被混淆了,需要再一代对抗性评估才能真正了解这些系统在哪里准备好介入。
延伸阅读
arXiv预印本2605.17436在arxiv.org上开放访问;实验HTML版本这里。代码和评估脚本在github.com/dsrestrepo/context-distortion-vlms。关于MIMIC-CXR,入口在PhysioNet。关于Selective Modality Shifting方法,参见同一作者的早期论文(Restrepo等人,Springer 2026,「On the risk of misleading reports」)。关于通用VLM中文本主导地位的结构性批评,参见Deng等人CVPR 2025,「Words or vision: Do VLMs have blind faith in text?」。关于我们对另一种情境下临床LLM失败模式的报道,请参见我们的关于Auger 2026多发性硬化研究的解读。