PromptRad:仅用32份标注的肝脏CT报告,便能与GPT-4打成平手

Ying-Jia Lin(台湾长庚大学)及其团队于2026年5月19日在arXiv上发布了PromptRad,该论文已被ACL会议下属的BioNLP 2026研讨会接收,提出了一种在极小标注预算下自动标注肝脏CT报告的方法。结果可以用一句话概括:仅用32份标注报告和一个1.1亿参数的模型——不到GPT-4规模的1%——他们基于UMLS同义词增强的prompt-tuning方法在七类肝脏病灶上达到89.2%的宏F1,与零样本GPT-4打成平手,并在否定句处理上超越它。这是一篇重要的论文,因为它挑战了"临床NLP的性能必然来自模型规模"这一观点,并且提供了一套医院可以本地部署的方案,无需将患者数据发送到云服务商。

背景

放射学报告是现存最丰富的临床数据矿之一。每做一次影像检查,放射科医师都会写一段自由文本,描述他所看到、所怀疑、所排除的内容。但这种丰富性被形式所困:非结构化文本、专业术语、缩略语、含糊措辞、多重否定、有意的矛盾。要大规模利用这些报告——例如在医院PACS系统中识别所有肝细胞癌病例,或为影像模型构建训练集——首先必须对它们进行标注,也就是将其转换为结构化变量(二分类:某诊断存在/不存在)。

主要有三种方法。基于规则的标注器(CheXpert、NegBio、MetaMap)依赖术语词典和否定规则。它们快速、透明,但一旦措辞偏离预期模式就会崩溃。预训练模型微调(BERT、PubMedBERT)反过来需要每类数千份标注报告——对于没有专门研究预算的医院科室来说,这一标注成本难以承担。大语言模型(GPT-4及后续)通过其无需特定训练即可泛化的能力(zero-shot)部分解决了问题,但需要将患者报告发送给外部供应商——与大多数健康数据监管框架不兼容。这篇论文正是定位在这一夹缝中。

方法

研究由Ying-Jia Lin和Hung-Yu Kao(台湾清华大学和长庚大学)主导,与长庚纪念医院和汐止国泰综合医院(台湾)的临床团队合作。预印本于2026年5月19日发布在arXiv上(5月20日修订),最终版本被ACL会议下属的BioNLP 2026研讨会接收。DOI 10.48550/arXiv.2605.20052,代码以开放许可发布在GitHub上。台湾公共资助(NSTC),无利益冲突声明。

整个体系由三个要素构成。第一要素:轻量级骨干模型PubMedBERT,一个由Microsoft Research在整个PubMed语料上预训练的1.1亿参数的BERT。这是一个文本编码encoder-only模型——比消费级LLMs小得多,但专门在生物医学文献上训练,因此对医学词汇有很好的校准。

第二要素:通过掩码语言建模进行prompt-tuningPromptRad没有像经典fine-tuning方法那样在PubMedBERT之上添加分类层,而是将标注任务重新表述为一个填空题问题。报告被插入到一个模板中,例如「r The radiology report is related to [MASK].」,其中[MASK]是要预测的词。模型被训练为每个目标类别预测一个词汇中的词。这种表述有两个好处:它保留了模型的初始训练(无需随机初始化的层),并且直接利用了PubMedBERT在整个预训练过程中精炼的"掩码头"。

第三要素:UMLS增强的多词verbalizer在prompt-tuning中,verbalizer是将类别映射到一个或多个词汇词的函数。直观上,可以简单地取类别名(「hepatocellular carcinoma」)。作者更进一步:他们针对每个类别查询SNOMED CT(通过UMLS Metathesaurus,美国国家医学图书馆的大型医学词表),并添加临床实践中使用的同义词。肝细胞癌因此变为{「hcc」、「hepatoma」};脂肪变性变为{「steatosis」、「fatty liver」};治疗后状态包括缩写RFA(射频消融)和TACE(经动脉化疗栓塞)。在决策时,模型聚合一个类别所有同义词中的最大概率。正是这种医学知识的注入将PromptRad与通用prompt-tuning区分开来。

数据集由1 098份去标识化的肝脏CT报告组成,用英文撰写,来自台湾一家大型医疗中心,时间跨度为2008–2017年。严格按时间划分:773份训练报告(2008–2014年),325份测试报告(2015–2017年)。七个肝脏病灶类别由两位资深放射科医师标注,明确指示将可疑表述标记为阳性以避免假阴性。在低资源设置下,仅从训练池中分层抽样32份报告以保持类别分布;结果是五次抽样的平均值。研究经参与中心机构伦理委员会批准。

对比基线:三类。规则类:词典标注器、MetaMap和NegBio。微调类:经典PubMedBERT,以及两个混合变体,其中微调之前先经过MetaMap或NegBio预处理。大模型类:零样本GPT-4,以及使用三个示例的in-context learning版GPT-4。

结果

主要结果是PromptRad+AutoT的宏F1为89.2%(±1.0)(使用T5自动生成模板的变体),略高于零样本GPT-4的88.7%,远高于经典PubMedBERT微调的58.6%(±10.0)。PromptRad的手动变体达到83.7%(±2.1)。NegBio作为规则类标注器中的佼佼者,最高仅达76.6%。肝转移的检测因此从27.5%(NegBio)或54.9%(PubMedBERT)跃升至84.7%(PromptRad+AutoT)——在一个少数类别(101个训练样本,46个测试样本)上的显著差距。在血管瘤这另一个稀有类别上,从37.7%(PubMedBERT)跃升至92.4%。

否定句处理方面,论文报告(图4)PromptRad+AutoT在区分HCC、肝硬化和转移这三个类别的显式否定表述(「no liver cirrhosis」、「R/O metastasis」)方面优于GPT-4、NegBio和MetaMap。NegBio在肝硬化上尤其崩溃,因为其句法分析逻辑要求完整句子,而放射科医师常常以电报式风格写作。差距在文本阅读需要语义理解之处建立——这正是语言模型的主场。

临床转换。为给出例行自动标注1 000份肝脏CT报告的量级:一个用32个样本微调的PubMedBERT标注器每100份中会漏掉约45个脂肪变性的提及,而PromptRad+AutoT只漏3个。在肝转移上,NegBio每100个真实病例会漏掉约72个,而PromptRad+AutoT只漏15个——代价是绝对数量上略多的假阳性。一份被错误标记为阳性的阴性报告会带来人工复核成本,但没有直接的临床成本。对于试图从其PACS构建肝肿瘤登记的放射科来说,转移检出率从28%到85%的差距改变了登记的性质——从无法使用变为可以使用。

好的方面

三项具体优势。

数据效率极高且有量化。32份标注报告对比经典BERT微调所需的数千份:这一差距使该方法可在真实的医院科室中部署,那里没有任何放射科医师有空闲时间标注5 000个病例。论文还表明(5.4节)随着数据增加,性能继续上升:在128个样本时,PromptRad+AutoT超过90%的宏F1。曲线被诚实地描绘,没有在有利阈值上挑选樱桃。

验证使用时间划分而非随机划分。在2008–2014年上训练,在2015–2017年上测试。这是一种方法学纪律,至少消除了一种形式的data leakage——即同一患者或同一放射科医师同时出现在训练集和测试集中(因为随机抽签将他们分开)的情形。在临床数据上,这是良好实践,但在医学NLP文献中仍然经常被忽视。

代码以宽松许可发布,骨干模型是开放的。PubMedBERT采用MIT许可,PromptRad代码以CC BY 4.0许可发布在GitHub上,并且该方法在推理时不依赖任何专有服务(OpenAI API仅用于对比)。具体来说,医院可以本地部署整个pipeline,不向外部供应商发送任何一份报告——这在当前充斥着仅仅对GPT-4做prompt就发表论文的浪潮中是罕见的。

不太好的方面

三项明确的局限。

数据来自单一中心、单一模态、单一语言。1 098份来自台湾一家医院的肝脏CT报告,用英文撰写。这是人群偏倚的经典形式:没有任何保证表明模型能够经受住科室变换(儿科放射学)、模态变换(MRI)、专科变换(心脏病学报告)或语言变换(中国大陆医院的中文报告,混合中文、英文和自有缩略语)。作者在其局限性部分明确承认这一点。对于中文医院,将需要从零重训,而缺乏精心校准的中文PubMedBERT是真实的障碍。

GPT-4对比基线以零样本方式使用,未做提示优化,对其不利。2024–2026年的文献已大量表明,精心设计的提示,配合精选的示例和显式的思维链,可以在临床任务上为GPT-4赢得5到10分。这里测试的in-context learning版本使用「三个随机示例」——这可能不是最佳选择。要标记的失败模式是对比基线偏倚:我们不知道PromptRad击败的是一个使用不当的GPT-4还是处于最佳条件下的GPT-4。与微调后的GPT-4或可比规模的开放权重模型(Llama-3-Med、BiomedCLIP)的对比会更有启发性。

参考指标是七个固定类别的F1,这没有涵盖最具挑战性的临床场景。实践中,一个放射科需要标注潜在数十个类别——包括在32个训练样本中一次都未出现的稀有发现。论文对PromptRad在极低患病率类别(例如1‰)上的退化只字未提,也没有涉及UMLS词汇之外的偶发发现。经典的误导性指标陷阱潜伏:七个充分代表的类别上89%的宏F1可能掩盖第八个类别上的崩塌。要将该方法用于生产,缺少在放射学发现长尾分布上的前瞻性评估。

这改变了什么

医学NLP研究界来说,方法学信息很重要。自2023年以来,许多团队不再微调紧凑模型,因为零样本GPT-4似乎让他们省去了努力。这篇论文提醒:一个适配良好的骨干模型加上以医学术语增强的verbalizer,可以在精确任务上与GPT-4打成平手,参数量却少了1 000倍,因此推理成本可忽略,并且不依赖外部API。这是关于医院技术主权辩论中的有用论据。反过来,这篇论文并未声称在开放任务上取代GPT-4,也未做到——诚实的批评必须牢记这一边界。

临床医师和影像科室来说,操作杠杆是具体的。一个希望回溯性索引其PACS的科室——例如为研究或质量回顾构建肝细胞癌患者队列——现在可以期望以几个放射科医师小时的标注工作量来完成,而不是几个月。然而实际问题是集成:谁托管模型,谁维护,谁审计其假阴性。这些点论文都没有解决,它止步于基准测试。

患者和公众来说,启示仍是间接的。没有人会去咨询PromptRad。但其下游的pipelines——为癌症登记、肝脏病变流行病学研究、未来影像模型的训练集提供养分——将对所产生的医学知识质量产生级联效应。一个从60%提升到89%平均准确率的标注基础设施,意味着漂移更少的科学文献、构成更好的队列,并最终带来更可靠的临床建议。这种益处不可见,但是真实的。

延伸阅读

arXiv预印本2605.20052在arxiv.org上开放获取;PDF直接链接在此。代码和脚本发布在github.com/ila-lab/PromptRad。关于PubMedBERT,Gu等(2021)的原始论文可通过DOI 10.1145/3458754获取。关于prompt-tuning的概念基础,参见Liu等,ACM Computing Surveys,2023(DOI 10.1145/3560815)。关于UMLS Metathesaurus,入口为美国国家医学图书馆。关于临床LLM特定失败模式的近期综述,参见我们对Auger 2026研究的解读