médical IA

PromptRad：仅用32份标注的肝脏CT报告，便能与GPT-4打成平手

发布于 2026年5月24日 · 8 分钟阅读

Ying-Jia Lin（台湾长庚大学）及其团队于2026年5月19日在arXiv上发布了PromptRad，该论文已被ACL会议下属的BioNLP 2026研讨会接收，提出了一种在极小标注预算下自动标注肝脏CT报告的方法。结果可以用一句话概括：仅用32份标注报告和一个1.1亿参数的模型——不到GPT-4规模的1%——他们基于UMLS同义词增强的prompt-tuning方法在七类肝脏病灶上达到89.2%的宏F1，与零样本GPT-4打成平手，并在否定句处理上超越它。这是一篇重要的论文，因为它挑战了"临床NLP的性能必然来自模型规模"这一观点，并且提供了一套医院可以本地部署的方案，无需将患者数据发送到云服务商。

背景

放射学报告是现存最丰富的临床数据矿之一。每做一次影像检查，放射科医师都会写一段自由文本，描述他所看到、所怀疑、所排除的内容。但这种丰富性被形式所困：非结构化文本、专业术语、缩略语、含糊措辞、多重否定、有意的矛盾。要大规模利用这些报告——例如在医院PACS系统中识别所有肝细胞癌病例，或为影像模型构建训练集——首先必须对它们进行标注，也就是将其转换为结构化变量（二分类：某诊断存在/不存在）。

主要有三种方法。基于规则的标注器（CheXpert、NegBio、MetaMap）依赖术语词典和否定规则。它们快速、透明，但一旦措辞偏离预期模式就会崩溃。预训练模型微调（BERT、PubMedBERT）反过来需要每类数千份标注报告——对于没有专门研究预算的医院科室来说，这一标注成本难以承担。大语言模型（GPT-4及后续）通过其无需特定训练即可泛化的能力（zero-shot）部分解决了问题，但需要将患者报告发送给外部供应商——与大多数健康数据监管框架不兼容。这篇论文正是定位在这一夹缝中。

方法

研究由Ying-Jia Lin和Hung-Yu Kao（台湾清华大学和长庚大学）主导，与长庚纪念医院和汐止国泰综合医院（台湾）的临床团队合作。预印本于2026年5月19日发布在arXiv上（5月20日修订），最终版本被ACL会议下属的BioNLP 2026研讨会接收。DOI 10.48550/arXiv.2605.20052，代码以开放许可发布在GitHub上。台湾公共资助（NSTC），无利益冲突声明。

整个体系由三个要素构成。第一要素：轻量级骨干模型PubMedBERT，一个由Microsoft Research在整个PubMed语料上预训练的1.1亿参数的BERT。这是一个文本编码encoder-only模型——比消费级LLMs小得多，但专门在生物医学文献上训练，因此对医学词汇有很好的校准。

第二要素：通过掩码语言建模进行prompt-tuning。PromptRad没有像经典fine-tuning方法那样在PubMedBERT之上添加分类层，而是将标注任务重新表述为一个填空题问题。报告被插入到一个模板中，例如「r The radiology report is related to [MASK].」，其中[MASK]是要预测的词。模型被训练为每个目标类别预测一个词汇中的词。这种表述有两个好处：它保留了模型的初始训练（无需随机初始化的层），并且直接利用了PubMedBERT在整个预训练过程中精炼的"掩码头"。

第三要素：UMLS增强的多词verbalizer。在prompt-tuning中，verbalizer是将类别映射到一个或多个词汇词的函数。直观上，可以简单地取类别名（「hepatocellular carcinoma」）。作者更进一步：他们针对每个类别查询SNOMED CT（通过UMLS Metathesaurus，美国国家医学图书馆的大型医学词表），并添加临床实践中使用的同义词。肝细胞癌因此变为{「hcc」、「hepatoma」}；脂肪变性变为{「steatosis」、「fatty liver」}；治疗后状态包括缩写RFA（射频消融）和TACE（经动脉化疗栓塞）。在决策时，模型聚合一个类别所有同义词中的最大概率。正是这种医学知识的注入将PromptRad与通用prompt-tuning区分开来。

数据集由1 098份去标识化的肝脏CT报告组成，用英文撰写，来自台湾一家大型医疗中心，时间跨度为2008–2017年。严格按时间划分：773份训练报告（2008–2014年），325份测试报告（2015–2017年）。七个肝脏病灶类别由两位资深放射科医师标注，明确指示将可疑表述标记为阳性以避免假阴性。在低资源设置下，仅从训练池中分层抽样32份报告以保持类别分布；结果是五次抽样的平均值。研究经参与中心机构伦理委员会批准。

对比基线：三类。规则类：词典标注器、MetaMap和NegBio。微调类：经典PubMedBERT，以及两个混合变体，其中微调之前先经过MetaMap或NegBio预处理。大模型类：零样本GPT-4，以及使用三个示例的in-context learning版GPT-4。

结果

主要结果是PromptRad+AutoT的宏F1为89.2%（±1.0）（使用T5自动生成模板的变体），略高于零样本GPT-4的88.7%，远高于经典PubMedBERT微调的58.6%（±10.0）。PromptRad的手动变体达到83.7%（±2.1）。NegBio作为规则类标注器中的佼佼者，最高仅达76.6%。肝转移的检测因此从27.5%（NegBio）或54.9%（PubMedBERT）跃升至84.7%（PromptRad+AutoT）——在一个少数类别（101个训练样本，46个测试样本）上的显著差距。在血管瘤这另一个稀有类别上，从37.7%（PubMedBERT）跃升至92.4%。

在否定句处理方面，论文报告（图4）PromptRad+AutoT在区分HCC、肝硬化和转移这三个类别的显式否定表述（「no liver cirrhosis」、「R/O metastasis」）方面优于GPT-4、NegBio和MetaMap。NegBio在肝硬化上尤其崩溃，因为其句法分析逻辑要求完整句子，而放射科医师常常以电报式风格写作。差距在文本阅读需要语义理解之处建立——这正是语言模型的主场。

临床转换。为给出例行自动标注1 000份肝脏CT报告的量级：一个用32个样本微调的PubMedBERT标注器每100份中会漏掉约45个脂肪变性的提及，而PromptRad+AutoT只漏3个。在肝转移上，NegBio每100个真实病例会漏掉约72个，而PromptRad+AutoT只漏15个——代价是绝对数量上略多的假阳性。一份被错误标记为阳性的阴性报告会带来人工复核成本，但没有直接的临床成本。对于试图从其PACS构建肝肿瘤登记的放射科来说，转移检出率从28%到85%的差距改变了登记的性质——从无法使用变为可以使用。

好的方面

三项具体优势。

数据效率极高且有量化。32份标注报告对比经典BERT微调所需的数千份：这一差距使该方法可在真实的医院科室中部署，那里没有任何放射科医师有空闲时间标注5 000个病例。论文还表明（5.4节）随着数据增加，性能继续上升：在128个样本时，PromptRad+AutoT超过90%的宏F1。曲线被诚实地描绘，没有在有利阈值上挑选樱桃。

验证使用时间划分而非随机划分。在2008–2014年上训练，在2015–2017年上测试。这是一种方法学纪律，至少消除了一种形式的data leakage——即同一患者或同一放射科医师同时出现在训练集和测试集中（因为随机抽签将他们分开）的情形。在临床数据上，这是良好实践，但在医学NLP文献中仍然经常被忽视。

代码以宽松许可发布，骨干模型是开放的。PubMedBERT采用MIT许可，PromptRad代码以CC BY 4.0许可发布在GitHub上，并且该方法在推理时不依赖任何专有服务（OpenAI API仅用于对比）。具体来说，医院可以本地部署整个pipeline，不向外部供应商发送任何一份报告——这在当前充斥着仅仅对GPT-4做prompt就发表论文的浪潮中是罕见的。

不太好的方面

三项明确的局限。

数据来自单一中心、单一模态、单一语言。1 098份来自台湾一家医院的肝脏CT报告，用英文撰写。这是人群偏倚的经典形式：没有任何保证表明模型能够经受住科室变换（儿科放射学）、模态变换（MRI）、专科变换（心脏病学报告）或语言变换（中国大陆医院的中文报告，混合中文、英文和自有缩略语）。作者在其局限性部分明确承认这一点。对于中文医院，将需要从零重训，而缺乏精心校准的中文PubMedBERT是真实的障碍。

GPT-4对比基线以零样本方式使用，未做提示优化，对其不利。2024–2026年的文献已大量表明，精心设计的提示，配合精选的示例和显式的思维链，可以在临床任务上为GPT-4赢得5到10分。这里测试的in-context learning版本使用「三个随机示例」——这可能不是最佳选择。要标记的失败模式是对比基线偏倚：我们不知道PromptRad击败的是一个使用不当的GPT-4还是处于最佳条件下的GPT-4。与微调后的GPT-4或可比规模的开放权重模型（Llama-3-Med、BiomedCLIP）的对比会更有启发性。

参考指标是七个固定类别的F1，这没有涵盖最具挑战性的临床场景。实践中，一个放射科需要标注潜在数十个类别——包括在32个训练样本中一次都未出现的稀有发现。论文对PromptRad在极低患病率类别（例如1‰）上的退化只字未提，也没有涉及UMLS词汇之外的偶发发现。经典的误导性指标陷阱潜伏：七个充分代表的类别上89%的宏F1可能掩盖第八个类别上的崩塌。要将该方法用于生产，缺少在放射学发现长尾分布上的前瞻性评估。

这改变了什么

对医学NLP研究界来说，方法学信息很重要。自2023年以来，许多团队不再微调紧凑模型，因为零样本GPT-4似乎让他们省去了努力。这篇论文提醒：一个适配良好的骨干模型加上以医学术语增强的verbalizer，可以在精确任务上与GPT-4打成平手，参数量却少了1 000倍，因此推理成本可忽略，并且不依赖外部API。这是关于医院技术主权辩论中的有用论据。反过来，这篇论文并未声称在开放任务上取代GPT-4，也未做到——诚实的批评必须牢记这一边界。

对临床医师和影像科室来说，操作杠杆是具体的。一个希望回溯性索引其PACS的科室——例如为研究或质量回顾构建肝细胞癌患者队列——现在可以期望以几个放射科医师小时的标注工作量来完成，而不是几个月。然而实际问题是集成：谁托管模型，谁维护，谁审计其假阴性。这些点论文都没有解决，它止步于基准测试。

对患者和公众来说，启示仍是间接的。没有人会去咨询PromptRad。但其下游的pipelines——为癌症登记、肝脏病变流行病学研究、未来影像模型的训练集提供养分——将对所产生的医学知识质量产生级联效应。一个从60%提升到89%平均准确率的标注基础设施，意味着漂移更少的科学文献、构成更好的队列，并最终带来更可靠的临床建议。这种益处不可见，但是真实的。

延伸阅读

arXiv预印本2605.20052在arxiv.org上开放获取；PDF直接链接在此。代码和脚本发布在github.com/ila-lab/PromptRad。关于PubMedBERT，Gu等（2021）的原始论文可通过DOI 10.1145/3458754获取。关于prompt-tuning的概念基础，参见Liu等，ACM Computing Surveys，2023（DOI 10.1145/3560815）。关于UMLS Metathesaurus，入口为美国国家医学图书馆。关于临床LLM特定失败模式的近期综述，参见我们对Auger 2026研究的解读。