BreastGPT:用一个多模态模型覆盖乳腺癌全诊疗流程——自建基准上 90% 的分数究竟意味着什么(Liu 等,2026,arXiv)
Yang Liu、Jiajin Zhang、Danyang Tu、Yingda Xia 及其同事(阿里巴巴达摩院、浙江大学、湖畔实验室,以及华西医院和中国医科大学)于 2026 年 6 月 3 日在 arXiv 提交 BreastGPT,一个号称覆盖乳腺癌全诊疗流程——筛查、诊断、治疗规划——的 80 亿参数多模态大语言模型,涵盖五种影像模态(乳腺X线、超声、MRI、CT、病理切片)以及临床文本。模型在很大程度上由阿里自家大模型制造的 186 万条问答对上训练,在其自建基准 BreastStage-Bench 上达到 75.66% 的选择题准确率和 89.92% 的开放题得分,远超未经针对性训练即被询问的通用模型。这是一次严肃的工程展示,但大部分差距来自在与测试完全相同的分布上训练:唯一公平的对照只高出几分,没有在真实患者上评估,也没有与临床医生对比,而"标准答案"在很大程度上由自家模型生成。
背景
乳腺癌的诊治是一个分阶段的流程。在筛查阶段,主要阅读乳腺X线片(并且越来越多地在因其他原因做的胸部 CT 上机会性地发现乳腺病灶)。在诊断阶段,依次进行超声、MRI,并通过对活检的显微镜检查——病理——来确诊。在治疗规划阶段,则整合分型、范围和预期反应。每一步都调用不同的影像模态和不同的推理方式。
迄今为止,AI 都是逐一攻克这些步骤:一个模型做乳腺X线,另一个做超声,再一个做切片。作者从一个观察出发:既没有一个数据集、也没有一个单一模型能贯穿整个流程。他们的方案是一个多模态大语言模型(MLLM:一种除了读写文本,还能"看"图像的语言模型),以 VQA(visual question answering,视觉问答:给它一张图,提出一个选择题或开放题)的形式来询问。一个单一系统,要在五种模态和三个阶段上作答。野心很清楚;一旦测量,它究竟值多少,才是问题。
方法
该论文是一篇 arXiv 预印本(2606.04911,2026 年 6 月 3 日提交,依 CC BY-NC-SA 许可,尚未经同行评审)。BreastGPT 基于阿里巴巴的视觉-语言模型 Qwen3-VL 的 80 亿参数版本。核心技巧是一个带模态路由的双分支视觉编码器:一条"标准"分支(Qwen3-VL 原生的图像编码器)处理 CT、MRI、超声和乳腺X线;一条"十亿像素"分支处理病理切片,即数十亿像素的图像。这第二条分支将切片在高倍下切成图块,用 CONCH(一个在病理图像上预训练的编码器)对每个图块编码,再用 LongNet(一种为超长序列设计的"扩张"注意力架构)进行聚合。
为了不让语言模型被数万个图块淹没,作者改用一种"保留概念"的 token 压缩技术:不传输全部,而是选取 128 个能最大化有用信息覆盖的视觉 token。该方法无需额外训练。任务之间的路由不通过专门的输出头,而通过告知模型阶段和任务的系统提示。训练动用了 32 块 H100 显卡,历时三天多。
在数据方面,"BreastStage"语料库汇集约 66.2 万张图像、136 个任务模板和 186 万条指令对,来自覆盖五种模态的 17 个子数据集(构成:筛查 57.9%、诊断 36.7%、治疗 5.4%)。图像来源大多是公开的——CT 用 CT-RATE(20546 个女性体积),超声用 BUS-CoT(11439 张图像),乳腺X线用 EMBED 的一个子集,病理用 BCNB、TCGA-BRCA 和 TCGA-HISTAI(2510 张切片)——只有一个私有 MRI 队列,来自两家医院,由十位乳腺专科医生标注,其中文报告经机器翻译。关键之处:大部分文本(开放题、图注、模拟报告)并非由人撰写,而是由阿里自家模型生成(Qwen2.5-VL-72B 负责与图像相关的决策,Qwen3-Max 负责文本转换)。
结果
在其自建基准 BreastStage-Bench(12182 个测试样本,按患者层面划分)上,BreastGPT 达到选择题 75.66% 的准确率和开放题 89.92%。未经针对性训练即被询问的通用模型则远远落后:GPT-5.4 为 54.0 / 53.6,像 Lingshu 这样的专用医学模型为 50.4。摘要突出的正是这一对比。
但真正重要的数字在别处,而作者诚实地提供了它:一个 80 亿参数的 Qwen3-VL,完全相同、只是在相同数据上微调,就已经达到 68.21% / 88.24%。如此一来,双分支架构和 token 压缩本身的贡献缩小到选择题约 7 分、开放题不到 2 分。大部分收益并非来自架构,而是来自在与测试完全相同的分布上训练了模型。架构的好处主要体现在病理上,十亿像素分支将准确率从 60.4% 提升到 71.4%。
临床转化。这里必须直说:这些百分比转化不出任何临床含义。选择题 75% 的准确率既不是筛查的敏感性,也不是特异性;它不能说明在真实患者身上会漏诊多少癌症、又会产生多少误警。没有任何性能是在临床终点上测量的,没有与放射科或病理科医生做过任何对比,而评估完全在与训练同源的数据上进行。换言之,BreastGPT 能很好地回答与它见过的题目同样构造的问题——对一个原型而言令人鼓舞,但几乎没有告诉我们它在真实病例面前会做什么。
做得好的地方
面向十亿像素的真正工程,以及在关键处可测量的收益。让"普通"放射影像与数十亿像素的病理切片在同一个模型中共存,是一个困难的技术问题。CONCH + LongNet + 128 token 压缩的组合是一个用心的方案,而正是在病理上,架构贡献最为明显(选择题 60.4 → 71.4%)。让单一助手贯穿整个流程、而非各自为政的工具,这一思路在原则上是正确的方向。
规模,尤其是诚实的消融对照。语料库庞大且有据可查(66.2 万张图像、17 个子数据集、五种模态)。而且作者并不满足于击败通用模型:他们报告了一个仅在其数据上微调的 Qwen3-VL 的性能。正是这个对照让读者看到真正的架构收益是有限的——给出这个数字值得肯定,许多团队会将其略去。
对状态和局限的透明。论文明确指出 BreastGPT 是一个"研究原型",未经临床验证,未经监管机构审查,不应被当作自主诊断系统。它承认数据不是纵向的(很少是同一患者从头到尾被随访),建议按中心进行专门验证,并宣布在非商业许可下提供代码和基准。
做得不够的地方
在宣传中使用了有偏的对照和误导性的指标。将一个在测试分布上训练过的模型,与未经针对性训练即被询问的通用模型(GPT-5.4"仅 49.3%")相比,是一种不平衡的比较:这是一场看过往年真题的考生与初次见到考卷的考生之间的较量。有偏的对照夸大了所宣称的差距(按阶段"超过 25 / 35 / 40%"),而唯一公平的对照——他们自己微调的模型——将真实收益拉回到几分。宣传大差距而非小差距,是一种误导性指标。
一种循环式评估,存在数据泄漏和捷径学习的风险。该基准与训练取自同样的 17 个数据集,由同一团队、用同一生成流程构建。划分是在患者层面进行的,但同一张图像可在不同任务中重现,报告的句式模板也会重复:这是数据泄漏(data leakage)和捷径学习(shortcut learning)的温床——模型学到的是问题的风格,而非医学。更糟的是,开放题的"标准答案"由阿里自家模型生成,再由同样基于语言模型的评判器打分:评卷者与考生同出一门,这会机械地奖励"Qwen"风格的回答。最敏感的子集小得可怜(病理仅 113 道开放题和 70 条图注),使得关于"治疗"阶段的论断很脆弱。
没有患者、没有临床医生,还有人群与治理上的盲点。评估完全基于基准:没有真实患者上的任何结果,没有临床终点,没有与放射科或病理科医生的直接对比——参与的三位乳腺专科医生只审核了数据质量,从未与模型对阵。队列以中国和特定中心为主(私有的 MRI 来自两家医院),人群偏倚的风险以及在其他扫描仪或其他国家上崩溃的风险依然原封未动。最后,既未声明经费,也未声明利益冲突,尽管基础模型、生成数据的模型和评判器都是同一工业集团的产品——这种依赖关系理应被说清楚。
这带来什么改变
对研究界而言,BreastGPT 是一把双刃剑。一方面,它是构建沿临床流程行进的多模态助手的可复用蓝图,而十亿像素这块砖(CONCH + LongNet + token 压缩)可迁移到其他癌症。另一方面,它是"自建基准"局限性的教科书式案例:当训练模型的团队同时制造测试集、标准答案和评判器时,惊人的分数便失去了证据价值。对外部、独立、由人类标注的基准的需求,从未如此清晰。
对临床医生而言,该工具没有任何即时意义:一个未经验证的原型,没有与专家阅片的对比,没有前瞻性测试,没有监管地位。让单一助手贯穿筛查、诊断与决策的想法在中期颇具吸引力,但这需要跨过此处所缺的一切——在真实患者上、对真实医生、在真实医院中的评估。
对患者与公众而言,信息可凝成一句话:基准上 90% 的分数不是一个安全的医疗工具。多模态语言模型可以给出流畅、貌似合理的回答,同时却出错或幻觉出细节——而这一风险尤为严重,因为这项工作的"标准答案"本身就是由模型写的。措辞漂亮的回答不等于正确的回答,令人印象深刻的原型也不等于一台经过验证的设备。
延伸阅读
该预印本在 arXiv 开放获取:arxiv.org/abs/2606.04911(DOI 10.48550/arXiv.2606.04911);作者宣布将在 ModelScope 上发布代码、权重(80 亿参数)和 BreastStage 基准。关于另一个近期专注于乳腺癌的模型——从活检预测化疗反应——参见我们对 MCEN 的解读。关于数字病理中的基础模型与十亿像素切片分析,参见我们对 GigaPath 的解读。关于那些名为"多模态"实则主要依赖文本的模型的陷阱,参见我们对 文本主导图像的临床 VLM 的解读。