解读
Tatakoto上所有科学出版物的解读。
BreastGPT:用一个多模态模型覆盖乳腺癌全诊疗流程——自建基准上 90% 的分数究竟意味着什么(Liu 等,2026,arXiv)
对 2026 年 6 月 3 日提交至 arXiv 的预印本的解读,作者为 Yang Liu 等(阿里巴巴达摩院、浙江大学、湖畔实验室、四川大学华西医院、中国医科大学):BreastGPT,一个号称覆盖乳腺癌全诊疗流程——筛查、诊断、治疗规划——的 80 亿参数多模态大语言模型,涵盖五种影像模态(乳腺X线、超声、MRI、CT、病理切片)及文本。模型在很大程度上由阿里自家大模型构建的 186 万条问答对上训练,在其自建基准 BreastStage-Bench 上达到 75.66% 的选择题准确率和 89.92% 的开放题得分。这是一次真实的工程展示,但大部分差距来自在与测试完全相同的分布上训练:公平的对照只高出几分,没有在真实患者上评估,也没有与临床医生对比,而"标准答案"在很大程度上由自家模型生成。
MCEN:用 Mamba 架构从一次穿刺活检预测乳腺癌化疗的完全缓解(Zhang 等,2026,npj Digital Medicine)
对 2026 年 6 月 2 日发表于 npj Digital Medicine 的论文的解读,作者为 Wenchuan Zhang、Shuwan Zhang、Fengling Li、Qingjie Lv、Yuhao Yi 与 Hong Bu(四川大学华西医院等):MCEN,一个基于 Mamba 架构的深度学习模型,可从作为数字切片读取的穿刺活检中预测乳腺癌患者在新辅助化疗后能否达到病理完全缓解。模型在一家中国医院的 1023 例患者上训练,并在另外四个独立中心(共 1646 例患者)上测试,训练 AUROC 为 0.923,但在外部验证中降至 0.76–0.81,融合临床病理数据后最高升至 0.84。其真正的多中心验证以及 Mamba 在十亿像素图像上的高效性是优点,但研究仍受限于明显的训练-验证差距、纯中国队列、剔除非典型类型的排除标准,以及缺乏与病理医生的对比。
SKELEX:用 130 万张 X 光片训练的基础模型来读骨——从囊肿到骨折(Kim 等,2026,npj Digital Medicine)
对 2026 年 6 月 2 日发表于 npj Digital Medicine 的文章的解读,作者为 Shinn Kim、Soobin Lee、Ilkyu Han、Sunghoon Kwon 及首尔大学的同事:SKELEX 被称为首个面向肌肉骨骼 X 光片的大规模基础模型。一个以 ViT-Large 为骨干的掩码自编码器,在来自单一韩国医院(2010–2016)的 1,296,540 张无标注 X 光片上进行自监督预训练,随后被适配到 7 个公开数据集上的 12 项诊断任务。它以平均相对 6.21% 的幅度超过五个基线模型(在骨肿瘤检测上 AUROC 为 0.953,而其自身初始化模型为 0.884),校准更好,并以一半的标注就达到了最优模型的水平。该工作在标注效率和方法学严谨性上令人信服,但受限于单中心、单一国家的训练数据,真正的外部验证仅限于骨肿瘤这一项应用,缺乏与放射科医生的比较,分辨率被压缩到 224×224,且权重仅供学术使用发布。
PINNOCHIO:用物理约束神经网络预测正颌手术后的面部,精度比肩有限元,却只需几秒(Lee 等,2026,arXiv)
对 2026 年 6 月 1 日发布于 arXiv(投稿至 MICCAI 2026)的预印本的解读,作者为 Jungwook Lee、Daeseung Kim、Kevin Gu、Zhangfeng Hu、Tianshu Kuang、Finn Hopeman、Michael A.K. Liebschner、Jaime Gateno 和 Pingkun Yan(伦斯勒理工学院、休斯顿卫理公会、贝勒医学院):PINNOCHIO 是一种物理约束神经网络,通过将骨–组织界面的运动与体积的超弹性变形分开,逐患者预测颌骨手术复位后面部软组织的变形。在 40 例真实临床病例(术前 CT + 术后 3dMD 表面)上,它在表面保真度上达到或超过作为参照的有限元模拟器(Chamfer 距离 1.12 毫米对 1.30;86.55% 的点在 2 毫米以内对 80.90%),而运行时间为 3.24 秒,而非 3.5 小时。该工作在速度与生物力学合理性上令人信服,但受限于仅 40 例的队列、只覆盖外表面的监督、所有患者共用的固定力学参数,以及未公开的代码与权重。
当大语言模型必须自己问诊:一个受临床考试启发的基准显示,交互式诊断推理会拉低表现(Zhan 与 Gan 2026,arXiv)
对 Chen Zhan、Xihe Qiu、Xiaoyu Tan、Xibing Zhuang、Gengchen Ma、Yue Zhang、Shuo Li、Peifeng Liu、Xiaoxiao Ge、Liang Liu 与 Lu Gan 于 2026 年 5 月 21 日发布在 arXiv 上的预印本的解读:一个"受 OSCE 启发"的基准,其中一个标准化病人模拟器迫使十五个大语言模型(LLM)像医学生一样,一轮一轮地自己完成问诊,然后再作出诊断。在 468 个病例上,从一开始就把信息全部给出,转为主动采集病史,会使诊断准确率下降 12.75%,使所引证据的质量下降 24.36%,错误主要源于过早的诊断闭合与低效的提问。结论冷静而有用:在静态医学选择题上的排行榜,很可能高估了这些模型在真实问诊中的能力。局限:病人模拟器本身也是算法,病例来源在可获取的摘要中未作说明(存在污染风险),且数字以相对值报告,没有明确的人类对照。
GTBIS:一个解读肺神经内分泌混合癌形态学以预测预后的深度学习模型(Yang 与 Zhou 2026,npj Digital Medicine)
对 Lin Yang、Ruyu Sheng、Zijian Yang、Shilong Liu 与 Meng Zhou(中国医学科学院北京国家癌症中心/肿瘤医院、温州医科大学、哈尔滨医科大学附属肿瘤医院)于 2026 年 5 月 30 日发表在 npj Digital Medicine 论文的解读:GTBIS 是一个可解释的深度学习模型,它解读病理切片的形态学以区分小细胞肺癌(SCLC)与大细胞神经内分泌癌(LCNEC),再将该解读应用于混合型 cSCLC-LCNEC 肿瘤以进行预后分层。在合计 670 例患者的多中心队列中,模型把接受放化疗的混合型肿瘤分为预后良好的 SCLC 样亚组(五年总生存率 100% 对 39.5%,无病生存率 87.5% 对 36.0%)与预后不良的 LCNEC 样亚组,且在多变量分析中该分类仍是独立预后因素。但样本量有限,所有中心均在中国,验证为回顾性且无明确的人类对照,许可证 CC BY-NC-ND 也封闭了改编。
Pathog-PDx:一个从电子病历识别22种儿童呼吸道病原体的机器学习系统(Su 2026, npj Digital Medicine)
对2026年5月29日发表于npj Digital Medicine的Dubin Su、Qun Chen、Ruizhi Xu等(厦门大学附属第一医院、郑州大学、南京大学、深圳市第二人民医院与UIUC)研究的批判性解读:Pathog-PDx,一个综合电子病历中42项临床与实验室特征来区分22种住院儿童呼吸道感染病原体亚型的诊断系统。开发队列涵盖三家临床中心与两个数据库的134,500名儿童,独立前瞻验证队列1,338名儿童,22种病原体的平均AUC为0.88,流感病毒为0.95,明确处理混合感染,并部署了基于web的决策支持系统的公开访问。但所有开发中心均位于中国,摘要中缺失人类临床比较,CC BY-NC-ND许可阻碍学术二次开发,且对22类金标准本身的讨论仍值得单独展开——分子生物学在不同病原体上的精度差异显著。
EpiVLM:用于视频癫痫发作检测与分类的视觉-语言模型,从医院到家庭(He 2026,npj Digital Medicine)
对2026年5月26日发表于npj Digital Medicine的Mengqiao He、Leihao Sha、Pengfei Wei、Lei Chen等(四川大学华西医院与中国科学院深圳先进技术研究院)研究的解读:EpiVLM是一个视觉-语言模型(VLM),将临床结构化提示词与视频推理相结合,识别五种癫痫发作症状学,基于来自两个三级医院、不受控的家庭录制以及一个独立公开数据集的232段视频、127名患者、11666个专家标注片段。准确率0.795-0.947,灵敏度0.842-0.957,视频级假阳性率0.47%-2.45%,从发作开始到检测的平均延迟低于6秒,提示词与决策阈值预先固定且无需站点重校准。但所有三级医院均位于中国,家庭视频队列在摘要中描述有限,未与人类标注者进行正面比较,且一位共同作者隶属于私营公司(Brain Everest LLC)却未声明利益冲突。
用于卒中后个体化认知预后的自动化神经影像流水线(Brzus 2026年,npj Digital Medicine)
对Michal Brzus、Joseph Griffis、Aaron D. Boes及其同事(爱荷华大学)于2026年5月27日发表在《npj Digital Medicine》上的论文的批判性分析:一个完全自动化的DICOM到PDF流水线,使用3D Residual U-Net分割缺血性病灶,通过病灶网络映射预测28项神经心理学结局,并通过物理隔离运行的LLaMA 3.3 70B在三分钟内撰写个性化报告。训练使用Iowa Lesion Registry的604例患者,独立测试使用153例使用17种扫描仪型号成像的缺血性卒中患者。在五个详细的认知领域上AUC为0.74至0.90,自动分割与手动分割得到的预测之间一致性达96%。但训练和测试来自同一中心,无临床比较器(NIHSS、mRS、纯人口学),报告的临床审核由资深作者本人完成,且七位作者中有四位持有相关专利并共同创立NeuroPred Inc.
SHAP 与 SVM 预测子宫内膜癌术后下肢深静脉血栓(Zhou 2026,npj Digital Medicine 研究解读)
解读周庆等人 2026 年 5 月 27 日发表于 npj Digital Medicine 的论文:基于四变量(术后 D-二聚体、年龄、纤维蛋白原、FIGO 分期)的 SVM 模型预测子宫内膜癌术后下肢深静脉血栓,内部验证 AUC 0.828、外部队列 AUC 0.819,基于 841 + 95 例中国患者,并采用 SHAP 提供可解释性。但影像由症状触发(检测偏倚)、队列 100% 为中国患者、未与 Caprini/Wells 评分正面对比,且 D-二聚体测量在术后进行 — 与其说是严格预测,不如说是早期检测辅助。
UNet-MoE-Cli:用混合专家模型为直肠癌新辅助治疗个体化(Liu 2026,npj Digital Medicine)
解读刘翔宇等2026年5月26日发表于npj Digital Medicine的文章:UNet-MoE-Cli,一个基于多参数MRI和临床变量的mixture-of-experts深度学习模型,逐方案估计局部晚期直肠癌新辅助治疗的病理完全缓解概率。内部验证AUC 0.827,前瞻性队列AUC 0.790(ChiCTR2400085797),但敏感度仅0.45–0.53,nCT专家仅在单一中心训练,队列100%为中国人,且升级方案的获益由模型自身计算。
当文本吞噬图像:Restrepo 2026研究揭示了临床VLM在MIMIC-CXR上的上下文脆弱性
解读David Restrepo(CentraleSupélec-巴黎-萨克雷大学)及其同事于2026年5月17日发布的arXiv预印本2605.17436:八个视觉-语言模型在MIMIC-CXR的1 000张胸部X光片上被评估,当临床文本被替换为相反类别患者的文本时,多达66%的正确决策会反转为错误。仅图像准确率仅为0.50–0.68,仅文本就能与多模态匹敌。即使是经过医学适配的MedGemma也崩溃了。这些VLM本质上是伪装成图像阅读器的报告分类器。
PromptRad:仅用32份标注的肝脏CT报告,便能与GPT-4打成平手
解读Ying-Jia Lin等人(台湾长庚大学)2026年5月发表的arXiv预印本2605.20052(BioNLP 2026 @ ACL):一个1.1亿参数的PubMedBERT,通过UMLS词表增强的prompt-tuning微调,在七类肝脏病灶的CT报告分类上仅用32份标注样本便达到89.2%的宏F1,并在否定句处理上优于GPT-4。
一万例合成病例对决四个前沿大语言模型:Auger 2026研究揭示Gemini 3和GPT-5在多发性硬化中的临床盲点
解读Stephen D. Auger(伦敦帝国理工学院)2026年4月发表于medRxiv的预印本:基于多达10 000个带有真值标签的多发性硬化合成病例,对四个前沿模型(Gemini 3 Pro/Flash、GPT-5.2/5-mini)在诊断、定位、检查和处理方面进行评估。诊断准确性不能预测治疗安全性:Gemini对适当的皮质类固醇使用不足,GPT-5在近十分之一的病例中错误地推荐静脉溶栓。
放射科中的GPT-4:为什么LLM的解释格式会改变医生的诊断准确性
解读Spitzer等人发表在npj Digital Medicine 2026的论文:101名放射科医生的随机对照试验,比较GPT-4的三种解释格式。思维链(chain-of-thought)使准确性提高12.2个百分点,而鉴别诊断格式则诱发自动化偏见。对临床部署LLM的启示。
GigaPath在数字病理学中:一个在13亿图像块上训练的基础模型带来什么改变
对2024年Nature论文Prov-GigaPath的深度解读:用于数字病理的Transformer基础模型。架构、数据、在26个癌症基准测试中的表现,以及对诊断的实际影响。