别再暴力堆算力了,ICLR 2026这篇Photon用指令感知剪枝,训练加速5倍

张开发
2026/4/14 18:37:39 15 分钟阅读

分享文章

别再暴力堆算力了,ICLR 2026这篇Photon用指令感知剪枝,训练加速5倍
在“医学图像多模态大模型”领域3D数据带来的高昂计算成本与垂直医学细分领域的知识匮乏是当前阻碍模型落地的两大核心挑战。本文综合解析了两篇前沿突破性研究第一篇针对3D医学影像算力瓶颈提出原生3D多模态模型Photon通过动态令牌过滤机制大幅削减训练与推理成本同时完好保留病理空间细节第二篇聚焦眼科专科推出全开源的基础框架VOLMO通过“领域知识注入到多步临床推理”的三阶段训练彻底扭转了通用大模型在眼科诊断中表现低迷的困局。 两项工作分别从底层计算效率优化与垂直专科工作流适配两个维度极大推动了医疗人工智能的轻量化与实用化进程。针对以下内容我整理了Photon核心代码提取版3D医学图像中的“动态Token剪枝”模块可插入Qwen2.5-VL感兴趣的可以dd希望能帮到你原文 姿 料 这儿~一、论文1[ICLR 2026] Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models方法Photon构建了一个原生的3D多模态大语言模型 (Multimodal Large Language Models, MLLMs)使用变长序列对全量3D医学体积进行建模。核心方法是引入了指令条件化令牌调度 (Instruction-conditioned Token Scheduling, ITS)能够根据问题指令自适应地筛除无关的视觉令牌 (Visual Tokens)。为了解决离散删减令牌导致无法端到端训练的问题模型设计了替代梯度传播 (Surrogate Gradient Propagation, SGP)机制其核心概率保留公式为创新点革新输入范式摒弃了耗损信息的“2D切片采样”与“固定比例压缩”实现了保留三维高分辨率医学细节的变长特征输入。双端加速且可导首次将动态Token剪枝与SGP机制融合不仅在推理阶段提速更在训练阶段大幅降低算力与显存消耗。鲁棒性优化设计了掩码翻转等正则化损失目标有效抑制了仅依赖语言先验知识而脱离影像事实的幻觉偏差 (Hallucination Bias)。代码链接https://github.com/alibaba-damo-academy/Photon论文链接https://arxiv.org/abs/2503.25155二、论文2[耶鲁大学] VOLMO: Versatile and Open Large Models for Ophthalmology方法VOLMO是一个数据与架构完全开源的眼科模型构建框架。包含三个渐进式训练阶段阶段一利用8.6万对眼科文献图文进行基础领域知识预训练。阶段二使用涵盖12种眼底疾病的数据集2.6万实例执行疾病筛查与分级任务微调。阶段三使用真实患者病例进行多步临床推理 (Clinical Reasoning)评估、治疗、随访模拟。其生成质量评估用到了句向量语义相似度公式如下创新点填补生态空白打破了此前专科医疗模型尤其是眼科仅有评估而无重量级开源模型的现状提供了数据透明的开发框架。全流程贴合临床摒弃了单一的“看图说话”让模型学会像医生一样综合患者病史、多模态影像进行多步骤、有逻辑的诊疗方案综合输出。小发丝大能量基于该框架训练的VOLMO-2B模型仅需20亿参数便在病理描述、筛查分级等任务上超越了现有的百亿参数模型支持在轻量级消费设备上部署。论文链接https://arxiv.org/abs/2503.23953

更多文章