别再暴力堆算力了，ICLR 2026这篇Photon用指令感知剪枝，训练加速5倍

张开发

• 2026/4/14 18:37:39 • 15 分钟阅读

分享文章

别再暴力堆算力了，ICLR 2026这篇Photon用指令感知剪枝，训练加速5倍

在“医学图像多模态大模型”领域3D数据带来的高昂计算成本与垂直医学细分领域的知识匮乏是当前阻碍模型落地的两大核心挑战。本文综合解析了两篇前沿突破性研究第一篇针对3D医学影像算力瓶颈提出原生3D多模态模型Photon通过动态令牌过滤机制大幅削减训练与推理成本同时完好保留病理空间细节第二篇聚焦眼科专科推出全开源的基础框架VOLMO通过“领域知识注入到多步临床推理”的三阶段训练彻底扭转了通用大模型在眼科诊断中表现低迷的困局。两项工作分别从底层计算效率优化与垂直专科工作流适配两个维度极大推动了医疗人工智能的轻量化与实用化进程。针对以下内容我整理了Photon核心代码提取版3D医学图像中的“动态Token剪枝”模块可插入Qwen2.5-VL感兴趣的可以dd希望能帮到你原文姿料这儿~一、论文1[ICLR 2026] Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models方法Photon构建了一个原生的3D多模态大语言模型 (Multimodal Large Language Models, MLLMs)使用变长序列对全量3D医学体积进行建模。核心方法是引入了指令条件化令牌调度 (Instruction-conditioned Token Scheduling, ITS)能够根据问题指令自适应地筛除无关的视觉令牌 (Visual Tokens)。为了解决离散删减令牌导致无法端到端训练的问题模型设计了替代梯度传播 (Surrogate Gradient Propagation, SGP)机制其核心概率保留公式为创新点革新输入范式摒弃了耗损信息的“2D切片采样”与“固定比例压缩”实现了保留三维高分辨率医学细节的变长特征输入。双端加速且可导首次将动态Token剪枝与SGP机制融合不仅在推理阶段提速更在训练阶段大幅降低算力与显存消耗。鲁棒性优化设计了掩码翻转等正则化损失目标有效抑制了仅依赖语言先验知识而脱离影像事实的幻觉偏差 (Hallucination Bias)。代码链接https://github.com/alibaba-damo-academy/Photon论文链接https://arxiv.org/abs/2503.25155二、论文2[耶鲁大学] VOLMO: Versatile and Open Large Models for Ophthalmology方法VOLMO是一个数据与架构完全开源的眼科模型构建框架。包含三个渐进式训练阶段阶段一利用8.6万对眼科文献图文进行基础领域知识预训练。阶段二使用涵盖12种眼底疾病的数据集2.6万实例执行疾病筛查与分级任务微调。阶段三使用真实患者病例进行多步临床推理 (Clinical Reasoning)评估、治疗、随访模拟。其生成质量评估用到了句向量语义相似度公式如下创新点填补生态空白打破了此前专科医疗模型尤其是眼科仅有评估而无重量级开源模型的现状提供了数据透明的开发框架。全流程贴合临床摒弃了单一的“看图说话”让模型学会像医生一样综合患者病史、多模态影像进行多步骤、有逻辑的诊疗方案综合输出。小发丝大能量基于该框架训练的VOLMO-2B模型仅需20亿参数便在病理描述、筛查分级等任务上超越了现有的百亿参数模型支持在轻量级消费设备上部署。论文链接https://arxiv.org/abs/2503.23953

别再暴力堆算力了，ICLR 2026这篇Photon用指令感知剪枝，训练加速5倍

最新文章

终极指南：NOFX中7大AI模型（DeepSeek/Qwen/Claude）的完整对比分析

如何用BetterGI智能辅助工具解放双手：原神自动化助手完全指南 [特殊字符]

基于事件驱动的Multi-Agent架构：从Pub_Sub到事件溯源

权威预测：统一API软件市场2032年将达42.25亿元，数字化转型再添核心动能

收藏！小白程序员必看：大模型定制三步走，Prompt、RAG、Fine-tuning一篇懂！

Jitsi Meet前端组件库：可复用UI元素与开发规范

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

电商选品避坑指南！Open Claw 1688 店铺搜索 API，精准锁定优质供应商（附 Python 源码 + 数据实测 + FAQ）

告别马赛克！用Python+OpenCV实现双立方插值，让你的图片放大4倍依然清晰

番茄小说下载器：基于Rust的分布式数字资源获取与管理系统技术解析

TranslucentTB：Windows任务栏透明美化终极指南，让你的桌面焕然一新！✨

Conditional Domain Adversarial Network (CDAN)：从类感知对齐到实战调优

从仿真到部署：用Isaac Gym训练宇树G1的强化学习策略，再迁移到Mujoco验证的完整流程

Java判断排列合法性代码

Noto字体终极指南：如何免费获得900+语言支持的完整字体解决方案

八大网盘直链下载神器：告别限速，拥抱纯净下载体验

I2C读写出错经常卡死在中断里的处理stm32f103

山东大学软件学院创新实训（一）

告别Swiper高度失控：从异常值到精准控制的实战解析

别再暴力堆算力了，ICLR 2026这篇Photon用指令感知剪枝，训练加速5倍

最新文章

终极指南：NOFX中7大AI模型（DeepSeek/Qwen/Claude）的完整对比分析

如何用BetterGI智能辅助工具解放双手：原神自动化助手完全指南 [特殊字符]

基于事件驱动的Multi-Agent架构：从Pub_Sub到事件溯源

权威预测：统一API软件市场2032年将达42.25亿元，数字化转型再添核心动能

收藏！小白程序员必看：大模型定制三步走，Prompt、RAG、Fine-tuning一篇懂！

Jitsi Meet前端组件库：可复用UI元素与开发规范

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南