[ACM MM 2025] MIRA：多模态智能检索与增强驱动的医学诊断辅助框架

张开发

• 2026/6/6 15:14:48 • 15 分钟阅读

分享文章

[ACM MM 2025] MIRA：多模态智能检索与增强驱动的医学诊断辅助框架

随着多模态大语言模型MLLMs在 AI 辅助医学诊断中的应用不断深入其生成结果的事实准确性问题仍然是制约实际落地的关键瓶颈。一个突出挑战在于模型可能生成与既有医学知识不一致的回答从而影响诊断结果的可靠性。为提升输出内容的事实一致性检索增强生成RAG方法通过引入外部知识源辅助生成在一定程度上改善了这一问题但同时也带来了新的局限。首先RAG 面临检索失衡问题。当检索阶段未能覆盖足够的关键信息时模型容易遗漏重要医学事实而当检索范围过大时又可能引入大量无关甚至干扰性内容进而削弱生成结果的准确性。其次模型还可能对检索结果产生过度依赖。即便其初始判断本身是正确的若后续生成过程过分依赖外部检索信息仍有可能被噪声证据误导最终输出错误结论。此外现有研究大多集中于放射学等相对单一的任务场景缺乏向病理学、皮肤科等其他医学领域迁移的普适能力。在方法设计上不少工作仍将检索与推理视为彼此独立的过程缺乏动态的信息交互与实时证据整合机制因而难以充分处理医学影像与文本描述并存的多模态输入。与此同时现有系统通常将视觉信息与文本信息笼统视作统一模态进行处理忽略了二者在医学任务中不同的信息表达方式与推理需求。另一方面许多方法仍依赖静态数据库作为知识来源难以及时吸收和更新最新医学研究进展这也进一步限制了系统的临床适用性。因此为了在多模态医学推理中进一步提升事实准确性亟需构建一种更加系统和全面的框架。该框架应能够面向不同模态的信息特点进行有针对性的建模实现多源医学证据的动态融合与实时更新从而为医学诊断生成提供更加精确、可靠且符合最新研究进展的支持。图 1 总结了当前自动医疗问答系统面临的四类关键局限揭示了现有方法在真实医学应用场景中的主要不足。首先是错误信息与幻觉问题。系统在处理医学影像和文本时可能生成与真实情况不符的解读例如错误判断 MRI 图像特征甚至虚构肿瘤性质或治疗建议。这类事实性偏差不仅会影响诊断结论的准确性还可能进一步误导临床决策增加潜在医疗风险。其次是临床推理能力不足。现有系统在分析 CT 等医学影像时往往只能给出较为表层或笼统的描述难以提炼真正具有临床价值的信息也缺乏将影像表现与具体诊疗决策相联系的深层推理能力。因此其输出结果虽然看似合理但在临床支持层面往往缺乏足够的针对性与可操作性。第三系统在开放式场景中的适应能力仍然有限。对于需要综合多源信息、跨步骤分析或解释复杂图表的问题现有方法通常难以清晰说明相关证据如何影响治疗判断。例如在涉及肿瘤反应图表的任务中系统往往无法准确解释图表变化对治疗方案调整的实际意义从而限制了其在复杂临床情境下的应用价值。最后可追溯性与可解释性不足也是当前系统面临的重要问题。现有模型通常难以明确说明不同患者组别之间影像差异形成的具体原因也难以对自身结论的证据来源与可靠性进行有效评估。这种“只给答案、不解释过程”的模式会削弱医生和患者对系统输出的信任进而影响其临床可用性。03什么是 MIRA本文提出了多模态智能检索与增强MIRA框架旨在提升多模态大语言模型MLLMs在医学推理任务中的事实准确性。该框架主要由两个核心组件构成分别针对医学推理过程中存在的事实偏差问题与上下文整合难题进行优化。其中重新思考与重新排列模块通过动态调节检索上下文的数量对潜在事实风险进行管理从而优化外部信息的引入过程。该设计能够在检索不足与检索过度之间取得更合理的平衡既减少关键信息缺失带来的事实遗漏也避免无关内容过多引入后对模型判断造成干扰。另一方面医学 RAG 框架融合了图像嵌入表示与医学知识库并结合查询重写模块实现了模型内部知识与外部医学参考信息的高效协同。借助这一机制模型在处理医学影像与文本联合输入时能够更准确地理解复杂问题并生成与医学事实更加一致的回答。在公开医学视觉问答VQA与医学报告生成基准上的实验结果表明MIRA 框架显著提升了模型的事实准确性和整体任务性能突破了现有方法的局限并取得了新的最优结果。该研究为构建更加可靠、可扩展且具备临床应用潜力的多模态医学推理系统提供了新的技术路径。04研究方法MIRAMultimodal Intelligent Retrieval and Augmentation框架旨在通过结构化的检索、验证与推理机制显著提升多模态大语言模型MLLM在临床决策场景中的可靠性。其整体设计围绕医学推理中的三个核心挑战展开即事实准确性不足、知识更新滞后以及多模态信息整合不充分并据此构建了三个相互协同的关键模块。首先迭代推理模块RTRA通过反复执行“反思—重排”循环动态调整检索上下文的规模从而在检索不足与检索过度之间实现更合理的平衡。一方面该模块能够减少因检索内容不足而造成的关键信息缺失另一方面也可抑制无关信息过多引入后对模型判断产生的干扰。在此基础上RTRA 进一步结合初始答案生成、基于思维链的自我审查以及最终答案优化三阶段流程对模型输出进行逐步校正从而提升结果的事实一致性与推理可解释性增强整体系统的稳定性和可信度。其次多模态 RAG 模块MRAG主要用于解决知识获取的时效性与多模态证据融合问题。该模块采用双路径检索机制同时利用离线构建的医学数据库与在线实时网络资源以兼顾医学知识的专业性与更新性。在特征建模层面MRAG 分别通过专用文本编码器和视觉编码器提取文本与图像表示并借助动态注意力机制对两类模态信息进行融合从而能够根据具体任务需要自适应调整不同模态的重要性。与此同时查询重写模块进一步优化输入问题的语义表达与上下文清晰度提升检索结果与问题本身之间的匹配程度从源头上改善后续推理质量。最后MIRA 还设计了针对医学场景的优化策略以进一步提升模型输出的结构化程度和推理质量。该策略采用两阶段训练方案首先利用带标注的医学数据进行有监督预训练重点微调连接视觉编码器与语言模型的投影层以建立稳定的跨模态映射关系随后结合 RTRA 格式数据开展强化微调在解冻更大范围模型参数的基础上通过交叉熵损失与奖励机制共同优化模型行为。该过程融合了强化学习与思维链推理思想使模型在训练中同时兼顾事实准确性与逻辑连贯性从而生成更加规范、清晰且具有临床参考价值的回答。总体来看MIRA 通过迭代推理、多模态检索增强和面向医学任务的优化训练三部分协同工作实现了文本与医学图像等多源信息的有效整合并能够在动态环境中持续吸收最新医学知识。由此该框架为多模态医学推理提供了更加可靠、精准且具备临床应用潜力的技术支持。图 2 展示了 MIRA 框架的整体工作流程说明该框架如何通过联合图像与文本检索来增强生成过程从而提升临床推理的准确性与相关性。整体而言MIRA 从用户输入出发依次完成多模态信息编码、查询优化、外部知识检索、结果筛选与推理增强最终生成更具事实依据的医学回答。首先系统接收用户查询并结合历史交互记录构建当前任务的上下文语境为后续检索与生成提供必要的背景信息。这一步有助于模型更准确地理解问题意图避免脱离上下文进行孤立推理。其次对于输入的医学图像或图像序列系统通过视觉编码器提取关键视觉特征并将其映射为可供后续检索与生成使用的嵌入表示。通过这一过程影像中的结构性信息和潜在病理线索能够被有效保留并参与后续多模态联合推理。与此同时文本输入包括用户提出的问题也会进入查询重写模块进行优化。该模块通过调整语义表达、补足上下文信息并提升问题表述的清晰度使查询内容能够更准确地与相关医学知识对齐从而提升后续检索结果的相关性与有效性。在完成图像与文本输入的预处理后系统将二者共同送入多模态 RAG 模块。该模块从离线医学数据库和在线搜索资源中检索相关文本与图像证据以确保模型所依赖的知识既具有专业性也具备一定的时效性。通过这种离线知识与在线资源相结合的方式MIRA 能够在保持医学严谨性的同时更及时地吸收最新的医学信息。在获得检索结果后RtRa 框架进一步对这些外部信息进行筛选、排序与重组并据此生成初步答案。在此基础上系统还会生成简短的思维链对已有回答进行反思和修正从而逐步优化推理路径减少事实性偏差提高答案的一致性与可解释性。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】