RAG 正在换轨：从“多查几次“到“让系统学会记忆和判断“

张开发

• 2026/4/20 15:24:13 • 15 分钟阅读

分享文章

这两年看 RAG有种很明显的感觉这个方向还在热但讨论的重心已经变了。前一阶段大家更关心的是怎么把检索接进大模型向量库怎么选chunk 怎么切embedding 用哪家rerank 要不要上。那时候的共识很简单——模型不知道的就去外面查。真把系统做上线之后问题很快就变了。你会发现很多时候不是没查到而是查到了也没用上。不是回答错了而是回答不对味。也不是知识不能更新而是系统上线之后几乎不会变聪明。所以最近一年RAG 领域真正有意思的变化不是又多了几个检索技巧而是越来越多工作开始碰更深一层的问题模型为什么会忽略证据系统为什么总沿着错误路径越走越远检索、记忆、推理到底该不该继续拆开把 2025 到 2026 年初这一批论文和项目放在一起看会发现一条挺清晰的线RAG 正在从外挂检索走向动态决策再往长期记忆和端到端记忆模型演化。这篇文章想聊的不是最近有哪些论文而是RAG 到底正在往哪里去。一、幻觉问题不只是没检索到而是没信检索以前谈 RAG 幻觉主流思路基本都在系统层打补丁。多检索一次多搜一个源加一个重排再做一次校验让模型自己反思一遍。这些都不是没用。问题是它们大多默认了一件事只要把正确文档拿给模型模型就会老老实实用。但这件事其实未必成立。ICLR 2025 的一篇 Spotlight 工作 ReDeEP第一次把这个问题讲得比较透。它的结论很有意思RAG 模型内部其实存在两类机制的竞争。一类更偏向于从外部文档里提取信息可以理解为照着证据说。另一类更偏向调用模型参数里已经记住的知识可以理解为按自己的经验说。当后者太强时前者就会被压制。于是你看到的现象就是文档明明在上下文里模型却像没看见一样继续按自己原来的知识分布往下生成。这件事的重要性不只是又找到了一种解释而是它让 RAG 幻觉第一次更像一个可解释、可干预的问题而不是一个只能靠经验修修补补的黑箱。相比之下工程界更常用的还是 CRAG 这类路线。它的逻辑很朴素先判断检索结果够不够靠谱不靠谱就补更多来源比如 Web 搜索把噪声过滤掉再交给模型生成。它不解决模型内部为什么不信文档但它胜在现实不需要改底层模型能插进现有系统里对大多数业务场景来说已经足够有价值。如果再往前看像 RAGLens 这样的方向也开始出现了。它试图让模型是在哪一层、哪个 token 上偏离证据的过程变得可观测。这个方向现在还很早但如果未来真走通RAG 处理幻觉的方式可能会变成一种更实时的干预而不只是输出后的补救。我现在越来越倾向于一个判断RAG 幻觉的真正难点不在检索策略本身而在模型有没有把证据当回事。这也是为什么单纯继续卷检索参数边际收益开始越来越小。二、对齐比幻觉更常见也更难处理如果说幻觉至少还算错那对齐问题更麻烦。它常见的形态不是明显错误而是回答没有问题但就是不对味。比如用户问的是 A 和 B 的关系是什么这家公司为什么这么做如果要落地最应该先改哪一层。系统回的却是 A 的定义、B 的定义、一堆相关背景资料的拼盘。这些内容可能都是真的也都来自正确文档但就是没有正面回答问题。这种问题在企业知识库、研究助手、分析型问答里尤其常见。它比幻觉更难因为你很难用对/错去简单评估它。2025 年的 AlignRAG 给出了一种挺像样的思路不要把所有压力都压在生成模型身上而是单独训练一个 Critic专门看这段推理有没有忠实于证据这次回答到底有没有真正回应问题。这个思路我个人是认同的。现实里一个系统既要查、又要写、还要自己当审稿人往往不如把挑毛病交给一个专门角色。这其实也是后来很多 Agentic RAG 系统在做的事生成不再是一锤子买卖而是被验证、被回退、被纠偏。另一条更重要的线是 GraphRAG。它的意义不在于它比向量检索高级而在于它明确指出了一件事有些问题的答案不藏在某一个 chunk 里而藏在关系结构里。比如哪几个概念在整批文档里反复共同出现A 和 C 之间通过什么路径关联某个组织在不同文档里扮演了怎样的角色。这类问题向量检索经常会失灵。它擅长找像不擅长找关系和全局。GraphRAG 的核心价值是把文档先组织成图——实体、关系、社区、层级摘要——然后再去做检索和生成。它不是所有场景都值得上。图构建和维护的成本不低很多业务压根没必要。但如果你做的是研究分析、企业知识网络、竞品关系梳理、多跳问答这种结构化方法的价值确实比标准 RAG 高出不止一个量级。所以这些工作的共同方向其实不是再加一个模块而是检索这件事不能再只靠语义相近来理解问题了。三、Naive RAG 已经走到头了接下来是 Agentic RAG最近流传很广的一条内容把行业趋势说得很清楚Naive RAG vs. Agentic RAG。它的核心判断我觉得基本是对的。所谓 Naive RAG本质上就是检索一次、生成一次、结束。这种流程有几个天然缺陷第一次查错了就没有补救机会简单问题和复杂问题走同一条流程没有验证机制系统默认检索到的就是对的。真正有意思的变化不是多检索几轮而是 Agentic RAG 开始让系统在每一步做判断。一个更成熟的 Agentic RAG 往往会做这些事先改写问题再决定怎么搜先判断要不要检索而不是默认检索决定去哪个源搜而不是凡事都进向量库回答之后做 groundedness 和 completeness 检查如果不通过就回退重试而不是硬着头皮交答案。这件事表面上是多了几个 agent本质上其实是 RAG 的范式在变从静态的 retrieve-then-generate转向动态的 decision-and-correction。这也是为什么最近一堆概念会开始收敛到一起Corrective RAG、Adaptive RAG、Self-RAG、Query Rewriting、Routing、Validation Agent、Hybrid Search。它们看起来名字不一样实际上都在指向同一个趋势一个好的 RAG 系统不应该只是会查资料而应该会判断、会回退、会重试、会承认不知道。这一点其实很关键。因为很多人嘴上在讲Agentic RAG做出来的东西还是多加两层 prompt 的 Naive RAG。真正的差别不在名词而在系统是否真的拥有决策回路。四、进化RAG 最难的问题其实发生在上线之后如果说幻觉和对齐解决的是这一轮答得好不好那进化解决的就是另一个更难的问题系统上线之后怎么办知识会变用户会变问题分布也会变。可很多 RAG 系统一旦部署完能力几乎就冻结了。你可以更新文档但系统不会因为使用得更多就自然变得更聪明。这一块最近出现了两条很不一样、但都值得看重的路线。一条是工程化记忆路线比如 Mem0、Zep。它们更像是把长期记忆单独从对话系统里抽出来做成基础设施。解决的问题很现实用户偏好怎么沉淀哪些历史事实需要保留会话结束之后什么该记什么不该记记忆怎么更新怎么检索怎么遗忘。这类系统的价值不在于学术 benchmark而在于它们终于把系统不该每次从零开始这件事落到了工程上。如果你的目标是做长期陪伴型助手、个性化 Copilot、有连续性的研究助手、企业场景里的知识协作系统那这类东西的现实意义往往比很多更聪明的单轮问答论文还大。另一条是强化学习开始真正进入检索系统。像 Search-R1、Graph-R1、TreePS-RAG 这些工作做的事情其实很直白不再把检索策略写死而是让系统在反馈里学会怎么检索。什么时候搜搜什么要不要继续搜证据够不够要不要换源哪些中间步骤其实是错的这些原来都是规则现在开始被当成可学习的决策。我个人对这条线的判断是它短期未必是最好落地的但它可能是未来一两年最值得盯的方向之一。因为它击中的是一个非常真实的问题一个系统如果不会在使用中学会更好地查那它就永远停留在部署那一刻的水平。五、MSA也许不只是 RAG 优化而是在试图改写问题本身2026 年 3 月EverMind-AI 团队发布了 MSAMemory Sparse Attention全称是记忆稀疏注意力。这个名字听起来有点绕但它想做的事情其实很直接不要把检索和生成分成两个系统了把长期记忆访问直接做进模型本身。MSA 是什么先说它想解决什么问题。传统 RAG 的架构是模型外挂检索系统。模型需要查资料时就去调用外部的向量库或搜索引擎把结果拿回来拼进上下文。这个架构的好处是灵活——知识可以独立更新模型不用重训。坏处是检索和生成是两张皮检索器不知道生成器需要什么生成器也没办法告诉检索器刚才查的不对帮我换个方式再查。MSA 的思路是既然检索本质上是一种记忆访问那为什么不把它变成注意力机制的一部分具体来说MSA 做了三件事稀疏记忆注意力传统注意力机制是对所有 token 做全量计算计算量随上下文长度平方级增长。MSA 不这么做。它先把文档压缩成记忆块类似于把一本书压缩成章节摘要然后在推理时只选择最相关的几个记忆块参与注意力计算。这有点像人类回忆的方式你不会把读过的每一页都从头过一遍而是先想起大概是哪几个章节相关再去翻那几章。文档级 RoPE位置编码一直是长上下文模型的难点。MSA 引入了文档级的位置编码方式每个文档内部的位置从 0 开始重新计数而不是在整个语料里连续编号。这样可以避免超长上下文下的位置漂移问题让模型在 64k token 上训练也能外推到 1 亿 token。记忆交织Memory Interleave这是 MSA 最有意思的设计。它不是一次性检索完就结束而是支持多轮检索→扩展→生成的循环。模型可以先召回第一批相关记忆生成一段推理发现不够就再召回第二批继续推理。这和 Agentic RAG 的思想很像但 MSA 把这个循环做进了模型架构本身。MSA 的数据怎么样论文报告的结果很亮眼在 16K 到 1 亿 token 的范围内性能下降不到 9%4B 参数的模型在长上下文基准上超过了体量大 60 倍的系统在多跳问答如 2WikiMultiHopQA、HotpotQA上表现尤其突出如果这些结果能被独立复现MSA 可能代表了一条从外挂检索走向原生记忆模型的新路线。但现在的问题也很明显第一MSA 目前还是论文阶段代码和模型都还没有真正开放。GitHub 仓库现在更像是一个发布页最近的提交主要是文档更新。第二亿级 token 上下文在大多数实际场景里并不是瓶颈。企业真正头疼的问题通常是检索准不准、成本高不高、系统会不会越来越复杂。第三把记忆和推理绑在一起会不会只是把复杂性从系统层转移到了模型训练层RAG 的一个重要价值是知识和模型解耦MSA 如果把两者绑在一起这个灵活性就会打折扣。所以我的判断是MSA 值得高度关注但现在还不值得直接下注。它更像一个信号告诉大家RAG 这套外挂式范式未必是终局。但它还不是一个今天就能进生产的答案。六、如果把这些方向放到一张图里RAG 正在从查资料变成构建认知系统过去我们说 RAG默认是在说一件事让模型多拿一点外部信息。但现在这件事其实已经变了。新的 RAG 讨论已经不再只是怎么查而是同时在问四个问题模型为什么不信证据系统为什么总答不到点上系统怎么在使用中逐渐变聪明检索和生成还有必要分开吗如果把它们串起来看会发现变化的方向其实很明确RAG 正在从检索增强生成走向记忆、判断、反思、演化的统一系统。这也是为什么我现在越来越少把 RAG 只当成一个检索技术栈来看。它已经开始变成一种更广义的系统设计问题。七、对今天做产品的人来说哪些值得现在就做哪些适合继续看如果你现在做的是业务而不是纯研究我的判断很简单。现在最值得直接用的GraphRAG、Agentic/Corrective RAG、Mem0/Zep。因为它们解决的是今天就会遇到的真问题复杂关系型问题答不出来单轮流程太死系统没有长期记忆。现在最值得持续跟踪的RL 驱动检索以及 MSA 这类记忆模型。前者关乎系统能不能越来越会查后者关乎未来底层架构会不会被改写。现在最不值得继续沉迷的还是那种老式优化思路——endless chunk tuningendless embedding benchmarkendless retriever swap。这些事不是没价值但它们越来越像局部优化而不是方向性的变化。八、结语这两年看下来我越来越觉得RAG 这个词本身已经有点不够用了。因为它最初描述的是一件很简单的事在生成前多检索一点资料。但今天真正发生的变化是系统开始学会区分问题难度开始学会判断要不要检索开始学会验证答案开始拥有长期记忆开始尝试在反馈里优化自己的检索策略。有些工作甚至开始怀疑检索和生成是否还有必要继续解耦。如果说第一代 RAG 解决的是让模型看到更多信息那下一代 RAG 更像是在解决一个系统如何回忆、如何判断、如何成长。这件事显然比接个向量库复杂得多。但也正因为如此RAG 这个方向现在才真正开始变得有意思。参考链接幻觉与纠偏ReDeEP: Detecting and Mitigating Hallucinations in RAG[1] — ICLR 2025 Spotlight揭示 RAG 模型内部证据竞争机制CRAG: Corrective Retrieval Augmented Generation[2] — 纠偏式 RAG工程落地友好RAGLens[3] — 幻觉可视化与实时干预对齐与结构化检索AlignRAG[4] — 通过测试时间批评和优化提升RAG推理GraphRAG (Microsoft)[5] — 图结构知识组织与检索From Local to Global: A Graph RAG Approach[6] — GraphRAG 核心论文Agentic RAGAdaptive-RAG[7] — 根据问题复杂度自适应检索Self-RAG[8] — 模型自反思检索与生成Corrective RAG (CRAG)[2] — 检索纠偏框架进化与持续学习Mem0[9] — 工程化长期记忆层Zep: Temporal Knowledge Graph for Agent Memory[10] — 时序化记忆图架构Search-R1[11] — RL 驱动的检索策略学习Graph-R1[12] — 图结构知识上的强化学习TreePS-RAG[13] — 树形过程监督MSAMSA: Memory Sparse Attention[14] — EverMind-AI端到端可训练的记忆模型MSA GitHub[15] — 论文发布页代码 Coming Soon如果你也在看这个方向欢迎交流。我最近会继续追两条线RL 驱动的检索与过程监督记忆模型会不会真的改写 RAG 的边界。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

更多文章

前端开发 2026/4/19 1:10:53

从理论到实践：在嘉立创PCB设计中实现精准阻抗匹配

1. 什么是阻抗匹配当你第一次听到"阻抗匹配"这个词时，可能会觉得这是个高深莫测的专业术语。其实它的概念很简单，就像我们日常生活中常见的现象一样。想象一下你在用吸管喝饮料，如果吸管突然变粗或者变细，你会明显感觉…

Intv_AI_MK11跨平台开发体验：在Windows WSL2中无缝使用GPU进行模型调试 1. 为什么选择WSL2进行AI开发对于习惯Windows系统的开发者来说，直接使用Linux环境进行AI模型开发往往面临诸多不便。WSL2（Windows Subsystem for Linux 2&#xff09…

张开发

前端开发 2026/4/20 3:11:35

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固在数据库领域，MySQL 8.0以其卓越的性能和丰富的功能成为众多开发者和企业的首选。然而，在Rocky Linux 9这样的新兴发行版上部署MySQL时，往往会遇到一些特有的挑战。本文将带…

张开发

RAG 正在换轨：从“多查几次“到“让系统学会记忆和判断“

最新文章

别再手动重启了！IIS 7.5网站总挂？一招设置让应用程序池永不停止（附模块安装避坑）

hph构造详解内部结构组成

如何设计一个高可用的消息队列系统

WinForm Chart画实时曲线卡顿？试试这3个优化技巧和1个完整项目

别再乱配了！微信小程序tabBar的5个高级配置技巧与常见误区

如何在Windows上直接运行安卓应用：APK Installer完整指南

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

从理论到实践：在嘉立创PCB设计中实现精准阻抗匹配

优化ECharts图例样式：实现legend与文本完美对齐的技巧

3DGS渲染高光效果总是一团糊？试试浙大团队这个Deferred Reflection新方案（附保姆级复现思路）

技术解密：Play Integrity Fix如何让Android设备重获“身份认证“

别再手动画标签了！用Java+ZPL批量生成斑马打印机标签的完整流程（附源码）

Vue2 + Element UI 集成百度地图时，我踩过的那些坑和性能优化心得

Visual Studio调试C++时，断点变灰提示‘未加载符号’？别慌，这5个排查步骤帮你搞定

别再乱调Q和R了！EKF融合IMU/轮速计时，噪声协方差矩阵的实战设置心得

tidal-dl-ng：构建个人HiRes音乐库的全栈解决方案

基于Dify的智能问答系统：从意图识别到规范化回复的全流程设计

Intv_AI_MK11跨平台开发体验：在Windows WSL2中无缝使用GPU进行模型调试

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

RAG 正在换轨：从“多查几次“到“让系统学会记忆和判断“

最新文章

别再手动重启了！IIS 7.5网站总挂？一招设置让应用程序池永不停止（附模块安装避坑）

hph构造详解 内部结构组成

如何设计一个高可用的消息队列系统

WinForm Chart画实时曲线卡顿？试试这3个优化技巧和1个完整项目

别再乱配了！微信小程序tabBar的5个高级配置技巧与常见误区

如何在Windows上直接运行安卓应用：APK Installer完整指南

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

hph构造详解内部结构组成

DotNetPy：现代.NET 与 Python 互操作实战指南