论文洞察:面向RAG场景的KV Cache复用技术

张开发
2026/4/14 22:27:49 15 分钟阅读

分享文章

论文洞察:面向RAG场景的KV Cache复用技术
研究背景本文基于芝加哥大学、香港中文大学、微软在EuroSys25上发表的研究成果《CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion》进行深入分析。CacheBlend是面向RAG场景的LLM推理加速方案解决了多文本块输入下KV Cache复用率低、生成质量差问题通过选择性重计算少量关键token的KV值实现无质量损失的推理加速。核心问题识别在多文本块输入场景下如何快速融合不同文本块的KV Cache来平衡LLM prefill推理阶段的生成质量与推理速度这两个关键指标已成为当下的首要需求。现有KV Cache复用方案存在以下挑战前缀KV Cache复用率低仅能复用输入前缀的KV Cache多文本块场景下复用率低速度接近全量KV重新计算全量KV Cache复用生成质量低忽略了文本块间的交叉注意力跨块token的关联信息导致LLM推理的生成质量大幅下降。核心设计与创新CacheBlend通过对关键性KV进行重新计算实现了不同文本块KV Cache的高效融合核心思路是复用大部分预计算KV Cache仅重新计算少量关键token的KV值以恢复交叉注意力同时通过流水线优化隐藏额外计算延迟。关键性KV重新计算在Transformer每一层中选择性重新计算少量高KV偏差High-KV-Deviation, HKVD标记的KV值约 10%-20%恢复块间交叉注意力保证生成质量渐进式筛选策略利用相邻层KV偏差的强相关性从第一层筛选出候选token后续层基于前一层的候选集逐步筛选在保证准确性的同时降低计算开销流水线优化将某一层的关键性KV重新计算与下一层KV Cache的加载过程并行隐藏重新计算的额外延迟支持将KV Cache存储在低速大容量设备如SSD中。图不同KV Cache复用算法的原理图实验验证基于Mistral-7B、Yi-34B和Llama-70B模型对CacheBlend、前缀KV Cache、全量KV重新计算、全量KV Cache复用等方案进行了测试时延与全量KV重新计算、前缀KV Cache相比CacheBlend在不损失生成质量且不增加存储成本的前提下将TTFT缩短2.2-3.3倍吞吐量与全量KV重新计算相比推理吞吐量提升2.8-5倍准确性与全量KV Cache复用相比CacheBlend在问答任务上的F1分数提升0.1-0.2在摘要任务上的Rouge-L分数提升0.03-0.25。图不同算法的吞吐量大小对比研究价值CacheBlend解决了多文本块输入下KV Cache复用难、推理慢、质量差的问题实现了非前缀文本块的KV Cache有效复用从而提高了面向RAG场景的LLM推理效率。

更多文章