当几何打败数学:TurboQuant与一次来自中学课本的逆袭

张开发
2026/4/12 11:56:32 15 分钟阅读

分享文章

当几何打败数学:TurboQuant与一次来自中学课本的逆袭
LLM 推理的内存瓶颈困扰了行业整整十年。KV cache——模型处理长文本时用来存储「已经看过内容」的高速缓存——会随着上下文长度线性增长。一篇 10 万字的文章KV cache 可以吃掉几十 GB 显存。所有人都知道这是瓶颈所有人都在想办法压缩它但十年下来主流方案始终绕不开一个根本矛盾压缩率越高精度损失越严重。Google Research 上周发表的 TurboQuant 论文在解决这个问题之前先把问题的根子翻了出来。答案让他们自己都有点意外问题出在坐标系的选取上。教科书没教的那一步传统的向量量化用的是最直觉的坐标系笛卡尔坐标。X 轴、Y 轴、Z 轴每个维度记录一个数值每个数值都需要单独存储量化常数。这在几何学里叫做「标准正交基」——三个轴两两垂直单位长度是 1。直观好理解、符合直觉。但这个「直觉」是有代价的。每一个维度都需要自己的量化常数quantization constant来保证精度而这些常数本身也要占内存。结果就是本来想省空间省下来的空间被量化常数吃掉了一大半。这是整个问题的盲区大家都在研究怎么压缩但没有人问——为什么压缩必须付出精度代价TurboQuant 的论文把这个问题重新审视了一遍然后发现答案不在压缩算法里而在坐标系的选择里。极坐标换一个角度看问题PolarQuant 是 TurboQuant 的第一级压缩。它的核心洞察是与其用「沿每个轴走了多远」来描述一个向量不如用「走了多远」加上「朝向哪个方向」来描述。这就是极坐标的本质。「往东走 3 米往北走 4 米」——这是笛卡尔坐标。「往东北方向走 5 米角度是 53°」——这是极坐标。两种描述数学上是等价的但它们的量化特性完全不同。在笛卡尔坐标系里一个向量的各个分量之间没有固定关系数值分布是「方」的——每个维度有自己独立的边界需要独立的量化常数来管理精度。在极坐标系里情况变了。向量的方向角度是可以被约束的——当我们对向量做随机旋转后角度的分布会高度集中形成一个固定的、可预测的模式。这意味着角度不再需要被单独存储它的值可以通过统计规律推断出来。半径向量的「强度」则包含了数据的主要信息用标准量化器单独处理。这个「几何简化」把问题的结构彻底改变了原来需要为每个维度单独存储的量化常数现在只需要一组全局参数就够了。内存开销从 O(d) 降到了 O(1)其中 d 是向量维度。QJL只花 1 bit 的纠错PolarQuant 处理了主要信息但压缩本身会引入误差。如果只做到这里精度损失虽然比传统方法小但仍然不可忽视。TurboQuant 在这之后加了第二级用 QJLQuantized Johnson-Lindenstrauss对残差进行纠错。这级的设计非常精巧它只使用 1 bit 来编码误差而且不需要存储任何额外参数。QJL 利用了 Johnson-Lindenstrauss 引理——一个关于「高维投影后距离保持」的数学定理——来把这 1 bit 的信息效率最大化。PolarQuant 把「主要能量」压缩走了QJL 把「剩下的那点误差」用最少的 bit 精确消除。两级分工各司其职没有浪费。为什么这不是一个局部优化看懂了这个设计之后你会意识到这不是在原有框架上打补丁而是把问题重新定义之后得出的解。传统量化的思路是给定一个坐标系优化压缩算法。TurboQuant 的思路是问一个问题——为什么非要用这个坐标系这个「换坐标系」的操作在物理学里有大量先例。傅里叶变换把时域信号转到频域很多在时域里复杂的运算在频域里变得异常简单。拉普拉斯变换、对数变换……每次坐标系更换都伴随着问题复杂度的下降。AI 里的向量量化十年没人动坐标系这个根子。TurboQuant 动了然后发现答案在中学几何里。「零损失」这三个字的分量「3-bit 压缩零精度损失无需重新训练。」这三个条件放在一起在 LLM 领域里几乎是矛盾的。INT8 量化有损失需要 QAT量化感知训练来弥补。INT4 量化损失更严重需要 LoRA 微调来恢复。压缩率每提升一个台阶精度恢复的成本就增加一分。这是过去几年行业的基本认知。TurboQuant 打破了这个定式。它的 3-bit KV cache 压缩在标准基准测试LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval上实现了与全精度模型相当的性能——没有微调没有蒸馏没有任何形式的二次训练。3-bit 意味着每个向量元素只需要 3 个 bit 来存储。相比 FP32 的 32 bit压缩率是10.7x相比 INT8 的 8 bit压缩率也有2.7x。实际部署中由于 KV cache 通常占推理显存 60-80%10x 的压缩率意味着同样一块 H100可以支撑 10 倍的并发请求或者把上下文窗口扩展 10 倍。这笔账算下来成本下降不是百分比的问题是数量级的问题。training-free 的真正价值TurboQuant 做到了「无需 retraining 或 fine-tuning」但这个「training-free」的实际意义比字面上还要大。LLM 的量化适配传统上需要在目标模型上做额外训练。这意味着每一个新版本模型、每一个新微调变体、每一个新尺寸的模型都需要重新跑一遍量化流程。TurboQuant 的 training-free 特性让量化变成了一层与模型无关的后处理。无论模型怎么变只要 KV cache 的数据结构不变TurboQuant 的压缩流程就直接可用。这对部署架构的影响是深远的量化不再是一个「需要为每个模型单独做」的工程而是一个「一次性集成随时可用」的模块。为什么它能通用于所有模型TurboQuant 在七个模型上全部做了测试Gemma、Mistral以及其他主流开源模型。每一家都实现了接近零损失的压缩效果。这不是某家公司的算法优势而是 PolarQuant 和 QJL 的数学原理决定的——它们不依赖模型的架构细节只依赖向量在高维空间里的几何性质。任何遵循 Transformer 架构的模型这个性质都成立。这是基础研究突破的标志一个数学上的洞察同时解决了所有模型上的同一个问题。参考文献TurboQuant: Redefining AI efficiency with extreme compression (Google Research Blog)TurboQuant arXivPolarQuant arXivQuantized Johnson-Lindenstrauss (AAAI 2026)Google’s TurboQuant compresses LLM KV caches to 3 bits (Tom’s Hardware)

更多文章