当几何打败数学：TurboQuant与一次来自中学课本的逆袭

张开发

• 2026/4/12 11:56:32 • 15 分钟阅读

分享文章

LLM 推理的内存瓶颈困扰了行业整整十年。KV cache——模型处理长文本时用来存储「已经看过内容」的高速缓存——会随着上下文长度线性增长。一篇 10 万字的文章KV cache 可以吃掉几十 GB 显存。所有人都知道这是瓶颈所有人都在想办法压缩它但十年下来主流方案始终绕不开一个根本矛盾压缩率越高精度损失越严重。Google Research 上周发表的 TurboQuant 论文在解决这个问题之前先把问题的根子翻了出来。答案让他们自己都有点意外问题出在坐标系的选取上。教科书没教的那一步传统的向量量化用的是最直觉的坐标系笛卡尔坐标。X 轴、Y 轴、Z 轴每个维度记录一个数值每个数值都需要单独存储量化常数。这在几何学里叫做「标准正交基」——三个轴两两垂直单位长度是 1。直观好理解、符合直觉。但这个「直觉」是有代价的。每一个维度都需要自己的量化常数quantization constant来保证精度而这些常数本身也要占内存。结果就是本来想省空间省下来的空间被量化常数吃掉了一大半。这是整个问题的盲区大家都在研究怎么压缩但没有人问——为什么压缩必须付出精度代价TurboQuant 的论文把这个问题重新审视了一遍然后发现答案不在压缩算法里而在坐标系的选择里。极坐标换一个角度看问题PolarQuant 是 TurboQuant 的第一级压缩。它的核心洞察是与其用「沿每个轴走了多远」来描述一个向量不如用「走了多远」加上「朝向哪个方向」来描述。这就是极坐标的本质。「往东走 3 米往北走 4 米」——这是笛卡尔坐标。「往东北方向走 5 米角度是 53°」——这是极坐标。两种描述数学上是等价的但它们的量化特性完全不同。在笛卡尔坐标系里一个向量的各个分量之间没有固定关系数值分布是「方」的——每个维度有自己独立的边界需要独立的量化常数来管理精度。在极坐标系里情况变了。向量的方向角度是可以被约束的——当我们对向量做随机旋转后角度的分布会高度集中形成一个固定的、可预测的模式。这意味着角度不再需要被单独存储它的值可以通过统计规律推断出来。半径向量的「强度」则包含了数据的主要信息用标准量化器单独处理。这个「几何简化」把问题的结构彻底改变了原来需要为每个维度单独存储的量化常数现在只需要一组全局参数就够了。内存开销从 O(d) 降到了 O(1)其中 d 是向量维度。QJL只花 1 bit 的纠错PolarQuant 处理了主要信息但压缩本身会引入误差。如果只做到这里精度损失虽然比传统方法小但仍然不可忽视。TurboQuant 在这之后加了第二级用 QJLQuantized Johnson-Lindenstrauss对残差进行纠错。这级的设计非常精巧它只使用 1 bit 来编码误差而且不需要存储任何额外参数。QJL 利用了 Johnson-Lindenstrauss 引理——一个关于「高维投影后距离保持」的数学定理——来把这 1 bit 的信息效率最大化。PolarQuant 把「主要能量」压缩走了QJL 把「剩下的那点误差」用最少的 bit 精确消除。两级分工各司其职没有浪费。为什么这不是一个局部优化看懂了这个设计之后你会意识到这不是在原有框架上打补丁而是把问题重新定义之后得出的解。传统量化的思路是给定一个坐标系优化压缩算法。TurboQuant 的思路是问一个问题——为什么非要用这个坐标系这个「换坐标系」的操作在物理学里有大量先例。傅里叶变换把时域信号转到频域很多在时域里复杂的运算在频域里变得异常简单。拉普拉斯变换、对数变换……每次坐标系更换都伴随着问题复杂度的下降。AI 里的向量量化十年没人动坐标系这个根子。TurboQuant 动了然后发现答案在中学几何里。「零损失」这三个字的分量「3-bit 压缩零精度损失无需重新训练。」这三个条件放在一起在 LLM 领域里几乎是矛盾的。INT8 量化有损失需要 QAT量化感知训练来弥补。INT4 量化损失更严重需要 LoRA 微调来恢复。压缩率每提升一个台阶精度恢复的成本就增加一分。这是过去几年行业的基本认知。TurboQuant 打破了这个定式。它的 3-bit KV cache 压缩在标准基准测试LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval上实现了与全精度模型相当的性能——没有微调没有蒸馏没有任何形式的二次训练。3-bit 意味着每个向量元素只需要 3 个 bit 来存储。相比 FP32 的 32 bit压缩率是10.7x相比 INT8 的 8 bit压缩率也有2.7x。实际部署中由于 KV cache 通常占推理显存 60-80%10x 的压缩率意味着同样一块 H100可以支撑 10 倍的并发请求或者把上下文窗口扩展 10 倍。这笔账算下来成本下降不是百分比的问题是数量级的问题。training-free 的真正价值TurboQuant 做到了「无需 retraining 或 fine-tuning」但这个「training-free」的实际意义比字面上还要大。LLM 的量化适配传统上需要在目标模型上做额外训练。这意味着每一个新版本模型、每一个新微调变体、每一个新尺寸的模型都需要重新跑一遍量化流程。TurboQuant 的 training-free 特性让量化变成了一层与模型无关的后处理。无论模型怎么变只要 KV cache 的数据结构不变TurboQuant 的压缩流程就直接可用。这对部署架构的影响是深远的量化不再是一个「需要为每个模型单独做」的工程而是一个「一次性集成随时可用」的模块。为什么它能通用于所有模型TurboQuant 在七个模型上全部做了测试Gemma、Mistral以及其他主流开源模型。每一家都实现了接近零损失的压缩效果。这不是某家公司的算法优势而是 PolarQuant 和 QJL 的数学原理决定的——它们不依赖模型的架构细节只依赖向量在高维空间里的几何性质。任何遵循 Transformer 架构的模型这个性质都成立。这是基础研究突破的标志一个数学上的洞察同时解决了所有模型上的同一个问题。参考文献TurboQuant: Redefining AI efficiency with extreme compression (Google Research Blog)TurboQuant arXivPolarQuant arXivQuantized Johnson-Lindenstrauss (AAAI 2026)Google’s TurboQuant compresses LLM KV caches to 3 bits (Tom’s Hardware)

当几何打败数学：TurboQuant与一次来自中学课本的逆袭

最新文章

Chord - Ink Shadow 助力Java开发者：SpringBoot集成与智能API构建

从模型到部署：四大推理引擎（ONNX Runtime、OpenVINO、TensorRT、ncnn）的选型实战指南

明日方舟桌宠终极指南：如何让泰拉世界干员成为你的桌面伙伴？

HunyuanVideo-Foley在短视频制作中的应用：自动生成音效，省时省力

基于Python的Android设备实时控制：py-scrcpy-client架构解析与实战应用

QMCDecode快速入门指南：3步解锁QQ音乐加密文件

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

Go微服务链路追踪：OpenTelemetry实战落地教程

python github3.py

UID 转换 11 位线索

WinBtrfs：打破系统边界的Btrfs文件系统驱动方案

HALCON开发避坑指南：解决SetWindowParam报错#5190的3种方法（附hcanvas.dll文件）

用逻辑分析仪给STM32的SPI通信‘体检’：以CS553X ADC为例，手把手教你波形分析与代码调试

Windows 11 24H2 LTSC 应用商店恢复解决方案：从问题诊断到企业级部署实战指南

解锁VS Code中Jupyter Notebooks的进阶协作与调试

保姆级教程：手把手教你用AST还原Twitter混淆代码（附完整脚本）

ClickHouse系列第1篇：为什么 ClickHouse 具备高性能分析能力

开发者效率提升：OpenClaw监听日志+Qwen3.5-9B异常诊断

从零基础到落地：AI Agent 全栈学习路线图，速看！

当几何打败数学：TurboQuant与一次来自中学课本的逆袭

最新文章

Chord - Ink Shadow 助力Java开发者：SpringBoot集成与智能API构建

从模型到部署：四大推理引擎（ONNX Runtime、OpenVINO、TensorRT、ncnn）的选型实战指南

明日方舟桌宠终极指南：如何让泰拉世界干员成为你的桌面伙伴？

HunyuanVideo-Foley在短视频制作中的应用：自动生成音效，省时省力

基于Python的Android设备实时控制：py-scrcpy-client架构解析与实战应用

QMCDecode快速入门指南：3步解锁QQ音乐加密文件

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南