谷歌推出壓縮算法TurboQuant 宣稱實現約6倍内存節省_快訊

谷歌推出壓縮算法TurboQuant 宣稱實現約6倍内存節省

來源：梓悠時間：2026-03-26 10:41:38

字号

谷歌近日推出了一種可能降低人工智能系統内存需求的壓縮算法TurboQuant。根據谷歌介紹，TurboQuant壓縮技術旨在降低大語言模型和向量搜索引擎的内存占用。該算法主要針對AI系統中用于存儲高頻訪問信息的鍵值緩存（key-value cache）瓶頸問題。随着上下文窗口變大，這些緩存正成為主要的内存瓶頸。TurboQuant可在無需重新訓練或微調模型的情況下，将鍵值緩存壓縮至3bit精度，同時基本保持模型準确率不受影響。對包括Gemma、Mistral等開源模型的測試顯示，該技術可實現約6倍的鍵值緩存内存壓縮效果。此外，在英偉達H100加速器上的測試結果顯示，與未量化的鍵向量相比，該算法最高可實現約8倍性能提升。研究人員也表示，這項技術的應用不局限于AI模型，還包括支撐大規模搜索引擎的向量檢索能力。谷歌計劃于4月的國際學習表征會議（ICLR 2026）上展示TurboQuant技術。

簡 繁

谷歌推出壓縮算法TurboQuant 宣稱實現約6倍内存節省

簡

繁