TurboQuant 是什麼?縮小六倍,更快,品質不變

Google 發表 TurboQuant 無損壓縮演算法,將大型語言模型的 KV Cache 用量壓縮至六分之一,在特定硬體上推論速度提升達 8 倍,且精度完全不受影響,深入解析這項突破 AI 運算瓶頸的關鍵技術。

為什麼需要 TurboQuant?

在大型語言模型(LLM)處理很長很長很長很長……的內容時(必須把過去看過的每一個字(以下稱為 Token) 的狀態儲存起來,這些 Token 被儲存起來之後,被稱為「KV Cache」。

而隨著內容變多時,這個 KV Cache 會變得像「六大箱行李」一樣極度龐大,輕易吃光數百 GB 的記憶體。

AI 是怎麼寫文章或聊天的

想像 AI 在寫一篇文章,它是一個 Token 一個 Token 產生的,Token 可以是一個中文字、一個英文單字,或是一個標點符號。

AI 先寫第一個 Token,然後看第一個 Token 決定第二個 Token,再看前面兩個 Token 決定第三個 Token,再看前面三個 Token 決定第四個 Token……以此類推。

每寫一個新的 Token,它都要回頭看「前面所有寫過的 Token」,才能決定下一個要寫什麼,對吧?

不知道什麼是 Token ? 可以參考我這篇《Token 是什麼?AI 世界的最小單位》文章。

如果 AI 不記筆記,會發生什麼事

假設 AI 已經寫了 1000 個 Token,現在要寫第 1001 個 Token,如果不記筆記,AI 就要把前面 1000 個 Token 全部重新看一遍,才能決定 1001 個 Token 要寫什麼。

寫第 1002 個 Token 的時候,它又要重新看前面 1001 個 Token。

而這樣做會有一個問題:文章越長,回頭看的次數就越多,速度就會越來越慢,寫到最後,你和我都覺得 AI 會慢到無法接受。

記筆記可以解決這個問題

所以工程師設計了一個方法:讓 AI 把前面每一個 Token 的「狀態」記下來。

這個「狀態」你可以理解成「這個 Token 的完整資料」,包括它是什麼字、在句子裡扮演什麼角色、跟前後 Token 有什麼關係等等。

當 AI 要寫下一個 Token 的時候,它不需要從頭重新算,只要翻一下筆記,看前面所有 Token 的狀態,就能決定接下來要寫什麼。

這個筆記,就是所謂的「KV Cache」。

但筆記本身會變成另一個問題

現在問題解決了嗎?沒有,因為出現了新問題。

AI 寫的 Token 越多,筆記就越大。寫 1000 個 Token,筆記就有 1000 份資料,寫 10000 個 Token,筆記就有 10000 份資料。寫十萬個 Token,筆記就有十萬份資料。

而每一份資料本身還不小,全部加起來,這些筆記可以輕易吃掉幾百 GB 的記憶體。

這就是為什麼我說它像「六大箱行李」,因為這原本是為了省時間而記的筆記,結果筆記本身變成了一個巨大無比的負擔,把整個行李箱都塞爆了。

所以問題變成了

我們需要一種方法:

  • 把這堆巨大的筆記變小,小到不會塞爆記憶體
  • 但又不能讓筆記的內容變質,因為如果筆記記錯了,AI 就會寫錯
  • 而且不能讓 AI 變慢,最好是還能更快

這就是 TurboQuant 要解決的問題。

TurboQuant 就像行李箱收納術

你出國旅行,原本要帶六大箱衣服。
用了這套方法,可以把六大箱衣服,全部塞進一個登機箱裡。
到了目的地拿出來,衣服完全沒皺、一件都沒少,而且拿取速度還比以前更快。

這就是 TurboQuant 在做的事:

  • 省空間:記憶體用量直接砍到六分之一
  • 不減品質:模型回答的準確度完全不受影響
  • 變更快:因為壓縮後資料搬運量變小,回答速度反而提升

對一般使用者來說,你不需要知道它是怎麼「折衣服」的。你只需要知道:

有了它,同樣的電腦、同樣的模型,可以跑得更快、裝更多東西,而且品質不縮水。

TurboQuant 怎麼做到的?

第一步:把衣服摺到最扁

收行李的時候,你會先把衣服一件一件摺好、壓平、疊整齊。這樣才能在箱子裡塞進最多東西。

TurboQuant 也是這樣。它先把 AI 的 Token 筆記資料「轉個角度」,讓這些資料變成一種很好壓縮的形狀。然後用最有效率的方式,把資料壓到最扁、最小。

這個步驟負責把六大箱變成一個登機箱,而且幾乎看不出來被壓過。

第二步:把摺痕撫平

但你會發現,衣服摺過之後還是會有一些皺褶,如果把這些皺褶直接拿去穿,雖然衣服還在,但穿起來的感覺就是不太對。

TurboQuant 的第二個步驟,就是專門處理這些皺褶,它只用一點點空間,去修正那些微小但會影響穿著的細節。

經過這兩個步驟,最後拿出來的衣服:

  • 體積只有原本的六分之一
  • 每一件都跟原來一模一樣,沒有變形
  • 而且因為行李箱變小了,拿衣服的速度反而更快

TurboQuant 的兩個特別之處

第一:不用多準備筆記

傳統的收納方法,你壓完衣服之後,還需要額外準備一個筆記來記錄「每一件衣服是怎麼摺的」,反而佔掉更多空間。

TurboQuant 不需要這個筆記,它靠數學本身的特性,讓衣服被拿出來的時候,自然就知道該怎麼復原。

第二:不管什麼衣服都能收

有些收納術(演算法)只適合特定材質的衣服,比如只收棉質、不收羽絨。

TurboQuant 不管什麼筆記內容、不管什麼對話主題,都能直接壓縮,它不需要先看過你的行李長什麼樣,也不需要先練習怎麼收。

TurboQuant 就是 Google 發明的一套終極行李收納術:

  • 能把六大箱行李塞進一個登機箱
  • 拿出來的衣服完全沒變形
  • 收行李和拿衣服的速度都變快
  • 不需要額外的盒子
  • 什麼衣服都能收

有了它,AI 可以記更長的對話、寫更長的文章、跑得更快,而且記憶體永遠不會爆(應該)。

但 TurboQuant 不只是為了 KV Cache 而生的

它還有另一個同樣重要的發明目的:讓「向量搜尋」變得更快、更省空間。

什麼是向量搜尋?現代的搜尋引擎,像是 Google,已經不只是比對關鍵字了。當你搜尋「怎麼煮泡麵」,它不是在找這五個字一模一樣的網頁,而是在理解你的「意圖」,你想要的是食譜、步驟、還是影片?

這種理解意圖的方式,背後靠的就是「向量」,每一個網頁、每一句話,都被轉換成一個向量,當你輸入問題時,搜尋引擎會把你的問題也轉成向量,然後在龐大的向量資料庫裡,找出「最相似」的那一個。

但問題來了:這些向量資料庫,同樣會吃掉驚人的記憶體。

TurboQuant 在這裡派上用場,它能用極低的記憶體需求,快速建立並查詢龐大的向量索引,換句話說,它讓搜尋引擎在找「最相似答案」的時候,又快又準,而且幾乎不用花時間做準備。

TurboQuant 已經在用了?

TurboQuant 是 Google Research 在 2026 年 3 月底正式發表的技術,雖然剛出爐,但已經開始在 Google 內部與開源社群中引起關注與應用。

Google 內部:解決 Gemini 的記憶體危機

Google 已將 TurboQuant 應用在 Gemini 系列模型(如最新的 Gemini 3.1 Flash Live)上,這項技術能把 KV Cache 壓縮到原本的六分之一,且完全不損失模型品質。用我們行李箱的比喻來說,就是同一台機器,現在能記住的對話長度翻了一倍。

專屬硬體優化:TPU 與 H100 兩吃

這項技術不只在 Google 自家的 TPU 系列晶片上跑得好,在主流的 NVIDIA H100 GPU 上也證實能提升 8 倍的運算效率。這就像同一套收納術,不管是專屬行李箱還是通用行李箱,都能發揮驚人的效果。

開源社群:vLLM 與 llama.cpp 快速跟進

雖然 Google 才剛發表論文,但開源社群已經動起來了。

vLLM 是全球最受歡迎的開源 AI 推論框架之一,目前社群已經啟動 TurboQuant 的整合計畫,正在討論如何將這項技術納入框架中。

而在 llama.cpp 這個專門讓 AI 模型在一般電腦上運行的開源專案裡,已經有開發者釋出了實驗版本。蘋果 Mac 的使用者(M 系列晶片)現在就能用極低的記憶體,在本地端嘗試運行超大型模型。

參考文章

我開了一堂線上的 **PRD 一日密集課**,歡迎查看課程連結,4月19 日上課。[課程連結](https://pagerank.ing/prd-one-day-intensive-course/),課程有「任何」問題,直接在 LINE 搜尋 [@pagerank](https://lin.ee/ip0SiD6) 詢問。
我開了一堂線上的 **PRD 一日密集課**,歡迎查看課程連結,4月19 日上課。[課程連結](https://pagerank.ing/prd-one-day-intensive-course/),課程有「任何」問題,直接在 LINE 搜尋 [@pagerank](https://lin.ee/ip0SiD6) 詢問。
返回頂端