米Googleは、LLM実行時に大量のメモリを消費する問題を解消し、使用量を6分の1に抑えられるベクトル量子化における圧縮アルゴリズム「TurboQuant」を発表した。4月23日から開催される学習表現に関する国際会議「ICLR 2026」で詳細が発表される予定。

Google、LLM実行時の消費メモリを6分の1に削減する「TurboQuant」