TurboQuant - AI効率のための超高圧縮

TurboQuant は、精度劣化なしで KV キャッシュを 3 ビットに圧縮し、メモリを 6 倍削減、アテンションを最大 8 倍高速化するオンラインベクトル量子化アルゴリズムです。