ローカル実行の常識! LLM 量子化 ( Quantization ) の仕組みと手法を完全理解する - Qiita

TL;DR ( 忙しい人のための 3 行まとめ ) 量子化 ( Quantization ) は、重みの精度( ビット数 )を下げることで、メモリ消費を激減させ推論を高速化する技術。 GPTQ / AWQ / GGUF など、用途や実行環境( GPU / CPU )...