TL;DR ( 忙しい人のための 3 行まとめ ) 量子化 ( Quantization ) は、重みの精度（ビット数）を下げることで、メモリ消費を激減させ推論を高速化する技術。 GPTQ / AWQ / GGUF など、用途や実行環境（ GPU / CPU ）...

ローカル実行の常識！ LLM 量子化 ( Quantization ) の仕組みと手法を完全理解する - Qiita