【ローカルLLM】Hugging FaceによるGPTQ量子化ガイド|Baku

ローカルLLMの量子化フォーマットとしては、llama.cpp(GGUF/GGML)とGPTQの2種類が広く使われている。 主要なモデルはTheBloke氏によって迅速に量子化されるので、基本的に自分で量子化の作業をする必要はない。 が、たまに量子化されていないモデルを使ってみたい時もあるので、自分でもサクっとできたら嬉しい。 …