llama.cppのCPUオンリーの推論について CPUでもテキスト生成自体は意外にスムーズ。なのに、最初にコンテキストを読み込むのがGPUと比べて遅いのが気になる。ちょっと調べたところ、以下のポストが非常に詳しかった。 CPUにおけるLLama.cppの高速化（超抄訳） Extensive LLama.cpp benchmark & more spe…

【llama.cpp】CPUとRAM、どっちが重要？｜Baku