今さら知ったのですが、2週間ほど前にllama.cppでモデルをGPUに部分オフロードした場合のプロンプト処理速度が大幅に向上されていました。 github.com 従来のllama.cppではGPUフルオフロードから部分オフロードに移行すると急激にプロンプト処理（PP）が遅くなるため、CPU+GPUのハイブリッド推論の魅力を大きく損ねていま…

ローカルLLM自由帳

llama.cpp: CPU+GPUのプロンプト処理が高速化される（#6083）