llama.cpp: CPU+GPUのプロンプト処理が高速化される(#6083)

今さら知ったのですが、2週間ほど前にllama.cppでモデルをGPUに部分オフロードした場合のプロンプト処理速度が大幅に向上されていました。 github.com 従来のllama.cppではGPUフルオフロードから部分オフロードに移行すると急激にプロンプト処理(PP)が遅くなるため、CPU+GPUのハイブリッド推論の魅力を大きく損ねていま…