llama.cppにMoEに適したCPU/GPUの振り分けのオプションが入って、LM Studioでもそのオプションに対応したことによって、MoEモデルであるGPT-ossが少ないGPUメモリでもそれなりに動くようになりました。拡大するとわかりますが、LM Studioの右下の表示によると、メインメモリは12GBくらい使います。 14tok/sec出ています。 …

きしだのHatena

GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く