VRAM 12GBでQwen 35Bを動かす — エキスパートをGPUに載せないほど速くなった話 - Qiita
3か月前、私は同じRTX 4070でこんな検証記事を書きました。結論は「35BのMoEモデルは、待てるなら動く」。測ったのは10.6 tok/s。動くには動くが、チャットで使うには指が止まる速度です。 先週、同じGPU・同じモデルで測り直したら34.6 tok/sが出ました...