きしだのHatena
id:nowokay
LLMの推論を速くする投機的デコードMTPは想定ユースケースに近いかどうかが重要?
Qwen3.6-27BのMTP対応GGUFがUnslothさんのところから出ていたので試してみたところ、出力内容によって性能変わったので、ドラフトモデルの想定ユースケースに近いことが大事かもしれない、って話 MTP(multi-token prediction)は、軽いモデルにあらかじめ3トークンくらい出力させておいて、本番モデルで確認して当たればラ…