Ryzen AI Max+ 395 (メモリ128GB) で Qwen3-Coder-Next を vLLM で動かそうと、Gemini と共に一晩格闘した記録です。AIの自信満々な誤誘導 (FP8非対応) に振り回され、パンが焼き上がるのを待ちながら深夜にソースコードを改変し、最終的に見えてきた「1.2トークン/秒」の現実と、AI共生時代の教訓を綴ります。

VA Linux エンジニアブログ

【衝撃】vLLMの使い方を生成AIに聞きつづけた末路