「DeepSeek-R1 の推論を自分のローカルデバイスで再現できるように」「わずか7GBのVRAMでアハ体験を」とのことなので、UnslothのGRPO（Group Relative Policy Optimizatin）トレーニングを試してみます。今回は Phi-4 (14B)で試してみます。 You can now reproduce DeepSeek-R1's reasoning on your own local device…

WSL2でunslothのGPROトレーニングを試してみる｜noguchi-shoji