Qwen3の推論強化チューニング手法であるGSPO（Group Sequence Policy Optimization）について考えたことをまとめます。 GSPO：学習安定性が向上したGRPO シーケンスレベル重点サンプリングによる分布補正ノイズの低減前提：重点サンプリングとは？サンプル数効果による分布補正の推定精度向上大規模MoEモデルの学習安…

どこから見てもメンダコ

LLMチューニングのための強化学習②：GSPO（Group Sequence Policy Optimization）