LLMチューニングのための強化学習②:GSPO(Group Sequence Policy Optimization)

Qwen3の推論強化チューニング手法であるGSPO(Group Sequence Policy Optimization)について考えたことをまとめます。 GSPO: 学習安定性が向上したGRPO シーケンスレベル重点サンプリングによる分布補正ノイズの低減 前提:重点サンプリングとは? サンプル数効果による分布補正の推定精度向上 大規模MoEモデルの学習安…