DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimization）について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法前提手法：TRPO/PPO TRPO: Trust Region Policy Optimization PPO: Proximal Policy Optimization GRPOとPPOの差分：①…

どこから見てもメンダコ

LLMチューニングのための強化学習①：GRPO（Group Relative Policy Optimization）