日本語LLMをPPOでファインチューニングする - Qiita
TL;DR3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimiz…