日本語LLMをPPOでファインチューニングする - Qiita

TL;DR3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimiz…