この記事は強化学習苦手の会 Advent Calendar 2020の24日目の記事です。 2020.12.28 追記解釈が致命的にミスってました・・・"To keep $\pi$ from moving too far from $\rho$"なので「両分布が離れすぎないように」です。（誤）学習する方策$\pi$が、初期方策$ \rho$よりも離れた分布となるように、KL divergenceが大き…

Seitaro Shinagawaの雑記帳

OpenAIのPPO言語生成論文を読む①