OpenAIのPPO言語生成論文を読む①

この記事は強化学習苦手の会 Advent Calendar 2020の24日目の記事です。 2020.12.28 追記 解釈が致命的にミスってました・・・"To keep $\pi$ from moving too far from $\rho$"なので「両分布が離れすぎないように」です。 (誤)学習する方策$\pi$が、初期方策$ \rho$よりも離れた分布となるように、KL divergenceが大き…