4.2.3:反復方策評価の実装【ゼロつく4のノート】

はじめに 『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。 この記事は、4.2.3節の内容です。反復方策評価アルゴリズムを実装して状態価値関数を求めます。 【前節の内容】 www.anarchi…