昨日は方策反復について説明し、実際にプログラムも書いてみた。今日はもう一つのアルゴリズムについて説明する。価値反復方策反復の場合、方策評価の中で何度もスイープを行うので、方策改善が行われるまでに時間がかかる。なら、1回スイープを行うごとに方策改善が出来ないか、というのが、もう一つのアルゴリズムの…

いものやま。

強化学習について学んでみた。（その13）