強化学習について学んでみた。(その10)

昨日の続き。 今日はどうやってBellman方程式を解いていくのかを考えていく。 方策評価 昨日言及した通り、ある方策の元でBellman方程式を解くと、その方策での状態価値(あるいは行動価値)が計算できる。 なので、Bellman方程式を解くことを方策評価と呼んだりする。 Bellman方程式は連立一次方程式なので、解き方はいろ…