強化学習について学んでみた。(その25)

昨日はTD()法について説明した。 今日は、これを実際に実装できるようにするために、適格度トレースについて考えていく。 TD()法のイメージ まず、TD()法のイメージを確認しておくと、次のような感じ。 各段がそれぞれステップTD法になっていて、それぞれのステップ収益と現在の推定価値との差分について、それぞれの重み…