昨日はTD()法について説明した。今日は、これを実際に実装できるようにするために、適格度トレースについて考えていく。 TD()法のイメージまず、TD()法のイメージを確認しておくと、次のような感じ。各段がそれぞれステップTD法になっていて、それぞれのステップ収益と現在の推定価値との差分について、それぞれの重み…

いものやま。

強化学習について学んでみた。（その25）