一昨日はこれまでのおさらいと、ステップTD法とついて説明した。今日は、さらにアルゴリズムを融合させて、TD()について考えていく。モンテカルロ法とTD学習の融合（続き） TD()法ステップ収益は、いずれも本質的には同じ値を推定しているので、重みを使って平均化することが出来る。つまり、平均化した収益をと表すと…

いものやま。

強化学習について学んでみた。（その24）