強化学習について学んでみた。(その30)

昨日は強化学習に関数近似を組合せる方法を説明し、パラメータの更新式を導き出した。 ところで、この方法はこれまでのテーブル型の手法と矛盾したものになっていないのか、というのが気になるところ。 そこで、今日は、昨日導き出したパラメータの更新式が、これまでのテーブル型の手法の拡張になっていることを確認して…