昨日は強化学習に関数近似を組合せる方法を説明し、パラメータの更新式を導き出した。ところで、この方法はこれまでのテーブル型の手法と矛盾したものになっていないのか、というのが気になるところ。そこで、今日は、昨日導き出したパラメータの更新式が、これまでのテーブル型の手法の拡張になっていることを確認して…

いものやま。

強化学習について学んでみた。（その30）