前回までは、モンテカルロ法について説明していた。今日からはTD学習（Temporal Difference Learning: 時間的差分学習）について説明していく。おさらいまず、強化学習のベースとなる考え方は、Bellman方程式を解いて、ある方策の元での状態や行動の価値を推定し、方策を改善していくというものだった。強化学習につい…

いものやま。

強化学習について学んでみた。（その18）