#　はじめに　これまでの記事で、動的計画法（DP法）およびモンテカルロ法（MC法）を用いて強化学習問題を解いて来ました。DP法とMC法の特徴は以下のようになります。　DP法ではブートストラップを…

今さら聞けない強化学習（9）: TD法の導出 - Qiita