今さら聞けない強化学習(9): TD法の導出 - Qiita

# はじめに これまでの記事で、動的計画法(DP法)およびモンテカルロ法(MC法)を用いて強化学習問題を解いて来ました。DP法とMC法の特徴は以下のようになります。 DP法ではブートストラップを…