強化学習について学んでみた。(その14)

久々に強化学習の話。 前回は、価値反復について説明し、プログラムを書いてみた。 今日からは、そもそも状態遷移のモデルが分からない場合に、どうすればいいのかを考えていく。 おさらい まず、以下の記事で状態遷移のモデルとBellman方程式について説明した。 ここでは3つの課題を挙げているけど、もしモデル(状態遷移…