久々に強化学習の話。前回は、価値反復について説明し、プログラムを書いてみた。今日からは、そもそも状態遷移のモデルが分からない場合に、どうすればいいのかを考えていく。おさらいまず、以下の記事で状態遷移のモデルとBellman方程式について説明した。ここでは3つの課題を挙げているけど、もしモデル（状態遷移…

いものやま。

強化学習について学んでみた。（その14）