昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。今日は、開始点探査の仮定を外す方法について考えていく。方策オン型手法と方策オフ型手法まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。一つは、方策を決定論的なもの（＝各状態で選ばれる行動は常に同…

いものやま。

強化学習について学んでみた。（その16）