昨日はモンテカルロ-ES法による方策の評価と改善を説明した。今日は、モンテカルロ-ES法で実際にプログラムを書いてみる。ブラックジャック本で例として挙げられているブラックシャックのAIをモンテカルロ-ES法で実装してみる。ブラックシャックはカジノで定番のゲームで、以下のようなルール。ルールの概要トランプ…

いものやま。

強化学習について学んでみた。（その15）