強化学習について学んでみた。(その15)

昨日はモンテカルロ-ES法による方策の評価と改善を説明した。 今日は、モンテカルロ-ES法で実際にプログラムを書いてみる。 ブラックジャック 本で例として挙げられているブラックシャックのAIをモンテカルロ-ES法で実装してみる。 ブラックシャックはカジノで定番のゲームで、以下のようなルール。 ルールの概要 トランプ…