昨日はn本腕バンディットをプログラムで書いてみた。今日はn本腕バンディット問題に対するアルゴリズムを考えるために、「行動の価値」について考えていく。行動の価値どのレバーを下すのかを考えるときに、これまでの結果から、出来るだけ良さげなレバーを選びたいので、「レバーを選ぶ」という行動の価値というものを…

いものやま。

強化学習について学んでみた。（その6）