昨日はn本腕バンディット問題の行動の価値について考えた。今日は、それを使って具体的なアルゴリズムを考えていく。グリーディ法一番最初に思いつく方法は、現在の推定される行動の価値の中で、最も価値の高い行動を選ぶという方法。すなわち、回目に選ぶ行動をとするとき、とする。（※については、添え字の扱いが…

いものやま。

強化学習について学んでみた。（その7）