強化学習の資料メモ2:多腕バンディット問題

基本の内容 各種定式化 Exploration/Exploitation Dilemma Stationary Problem(定常なケース) Action-Value Methods 行動選択の戦略 greedy(貪欲) ε-Greedy Soft-max action selection Non-stationary Problem(非定常なケース) アームの行動戦略 Gradient-Bandit All Moves As Fist(AMAF) Upper Confidence Bound (UCB) ac…