めも
id:misos
バンディットアルゴリズムの復習3:UCB(Upper Confidence Bound)
前回 UCB(Upper Confidence Bound) UCBの説明 理論的な説明 UCBのアルゴリズム アームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布 実験 Arm0: ベルヌーイ Arm1: 適当に作った分布 次回 参考文献 前回 ε-Greedy+softmaxについてやった。 UCB(Upper Confidence Bound) UCBの説明 これまでのアルゴリズムはアームの期待…