前回 kujira16.hateblo.jp 問題設定行ったのはHondaらのAISTATS 2014の論文 [1] の中の実験の追試で，報酬が , の正規分布に従うアームと , の正規分布に従うアームがそれぞれ1本ずつあるという設定の多腕バンディット問題です。原理最初にパラメータを -1/2, 0, 1/2 あたりの値に設定します。については後述します。…

くじらにっき++

報酬が分散未知の正規分布に従うときのThompson Sampling