好奇心を報酬とする理論

ランニング30分 英語できず (1) 好奇心を報酬とする論文を読了する [1705.05363] Curiosity-driven Exploration by Self-supervised Prediction 下図の様な迷路ゲーム(Viza-Doom)の場合、迷路の端に報酬があり(右端の図)、各場面では殆ど報酬を見ることができない。現在の最先端の強化学習でも報酬が見つけ難いと殆ど学…