一言でいうと Experience replayにおいて効率的にサンプルを学習するため優先度によってサンプリングすることを提案。優先度としてTD-errorを使用、importace samplingになるので重みを調節し、学習終了付近でのバイアスの影響をなくすため一様サンンプリング近づくようなannealingをしている。DQN,Double-DQNで評価しとも…

PRIORITIZED EXPERIENCE REPLAY · Issue #34 · arXivTimes/arXivTimes