Replay BufferがPolicy Gradientで使えない理由

Replay Bufferは、環境での経験を直接ではなくバッファに貯めて利用する手法です。これにより、学習時に直近の経験だけでなく過去の経験も活用することができます。Deep Q-Network(DQN)登場時から使われている、とても一般的な手法です。