rayで実装する分散強化学習 ②A2C(Advantage Actor-Critic)

GPUが一つしかなくても効率よく訓練できる分散強化学習手法A2Cをrayで実装します。 前記事: horomary.hatenablog.com A2Cとは rayによるA2C型同期並列アーキテクチャの実装 A2Cでのネットワーク更新 CartPole-v1での学習結果 次:Apex-DQN A2Cとは A3C論文: [1602.01783] Asynchronous Methods for Deep Reinforcement L…