DDPGでPendulum-v0(強化学習, tensorflow2)

はじめに DDPG (Deep Deterministic Policy Gradient) とは DDPGのネットワーク構造 Q関数 (Critic) の更新 学習を安定させるためのテクニック 1. Soft-Target 2. 探索ノイズ DDPGの問題点 実装 結果:Pendulum-v0 後継手法:TD3, SAC 備考: DDPGはoff-policy はじめに DDPG(決定論的方策勾配法, Deep Deterministic Pol…