前回はDDPG（Deep Deterministic Policy Gradient）でMountainCarContinuousに挑戦し、無事学習して山登りに成功しました。（BipedalWalkerは手強いので後回しです・・・）今回は中身について、ざっくりですが解説してみます。 1.DDPG（Deep Deterministic Policy Gradient） DQNでは、ある環境の時に行動a1,a2・・・を取…

やってみた！

Open AI Gym Box2D BipedalWalkerをColaboratoryで動かしてみる(5)