Open AI Gym Box2D BipedalWalkerをColaboratoryで動かしてみる(5)

前回はDDPG(Deep Deterministic Policy Gradient)でMountainCarContinuousに挑戦し、無事学習して山登りに成功しました。(BipedalWalkerは手強いので後回しです・・・) 今回は中身について、ざっくりですが解説してみます。 1.DDPG(Deep Deterministic Policy Gradient) DQNでは、ある環境の時に行動a1,a2・・・を取…