2020/1/25改正学習継続時に早くalphaが収束するようalpha、log_alpha、alpha_optimizerを保存するように変更しました。gpu有、無しの両環境で保存データを共有できるようモデル読み込み時にmap_location=deviceを追加しました。 2020/1/23改正 BATCH_SIZEを128から論文と同じ256に変更したら学習が飛躍的に改善しました。…

やってみた！

PyBullet-HumanoidFlagrunHarderBulletEnv-v0(2)