TD3の解説・実装(強化学習)

Tensorflow2で連続値制御のための強化学習手法 TD3 (Twin Delayed DDPG)を実装し二足歩行を学習します。 画像元:https://starwars.disney.co.jp/character/at-at-walker.html はじめに:TD3とは 1. Clipped Double Q learning 2. Target Policy Smoothing 3. Delayed Policy Update 実装 ネットワーク構造 更新処理 Biped…