A2CでのBreakout攻略 (multiprocessing利用)

はじめに A2C (Advantage Actor Critic) は A3Cのバリアントであり、A3Cから非同期 (Asynchronous) 要素を除いた手法です。 A3Cはいろいろ盛り込んでて属性過多な手法だったので、手法の発表後にそれぞれの要素が性能にどの程度の寄与があったのかが検証されました。 結果、各Agentによるネットワークの非同期更新ではなく…