rayで実装する分散強化学習 ①A3C(非同期Advantage Actor-Critic)

Pythonの分散並列処理ライブラリであるRayとTensorflow2を使って分散強化学習の主要な手法を実装していきます。 まずは分散強化学習の草分け的な手法であるA3C (Asynchronous advantage actor-critic、非同期アドバンテージアクタークリティック) です。 はじめに Rayとは A3C(Asynchronous advantage actor-critic) 1. …