Pythonの分散並列処理ライブラリであるRayとTensorflow2を使って分散強化学習の主要な手法を実装していきます。まずは分散強化学習の草分け的な手法であるA3C (Asynchronous advantage actor-critic、非同期アドバンテージアクタークリティック) です。はじめに Rayとは A3C（Asynchronous advantage actor-critic） 1. …

どこから見てもメンダコ

rayで実装する分散強化学習 ①A3C（非同期Advantage Actor-Critic）