こんばんは。今日のテーマは方策勾配法です。前回の記事では強化学習の基礎から深層強化学習（DQN）までを扱いました。そこでは状態や行動の価値Qの見積もりをいかにして最適化するかという考え方が根底にありましたが、方策勾配法では価値ではなくエージェントの方策（≒エージェントの行動確率）を最適化することが目的で…

ころがる狸

【強化学習】方策勾配法の仕組みと学習のワークフロー