強化学習:行動価値関数(Action Value Function)(実装・写経)

今回は、前2回で整理した状態価値関数と同じ価値関数である行動価値関数(Action Value Function)について整理していきます. 以下を参考にしています.以下の記事はかなり丁寧に書かれていますが、だいぶはしょっていきます. qiita.com 行動価値関数と状態価値関数 状態価値関数は、状態が持つ価値を表していました. …