いものやま。
id:yamaimo0625
強化学習とニューラルネットワークを組合せてみた。(その1)
昨日書いたとおり、現状ではあまり上手くいってない。 でも、とりあえず書いてみる。 関数近似としてニューラルネットワークを使う Sarsa()法の関数近似としてニューラルネットワークなどを使う場合、その関数のパラメータに関する勾配を求める必要がある。 以下、Sarsa()法でのパラメータの更新を再掲すると、 としたとき…