昨日はパラメータをいろいろ変える実験をやってみた。結論から言えば、そもそも学習がうまくいっていない感じだった。そして、論文をちょっと調べてみると、○×ゲームに対して関数近似にニューラルネットワーク（+α）を使うものだと、中間層のユニット数に80とか使ってた。 TD Learning of Game Evaluation Functions wit…

いものやま。

強化学習とニューラルネットワークを組合せてみた。（その7）