<基礎学習>10/19-20 cartpole問題を強化学習で攻略する6(+雑記)

以下の記事の続きです。 kurupical.hatenablog.com cartpoleについては、以下の記事を参照ください。 kurupical.hatenablog.com 考察 Q-Tableをデバッグ→チューニング 報酬を-1〜1にClippingしているのに、Q-Table(報酬の期待値)が-1〜1の間になっていません。 誤差逆伝播しながらQ-Tableが修正されていくのかもしれません…