はじめての強化学習〜Q-learningで迷路を解く〜 - Qiita

Q-Learningを用いて、迷路の探索をCで実装します。 強化学習とは 一連の行動の最後に評価を与え、この評価にしたがって学習をすすめる手法です。 最後の評価値を用いて一連の動作の中の、一つ一つの個別の行動について知識を学習していきます。 Q学習とは Q値というのは、...