Q-Learningを用いて、迷路の探索をCで実装します。強化学習とは一連の行動の最後に評価を与え、この評価にしたがって学習をすすめる手法です。最後の評価値を用いて一連の動作の中の、一つ一つの個別の行動について知識を学習していきます。 Q学習とは Q値というのは、...

はじめての強化学習〜Q-learningで迷路を解く〜 - Qiita