強化学習で迷路を探索する - Qiita
はじめに 今回は強化学習,その中でもQ学習を使って迷路を探索したいと思います. Q学習 概要 簡単に言うと,「状態」と「行動」のペア毎にQ値という値を保持しておき,「報酬」などを使ってQ値を更新していきます.正の報酬を得られる可能性が高い行動ほど高いQ値に収束していき...