強化学習:TD学習(SARSA、Q学習)

はじめに 前回は、TD(temporal-difference)学習の基本編として定式化とアルゴリズムの紹介を行いました. 強化学習:TD学習(基本編) - 他力本願で生き抜く(本気) 今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習(Q-learning)について整理していきます.Sutton本の6.4章からの話になり…