はじめに前回は、TD（temporal-difference）学習の基本編として定式化とアルゴリズムの紹介を行いました．強化学習：TD学習（基本編） - 他力本願で生き抜く（本気）今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習（Q-learning）について整理していきます．Sutton本の6.4章からの話になり…

他力本願で生き抜く（本気）

強化学習：TD学習（SARSA、Q学習）