強化学習の学習アルゴリズムの分類|npaka
「強化学習」の学習アルゴリズムの分類方法である「モデルベース / モデルフリー」と「オンポリシー / オフポリシー」を軽くまとめます。 1. モデルベース / モデルフリー 「強化学習アルゴリズム」の最も重要な分類方法の1つは、エージェントが「環境モデル」を使用する(または学習できる)かどうかです。「環境モデル…