いものやま。
id:yamaimo0625
強化学習について学んでみた。(その28)
前回はSarsa()法について説明した。 今日からは関数近似について説明していく。 これまでの方法の限界と関数近似 これまでの方法では、状態価値ベクトル、行動価値ベクトルの各要素を、メモリ上に(配列などで)そのまま保存し、参照、更新してきた。 このような方法をテーブル型と呼んだりする。 しかし、この方法では、…