連続値制御のための有力手法である Soft Actor-Critic (SAC) の解説と、tensorflow2での実装例です。実装するだけならDDPGやその後継であるTD3とたいして変わりませんが、しっかり理解しようとするとなかなか苦労する手法です。注意 Soft-Q学習および最大エントロピー強化学習に興味がない場合は ②tensorflow2での実装だ…

どこから見てもメンダコ

Soft-Actor-Critic (SAC) ①Soft-Q学習からSACへ