LSTMを用いた探索的NNの学習

以下の続き。 前回はMCTSNetの学習方法を工夫することで上手く学習できた。 今回はそれに対する提案手法に近いものとして、LSTMを用いてGPU上のみで探索的な振る舞いを可能にするモデルについて実験を行った。 手法 Simulation Policyに相当するLSTMは状態の表現ベクトルを系列的に受け取り、探索する行動の表現ベクトルを…