以下の続き。前回はエンコーダ部分(MCTSNetのEmbedネットワーク)だけ事前学習したものを用いた。結果的に0回探索でも事前学習より悪い損失に留まり、また探索回数を増やしたときに性能向上しなかった。対策案として今回は次の2点について修正を行った。勾配計算をMCTSNetの論文が主張する通りのものに修正した事前学習…

水たまり

事前学習を含めたMCTSNetの学習結果