Feature/use reward to pick better model by dogwood008 · Pull Request #19 · dogwood008/DeepFX

問題 今までepisode毎に集計してlossが少なくなればモデルを保存するようにしていた lossは増加するばかりで、何度回しても減らない(原因は不明) 一方、TensorBoardでrewardを眺めると、episodeを進める度にrewardは増えていっていた rewardが増えたら保存するようにすれば良いのでは? mean_q は、rewardの増加と…