問題今までepisode毎に集計してlossが少なくなればモデルを保存するようにしていた lossは増加するばかりで、何度回しても減らない（原因は不明）一方、TensorBoardでrewardを眺めると、episodeを進める度にrewardは増えていっていた rewardが増えたら保存するようにすれば良いのでは？ mean_q は、rewardの増加と…

Feature/use reward to pick better model by dogwood008 · Pull Request #19 · dogwood008/DeepFX