TadaoYamaokaの開発日記
id:TadaoYamaoka
拡散モデルで将棋の方策を学習する その2
前回の続き。 tadaoyamaoka.hatenablog.com前回訓練損失が下がるところまで確認したが、正解率は0%のままだった。 その後学習を継続し、126,504ステップ時点で、訓練損失と正解率は以下の通りとなった。 学習結果 訓練損失 正解率 floodgateの棋譜に対する、正解率も約25%まで上昇している。 バッチサイズは32のため、学習…