前回はTDLeaf()の理屈からAlphaZeroにおいて探索した値を用いる方法を検討した。今回はそれを基に強化学習を行った結果を記す。 損失による評価 floodgate2016年・R2800以上同士の棋譜に対する損失計算によって評価を行った。 の3つの値について試してみたが…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。