2019-04-15から1日間の記事一覧

AlphaZeroに対するTDLeaf(λ)の適用 ~実験編~

前回はTDLeaf()の理屈からAlphaZeroにおいて探索した値を用いる方法を検討した。今回はそれを基に強化学習を行った結果を記す。 損失による評価 floodgate2016年・R2800以上同士の棋譜に対する損失計算によって評価を行った。 の3つの値について試してみたが…