2019-07-26から1日間の記事一覧

価値のソフトマックス分布を教師としたAlphaZero学習

要約 価値のソフトマックス分布を行動選択および教師分布として利用することで学習が2倍から3倍程度速くなった。 背景 前回、生成している棋譜を分析したところ、評価値を大きく損ねる悪い手が多く選ばれすぎていると感じられた。この原因として探索回数をも…