要約 価値のソフトマックス分布を行動選択および教師分布として利用することで学習が2倍から3倍程度速くなった。 背景 前回、生成している棋譜を分析したところ、評価値を大きく損ねる悪い手が多く選ばれすぎていると感じられた。この原因として探索回数をも…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。