前回は入玉対策として手動で適当にパラメータを変更しました。今回はそれを基に自己対局からの強化学習を行ってみます。 100局単位で学習を行い、指数移動平均を取った勝率が55%を超えたら強くなったとしてパラメータをアップデートします。 局面の多様性を…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。