結論 現状の学習方法で得たパラメータは対抗形が苦手であり、学習局面として対抗形ほとんど出現していない。 背景 自己対局による強化学習だと学習局面が偏ってしまうのではないかという指摘は多々ある。Miacisについてはどうも対抗形で上手く指せていないよ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。