【コンピュータオセロ8】全結合ネットワークでの学習・対局

要約全結合ネットワークにした場合、CNNの場合よりもレートが200ほど落ちてしまった。オセロにおいて終盤の評価が難しいのはゲームの性質による問題の可能性がある。背景オセロでの対局を検証していると、終盤での状態価値推定の精度が良くないのではない…

【コンピュータオセロ7】優先度付き経験再生の検証

要約優先度付き経験再生はオフにした方が良さそう。背景比較実験でAlphaZeroの学習が妙に弱いことがわかった。原因として優先度付き経験再生が悪さをしている可能性が考えられた。優先度付き経験再生は1年前の検証で結果が良かったので採用したのだが、…

要約 2つネットワークを用いて対局させても学習時間が長くなるばかりで学習高速化とか性能向上といった改善は見られなかった。背景個人的に、今まで手元で行ったAlphaZero学習ほぼ全てについて、最終的に得られるモデルが対抗形に弱い穴熊の評価がおかし…

前回、余計な探索の工夫を入れようとしなければカテゴリカルモデルがやや性能向上に寄与していそうだという結果が得られた。今回はより詳細に実験を行い、差がありそうかどうかを検証した。実験次の3手法についてAlphaZeroと同様の強化学習を実行して、Eda…

要約オセロに関しては分布の形状を利用した探索ではなく分布から期待値を出して通常のMCTSを行う方が性能が高い。背景前回など、カテゴリカルモデルがスカラーモデルよりも性能が悪い問題について、以下のような指摘をもらった。一つの仮説としては、ラ…

要約オセロにおける強化学習で、損失関数のValue側のみ2倍,4倍とすることでは性能は上がらなかった。背景数日前に読んだ論文で、AlphaZero形式の学習について計算量の増加を抑えつつハイパーパラメータを上手く探索する手法が提案されていた。この手法に…

Miacisで用いている手法の主張点は「評価値出力をスカラーではなく、各値になる確率を示すカテゴリカル分布にすることで性能が上がり、探索にも有効活用できる」というところにある。簡単な説明はWCSC30アピール文書を参照。そもそも着想の元ネタの一つであ…

背景1 手法の有効性がゲーム依存ではないことを主張するため、そして実験サイクルを高速に回せるという利点があるため、オセロでも実験をしていく。オセロは将棋より簡単だろうと勝手に判断してやや小さめのネットワークで学習をさせている。具体的にはチャ…