2020-04-01から1ヶ月間の記事一覧

【コンピュータオセロ1】指し手選択の温度について

背景1 手法の有効性がゲーム依存ではないことを主張するため、そして実験サイクルを高速に回せるという利点があるため、オセロでも実験をしていく。 オセロは将棋より簡単だろうと勝手に判断してやや小さめのネットワークで学習をさせている。具体的にはチャ…

Miacis WCSOC2020版

世界コンピュータ将棋選手権のオンライン大会(WCSOC)に向けて、これ以上レートが伸びそうにないのでここで結果をまとめておきます。 実行ファイル Windows向け実行ファイルをGitHubで公開しています。 CPU版 GPU版 CPU版はNPS50くらいしか出ないのでほぼお…

教師データ生成時(800探索)の性能

要約 教師データ生成時のレートはfloodgate換算で Miacis:2700程度 やねうら王:2800〜2900程度? AobaZero:3000程度 また探索バッチサイズはできれば1で生成するべきだとわかった。 背景 AobaZeroが800回の探索でKrist_483_473stb_16t_100mに勝ったという話…

損失と棋力の関係

動機 Miacisでは強化学習の最中にも定期的にfloodgateの棋譜を用いて検証損失の計測をしている。対局には計算コストがかかるため、検証損失の値から大雑把にでも性能が把握できると嬉しい。よって今回はこれらの関係を調査した。 使用した結果 基本的にはこ…