教師あり学習による事前学習

コンピュータ将棋

再現性をある程度担保したいので、一度強化学習で学習したパラメータを初期値として再び強化学習をやるようなことはあまりしたくない。かといって毎回ランダムパラメータから学習しているのも効率が悪いと思えたので、自分の中で折り合いのつく点として、教…

2020-02-25

探索速度と棋力の関係

コンピュータ将棋

以前AlphaZeroの探索速度を検討した回でMiacisの探索速度も調べた。この記事でも述べた通り、今の仕組みではNPSが上がれば棋力が上がるとは限らない。というわけでやねうら王/Kristallweizen(2スレッド、0.1秒)と対局してレートを測定した。バッチサイズ16…

2020-02-24

AtCoder Beginner Contest 156

競技プログラミング

結果順位 228th / 5737 パフォーマンス 2034 レーティング 1753 → 1784(+31) E問題までの5完。F問題も解きたかったけど、終了後10分くらい粘ってもダメだったのでそんなに行けそうでもなかった。 A - Beginner 最初提示されているのが表示レーティングかと…

2020-02-23

学習に必要な演算量の比較メモ

コンピュータ将棋

Miacisの学習はAlphaZeroの学習に比べて少ない計算量で行っていることは確かだが、実時間としては多くかかっている。総演算量(単位時間あたりの演算量×学習時間)をちゃんと検討しておくべきだと思ったのでメモを残しておく。基本的にCPUは無視してGPUあるい…

2020-02-20

対抗形における性能

コンピュータ将棋

前回、左右反転によるデータ拡張を導入し、初期局面からの対局では勝率にあまり差がないことがわかった。しかし以前の結果では、対抗形の学習は不十分であるという場合が見られた。左右反転を学習データに含めると、飛車が左にあるような局面がデータに含ま…

2020-02-19

AlphaZeroの探索はすごく速いか？

コンピュータ将棋

ふとAlphaZeroの論文読み直して、TPU4個とはいえ将棋で40K NPS出てるってやばくないか？って思いましたね。手元だとチャンネル半分、ブロック半分で10K出てない気がするんですが。2080tiとTPUってそんなに差があるものなんですかね— t (@tokumini_ss) 2020…

2020-02-19

左右反転によるデータ拡張

コンピュータ将棋

要約左右反転によるデータ拡張を行うことで性能を落とさず学習速度を2倍にできた。背景囲碁では左右反転や回転などを利用してデータ拡張することができ、本家AlphaZeroでもの下の方にあるSupplementary Materialsに掲載されているFigure S1 において、同…

2020-02-18

AtCoder Beginner Contest 155

競技プログラミング

結果順位 795th / 6812 パフォーマンス 1489 レーティング 1779 → 1753(-26) D問題までの4完でレート減。しかしレート下がってもそんなに悲しくならないくらい今は競技プログラミングへのモチベーションが落ちている。コンテストに出ることは継続しているけ…

2020-02-16

ここ2ヶ月の進捗

コンピュータ将棋

論文を書いているのもあってある程度情報を隠しながらやっていかないといけないかなと思っていた部分もあったのだけど、やはり性に合わない感じがしてきたので書きたいように書こうという方針で。正直なところ論文も公開しながら書きたいくらい……。まずは前…

2020-02-15

近況

雑記

1行まとめ去年のWCSCで使った手法(AlphaZero+分布型強化学習)についての論文を出そうと奮闘していたのですがちょっと挫折しかかっているという感じです。長い現在はジャーナルに投稿してレビューが返ってきた段階です。レビューの指摘に従って改稿作業や…

水たまり

2020-02-01から1ヶ月間の記事一覧

教師あり学習による事前学習

探索速度と棋力の関係

AtCoder Beginner Contest 156

学習に必要な演算量の比較メモ

対抗形における性能

AlphaZeroの探索はすごく速いか？

左右反転によるデータ拡張

AtCoder Beginner Contest 155

ここ2ヶ月の進捗

近況