2020-02-01から1ヶ月間の記事一覧

教師あり学習による事前学習

再現性をある程度担保したいので、一度強化学習で学習したパラメータを初期値として再び強化学習をやるようなことはあまりしたくない。かといって毎回ランダムパラメータから学習しているのも効率が悪いと思えたので、自分の中で折り合いのつく点として、教…

探索速度と棋力の関係

以前AlphaZeroの探索速度を検討した回でMiacisの探索速度も調べた。 この記事でも述べた通り、今の仕組みではNPSが上がれば棋力が上がるとは限らない。というわけでやねうら王/Kristallweizen(2スレッド、0.1秒)と対局してレートを測定した。 バッチサイズ16…

AtCoder Beginner Contest 156

結果 順位 228th / 5737 パフォーマンス 2034 レーティング 1753 → 1784(+31) E問題までの5完。F問題も解きたかったけど、終了後10分くらい粘ってもダメだったのでそんなに行けそうでもなかった。 A - Beginner 最初提示されているのが表示レーティングかと…

学習に必要な演算量の比較メモ

Miacisの学習はAlphaZeroの学習に比べて少ない計算量で行っていることは確かだが、実時間としては多くかかっている。総演算量(単位時間あたりの演算量×学習時間)をちゃんと検討しておくべきだと思ったのでメモを残しておく。基本的にCPUは無視してGPUあるい…

対抗形における性能

前回、左右反転によるデータ拡張を導入し、初期局面からの対局では勝率にあまり差がないことがわかった。しかし以前の結果では、対抗形の学習は不十分であるという場合が見られた。左右反転を学習データに含めると、飛車が左にあるような局面がデータに含ま…

AlphaZeroの探索はすごく速いか?

ふとAlphaZeroの論文読み直して、TPU4個とはいえ将棋で40K NPS出てるってやばくないか? って思いましたね。手元だとチャンネル半分、ブロック半分で10K出てない気がするんですが。2080tiとTPUってそんなに差があるものなんですかね— t (@tokumini_ss) 2020…

左右反転によるデータ拡張

要約 左右反転によるデータ拡張を行うことで性能を落とさず学習速度を2倍にできた。 背景 囲碁では左右反転や回転などを利用してデータ拡張することができ、本家AlphaZeroでも の下の方にあるSupplementary Materialsに掲載されているFigure S1 において、同…

AtCoder Beginner Contest 155

結果 順位 795th / 6812 パフォーマンス 1489 レーティング 1779 → 1753(-26) D問題までの4完でレート減。しかしレート下がってもそんなに悲しくならないくらい今は競技プログラミングへのモチベーションが落ちている。コンテストに出ることは継続しているけ…

ここ2ヶ月の進捗

論文を書いているのもあってある程度情報を隠しながらやっていかないといけないかなと思っていた部分もあったのだけど、やはり性に合わない感じがしてきたので書きたいように書こうという方針で。正直なところ論文も公開しながら書きたいくらい……。 まずは前…

近況

1行まとめ 去年のWCSCで使った手法(AlphaZero+分布型強化学習)についての論文を出そうと奮闘していたのですがちょっと挫折しかかっているという感じです。 長い 現在はジャーナルに投稿してレビューが返ってきた段階です。レビューの指摘に従って改稿作業や…