AtCoder Beginner Contest 130

結果 D問題までの4完で久しぶりにレートが下がった。 A問題 最近はA問題でもちょいひねりが入ったりしていた気もするが今回はいやに簡単だった。 提出 B問題 特になし。 提出 C問題 半分に切る場合が最大というのはすぐわかったが、それが複数ある場合の条件…

diverta 2019 Programming Contest 2

結果 D問題までの4完。Highestが更新されていく。 A問題 での場合分けを間違えて1WA。サンプルにあるのに合ってないものを提出してしまうとは。自動でサンプルの成否確認して提出するプログラム欲しいと思うこともあるけど、コンテストに出る際の環境が複数…

優先度付き経験再生の実装・実験

要約 優先度付き経験再生はAlphaZero方式の学習でも効果がありそう。 背景 以前の記事でも軽く触れたが、優先度付き経験再生という手法がある。 大雑把に言うとリプレイバッファからのサンプリング確率を一様ランダムではなく優先度で重み付けするものである…

AtCoder Beginner Contest 129

結果 E問題までの5完。Fを解けている人が少なく、Eまでの早解きゲームになっていたようだ。近のRatedでは6回連続でレートが伸びており、たまたま上手くいっている感じは否めないが気分は良い。 A問題 ちゃんと問題文を読めているかちょっと不安になりつつの…

Sarsa-UCT(λ)の実装・実験

要約 Sarsa-UCT(λ)のλを調整しても明確な性能向上は見られなかった。 背景 以前の記事の通りMCTSにおける価値の漸進的更新を実装した。 これにより単なる平均を求める手法とは異なる手法へ改造することが容易になった。特に以前紹介したSarsa-UCT(λ)は自然な…

AtCoder Grand Contest 034

結果 A,Bの2完でレート+1。C問題を解けないようでは厳しい。 A問題 のうち右にある方を先に移動させたいという気持ちから考えていって方針は早い段階で立ったのだが、実装で悩んでしまった。最終的には多少冗長でも1マスずつ見ていくようにループを書くのが…

M-SOLUTIONS プロコンオープン

結果 A→B→D→Cと解いて4完。もっと早く解けるべきだとも思うけれど、これくらいが実力だとも感じる。 直近4回のRatedでは全てレートが上がっていて計+120、Highest更新中。特に訓練しているわけではないので単なる上ブレっぽくはあるが。 A問題 えー公式なん…

a crowd of rebellionの好きな曲

音楽について語れるような知識もないのでYoutubeから好きな曲を貼っていくだけの記事です。動画を貼っておきながらあれなんですけど、なんとなく楽曲のイメージを固定化したくないのでMVは一切見ていません。アーティストの顔写真とかもできれば見たくないな…

SENetの導入

要約 SENetの構造を導入することによってネットワークの性能が向上した。計算量はやや多くなるが、全体として棋力は向上した。 背景 山岡さんのブログで将棋ソフトでもSENetの構造が有用であるとの実験結果が示されていた。 このような簡単な変更かつ僅かな…

C_PUCTの調整

要約 は2.5としたとき一番性能が良かった。 背景 今までMiacisは探索の選択ステップにおいてScience版AlphaZeroと同様の係数を用いていた。 $$ a_t = \mathrm{argmax}_a \left( Q(s_t, a) + C(s) P(s, a) \frac{\sqrt{N(s)}}{1 + N(s, a)} \right) $$ $$ C(s…

AtCoder Beginner Contest 128

結果 E問題までの5完。思ったよりレートが伸びて1級になった。 A問題 足す部分を分けてしまったが別に1行で済むなぁと思いながら直すのも面倒だったので。 #include"bits/stdc++.h" using namespace std; using ll = int64_t; int main() { ll A, P; cin >> …

AtCoder Beginner Contest 127

結果 E問題までの5完で311位。パフォーマンスは1832でレート変動は1752→1760(+8)だった。E問題を解けてそこそこかなと思ったけど、パフォーマンスは思ったより低かった。慣れている人にとってはFが簡単だったらしいという影響もあったのかもしれない。 A問題…

MCTSにおける価値の漸進的更新

結論 MCTSの行動価値を漸進的に更新する実装で、総和を保持して平均化する実装と同程度の性能を達成できた。 背景 以前、MCTSにおいて行動価値を漸進的に更新する方法について記事を書いたが、性能が悪化してしまった。この記事で述べた通り、原因はおそらく…

Policyの教師信号を分布にする

要約 Policyの教師信号を探索回数の正規化した分布とした方が性能が向上した。 背景 AlphaZero型の学習においてPolicyの教師信号にはルートノードから各行動について探索した回数をその総和で割った分布を利用している。MiacisではCPUのメモリ容量が足りない…

バッチサイズとステップあたりの学習速度の関係〜強化学習編〜

結論 強化学習でもバッチサイズとステップあたりの学習速度は比例しそうだ。あるデータ生成速度に対して学習可能な範囲でバッチサイズを上げていくことが学習の高速化に繋がるかもしれない。 前書き 前回は教師あり学習において、バッチサイズとステップあた…

バッチサイズとステップあたりの学習速度の関係

要約 バッチサイズとステップあたりの学習速度は比例関係にある(?)ため、強化学習の高速化としてバッチサイズを小さくすることは意味がない可能性がある。 前書き 前回はLR Range Testによる学習率の決定法について書いた。これをもとに複数のバッチサイズ…

LR Range Testによる学習率の決定

要約 LR Range Testを行って損失が最小となるときの学習率を初期値として決定して良さそう。 前書き 山岡さんの『ディープラーニングによる将棋AIの作り方3』を読んでいて、floodgateの2017年、2018年の棋譜もhttp://wdoor.c.u-tokyo.ac.jp/shogi/x/から入手…

LibTorchにおける半精度浮動小数点演算

記事の要約 LibTorchを使って半精度浮動小数点演算(FP16)を行うことで探索は速くなったが、学習は上手くいかなかった。どうもBatch Normalizationの部分はFP32で計算しなければならないようだ。 LibTorchによる半精度浮動小数点演算 深層学習では厳密な精度…

持ち駒の正規化

記事の要約 持ち駒は正規化した方が良さそう。 前書き WCSC29会場にて山岡さんから『ディープラーニングを使った将棋AIの作り方3』を購入させていただいた。AlphaZero的な強化学習ということで大枠は変わらないが、読んでいるといくらかMiacisの実装と異なる…

バッチサイズと性能の関係

前書き AlphaZeroが4096という大きなバッチサイズで学習しているのに対して、Miacisは64という小さいバッチサイズでの学習を行っている。AlphaZeroに比べて使える計算資源が少ないためデータの生成速度が小さく、バッチサイズが大きいと同じデータを何度も学…

【WCSC29】個人的に興味を惹かれたアピール文書集

すでにuuunuuun氏が書かかれた全チームの簡単なまとめや、やねさんによる見どころ紹介がありますが、ここでは個人的に面白そうだなと思ったものについて妄想レベルの私見を交えながら触れていきたいと思います。自分がディープラーニング系のソフトを開発し…

追加学習による性能向上の検証

今までは再現性や比較の観点から毎回ランダム初期化したパラメータから学習を行っていたが、WCSC29も迫ってきたということで最も強いパラメータに追加学習することで性能が伸びるか検証を行った。 今まで最も性能が良いパラメータは評価値をカテゴリカル分布…

方策とディリクレノイズの比率を変更した学習

Miacisではメモリの関係上、指し手の教師信号として実際に指された手をOnehotベクトルとしたものを利用しており、そのためか方策が偏りやすい傾向にある。 AlphaZeroの学習アルゴリズムでは、各探索でルートノードにおいてディリクレノイズと元の方策の内分…

AtCoder Beginner Contest 125

結果 23分33秒で全完、122位だった。C問題で少し時間がかかってしまったが、順位表を見ているとD問題を先に解いている人も多く、難しめではあったのかもしれない。100位以内の壁は厚い。 A問題 まぁA問題だし素直に割るだけなんだろうなーという感じで実装し…

Recurrent World Models Facilitate Policy Evolutionを読んだ

出典 David Ha and Jürgen Schmidhuber, “Recurrent World Models Facilitate Policy Evolution,” Advances in Neural Information Processing Systems 31, 2018. arXiv:https://arxiv.org/abs/1809.01999 World Models:https://arxiv.org/abs/1803.10122 概…

Tenka1 Programmer Contest 2019

結果 C問題だけの1完で711位だった。青あたりのレート帯だとC問題早解きゲームと化していて、24分(1WA)では良い順位を望むべくもなく。レート変動は1748→1720(-29)。 C問題 Stones 最初はメモの前半のように文字列を「B...BW...W」の繰り返しと考えて、これ…

AlphaZeroに対するTDLeaf(λ)の適用 ~実験編~

前回はTDLeaf()の理屈からAlphaZeroにおいて探索した値を用いる方法を検討した。今回はそれを基に強化学習を行った結果を記す。 損失による評価 floodgate2016年・R2800以上同士の棋譜に対する損失計算によって評価を行った。 の3つの値について試してみたが…

AtCoder Beginner Contest 124

結果 29分56秒で全完。137位だった。簡単なセットだったのでなかなか順位は伸びず。 A問題 std::maxにinitializer_listを渡す(ということをしているのだという理解で良いはず)。 #include"bits/stdc++.h" using namespace std; using ll = int64_t; int main…

AlphaZeroに対するTDLeaf(λ)の適用 ~準備編~

TDLeaf()の出典:Jonathan Baxter, Andrew Tridgell, Lex Weaver, "TDLeaf(lambda): Combining Temporal Difference Learning with Game-Tree Search," Proceedings of the Ninth Australian Conference on Neural Networks (ACNN'98), Brisbane QLD, Februar…

小さいバッチサイズに対する学習率設定

Miacisではバッチサイズ64で学習を行っている。GPUメモリが小さいのでバッチサイズを大きくできないためだが、Learnerが学習するデータ量とActorがデータを生成する量のバランスが重要なのではないかという根拠のない勘もある。 経験的にバッチサイズを変え…