a crowd of rebellionの好きな曲

音楽について語れるような知識もないのでYoutubeから好きな曲を貼っていくだけの記事です。動画を貼っておきながらあれなんですけど、なんとなく楽曲のイメージを固定化したくないのでMVは一切見ていません。アーティストの顔写真とかもできれば見たくないな…

2019-05-29

SENetの導入

コンピュータ将棋

要約 SENetの構造を導入することによってネットワークの性能が向上した。計算量はやや多くなるが、全体として棋力は向上した。背景山岡さんのブログで将棋ソフトでもSENetの構造が有用であるとの実験結果が示されていた。このような簡単な変更かつ僅かな…

2019-05-28

C_PUCTの調整

コンピュータ将棋

要約は2.5としたとき一番性能が良かった。背景今までMiacisは探索の選択ステップにおいてScience版AlphaZeroと同様の係数を用いていた。 $$ a_t = \mathrm{argmax}_a \left( Q(s_t, a) + C(s) P(s, a) \frac{\sqrt{N(s)}}{1 + N(s, a)} \right) $$ $$ C(s…

2019-05-27

AtCoder Beginner Contest 128

競技プログラミング

結果 E問題までの5完。思ったよりレートが伸びて1級になった。 A問題足す部分を分けてしまったが別に1行で済むなぁと思いながら直すのも面倒だったので。 #include"bits/stdc++.h" using namespace std; using ll = int64_t; int main() { ll A, P; cin >> …

2019-05-26

AtCoder Beginner Contest 127

競技プログラミング

結果 E問題までの5完で311位。パフォーマンスは1832でレート変動は1752→1760(+8)だった。E問題を解けてそこそこかなと思ったけど、パフォーマンスは思ったより低かった。慣れている人にとってはFが簡単だったらしいという影響もあったのかもしれない。 A問題…

2019-05-23

MCTSにおける価値の漸進的更新

コンピュータ将棋

結論 MCTSの行動価値を漸進的に更新する実装で、総和を保持して平均化する実装と同程度の性能を達成できた。背景以前、MCTSにおいて行動価値を漸進的に更新する方法について記事を書いたが、性能が悪化してしまった。この記事で述べた通り、原因はおそらく…

2019-05-22

Policyの教師信号を分布にする

コンピュータ将棋

要約 Policyの教師信号を探索回数の正規化した分布とした方が性能が向上した。背景 AlphaZero型の学習においてPolicyの教師信号にはルートノードから各行動について探索した回数をその総和で割った分布を利用している。MiacisではCPUのメモリ容量が足りない…

2019-05-16

バッチサイズとステップあたりの学習速度の関係〜強化学習編〜

コンピュータ将棋

結論強化学習でもバッチサイズとステップあたりの学習速度は比例しそうだ。あるデータ生成速度に対して学習可能な範囲でバッチサイズを上げていくことが学習の高速化に繋がるかもしれない。前書き前回は教師あり学習において、バッチサイズとステップあた…

2019-05-15

バッチサイズとステップあたりの学習速度の関係

コンピュータ将棋

要約バッチサイズとステップあたりの学習速度は比例関係にある(？)ため、強化学習の高速化としてバッチサイズを小さくすることは意味がない可能性がある。前書き前回はLR Range Testによる学習率の決定法について書いた。これをもとに複数のバッチサイズ…

2019-05-11

LR Range Testによる学習率の決定

コンピュータ将棋

要約 LR Range Testを行って損失が最小となるときの学習率を初期値として決定して良さそう。前書き山岡さんの『ディープラーニングによる将棋AIの作り方3』を読んでいて、floodgateの2017年、2018年の棋譜もhttp://wdoor.c.u-tokyo.ac.jp/shogi/x/から入手…