コンピュータ将棋

学習中に生成した棋譜の分析

要約 生成している学習データの質が悪い可能性がある。質を高めていくために(1)価値を考慮した行動選択 (2)の調整 (3)リプレイバッファサイズの調整 などを考えていきたい。 実験 前回1Mステップの学習を行ったが、まだ収束していないようにも思えたので2Mス…

思考時間とレートの関係

要約 Miacisではおおむね思考時間を2倍でレート+100となる。MCTSのスケール性もαβ探索と比べてあまり変わらないのではないか。 背景 AlphaZeroの論文(arXiv版)には1手の思考時間とレートの関係が図で表されている(Figure 2)。以下に将棋の方だけを切り抜いた…

長時間学習の結果/選手権以降にやったことのまとめ

要約 2週間弱かけて1Mステップの学習を行ったところレート2600程度になった。パラメータとWindows向けバイナリはGitHubで公開している。 背景 第29回世界コンピュータ将棋選手権以降、一通り試したいことはやったのでここで一度長時間の学習を行った。選手権…

優先度付き経験再生の実装・実験

要約 優先度付き経験再生はAlphaZero方式の学習でも効果がありそう。 背景 以前の記事でも軽く触れたが、優先度付き経験再生という手法がある。 大雑把に言うとリプレイバッファからのサンプリング確率を一様ランダムではなく優先度で重み付けするものである…

Sarsa-UCT(λ)の実装・実験

要約 Sarsa-UCT(λ)のλを調整しても明確な性能向上は見られなかった。 背景 以前の記事の通りMCTSにおける価値の漸進的更新を実装した。 これにより単なる平均を求める手法とは異なる手法へ改造することが容易になった。特に以前紹介したSarsa-UCT(λ)は自然な…

SENetの導入

要約 SENetの構造を導入することによってネットワークの性能が向上した。計算量はやや多くなるが、全体として棋力は向上した。 背景 山岡さんのブログで将棋ソフトでもSENetの構造が有用であるとの実験結果が示されていた。 このような簡単な変更かつ僅かな…

C_PUCTの調整

要約 は2.5としたとき一番性能が良かった。 背景 今までMiacisは探索の選択ステップにおいてScience版AlphaZeroと同様の係数を用いていた。 $$ a_t = \mathrm{argmax}_a \left( Q(s_t, a) + C(s) P(s, a) \frac{\sqrt{N(s)}}{1 + N(s, a)} \right) $$ $$ C(s…

MCTSにおける価値の漸進的更新

結論 MCTSの行動価値を漸進的に更新する実装で、総和を保持して平均化する実装と同程度の性能を達成できた。 背景 以前、MCTSにおいて行動価値を漸進的に更新する方法について記事を書いたが、性能が悪化してしまった。この記事で述べた通り、原因はおそらく…

Policyの教師信号を分布にする

要約 Policyの教師信号を探索回数の正規化した分布とした方が性能が向上した。 背景 AlphaZero型の学習においてPolicyの教師信号にはルートノードから各行動について探索した回数をその総和で割った分布を利用している。MiacisではCPUのメモリ容量が足りない…

バッチサイズとステップあたりの学習速度の関係〜強化学習編〜

結論 強化学習でもバッチサイズとステップあたりの学習速度は比例しそうだ。あるデータ生成速度に対して学習可能な範囲でバッチサイズを上げていくことが学習の高速化に繋がるかもしれない。 前書き 前回は教師あり学習において、バッチサイズとステップあた…

バッチサイズとステップあたりの学習速度の関係

要約 バッチサイズとステップあたりの学習速度は比例関係にある(?)ため、強化学習の高速化としてバッチサイズを小さくすることは意味がない可能性がある。 前書き 前回はLR Range Testによる学習率の決定法について書いた。これをもとに複数のバッチサイズ…

LR Range Testによる学習率の決定

要約 LR Range Testを行って損失が最小となるときの学習率を初期値として決定して良さそう。 前書き 山岡さんの『ディープラーニングによる将棋AIの作り方3』を読んでいて、floodgateの2017年、2018年の棋譜もhttp://wdoor.c.u-tokyo.ac.jp/shogi/x/から入手…

LibTorchにおける半精度浮動小数点演算

記事の要約 LibTorchを使って半精度浮動小数点演算(FP16)を行うことで探索は速くなったが、学習は上手くいかなかった。どうもBatch Normalizationの部分はFP32で計算しなければならないようだ。 LibTorchによる半精度浮動小数点演算 深層学習では厳密な精度…

持ち駒の正規化

記事の要約 持ち駒は正規化した方が良さそう。 前書き WCSC29会場にて山岡さんから『ディープラーニングを使った将棋AIの作り方3』を購入させていただいた。AlphaZero的な強化学習ということで大枠は変わらないが、読んでいるといくらかMiacisの実装と異なる…

バッチサイズと性能の関係

前書き AlphaZeroが4096という大きなバッチサイズで学習しているのに対して、Miacisは64という小さいバッチサイズでの学習を行っている。AlphaZeroに比べて使える計算資源が少ないためデータの生成速度が小さく、バッチサイズが大きいと同じデータを何度も学…

【WCSC29】個人的に興味を惹かれたアピール文書集

すでにuuunuuun氏が書かかれた全チームの簡単なまとめや、やねさんによる見どころ紹介がありますが、ここでは個人的に面白そうだなと思ったものについて妄想レベルの私見を交えながら触れていきたいと思います。自分がディープラーニング系のソフトを開発し…

追加学習による性能向上の検証

今までは再現性や比較の観点から毎回ランダム初期化したパラメータから学習を行っていたが、WCSC29も迫ってきたということで最も強いパラメータに追加学習することで性能が伸びるか検証を行った。 今まで最も性能が良いパラメータは評価値をカテゴリカル分布…

方策とディリクレノイズの比率を変更した学習

Miacisではメモリの関係上、指し手の教師信号として実際に指された手をOnehotベクトルとしたものを利用しており、そのためか方策が偏りやすい傾向にある。 AlphaZeroの学習アルゴリズムでは、各探索でルートノードにおいてディリクレノイズと元の方策の内分…

AlphaZeroに対するTDLeaf(λ)の適用 ~実験編~

前回はTDLeaf()の理屈からAlphaZeroにおいて探索した値を用いる方法を検討した。今回はそれを基に強化学習を行った結果を記す。 損失による評価 floodgate2016年・R2800以上同士の棋譜に対する損失計算によって評価を行った。 の3つの値について試してみたが…

AlphaZeroに対するTDLeaf(λ)の適用 ~準備編~

TDLeaf()の出典:Jonathan Baxter, Andrew Tridgell, Lex Weaver, "TDLeaf(lambda): Combining Temporal Difference Learning with Game-Tree Search," Proceedings of the Ninth Australian Conference on Neural Networks (ACNN'98), Brisbane QLD, Februar…

小さいバッチサイズに対する学習率設定

Miacisではバッチサイズ64で学習を行っている。GPUメモリが小さいのでバッチサイズを大きくできないためだが、Learnerが学習するデータ量とActorがデータを生成する量のバランスが重要なのではないかという根拠のない勘もある。 経験的にバッチサイズを変え…

行動価値の漸進的更新により性能が悪化する原因の考察

前回の記事ではMCTSにおける行動価値の更新を漸進的実装に変更したが、並列化した際に性能が悪化することがわかった。 MCTSの並列化方法として現在実装しているのはねね将棋、dlshogiで採用されているものと同様の方法である。1GPUにつきCPUが2スレッド稼働…

【WCSC29】Miacisアピール文書が公開されました/PERについての所感

Miacisのアピール文書が公開されました。Miacisは簡単に言うとAlphaZeroの(個人でできるレベルでの)再現実験中といった感じです。あまりアピールという感じではなく、やった実験と今後の展望が主になっています。自分としては優先順序付き経験再生(Prioritiz…

平均化MCTSの実装変更

AlphaZeroで用いられているようなモンテカルロ木探索においては、状態で行動を取った回数とその行動以下の部分木から得られた報酬の総和を保存しておくことで、必要な際に行動価値をとして求める。 しかしこの書き方ではSarsa-UCT(λ)の実装をしようとしたと…

KPPT型評価関数のボナンザメソッドによる学習

第28回世界コンピュータ将棋選手権の時はKP,PPを用いた2駒関係を特徴量とするの評価関数を使用していたが、選手権後からKPPT型のオーソドックスな手番付き3駒関係を特徴量とする評価関数に変更した。 学習をし直さないといけないため、まずは手始めにボナン…

Apery(WCSC28)の評価関数パラメータを読み込む

開発中の将棋ソフトについて、評価関数部分以外の性能を強豪ソフトと比較するため、評価関数パラメータを読み込む機能を実装した。 AperyとはBonaPieceにおいて持ち駒0枚に数字を割り振っているかどうかや、盤上の駒を示す順番が角→馬→飛車→竜か角→飛車→馬→…

評価関数の追加学習2

前回から自己対局による強化学習を行ってます。今回も前回と同じ条件で引き続き学習を継続させてみました。 以下が学習前のパラメータに対する学習後のパラメータの対局結果となります。 モデル 対局数 勝利 引き分け 敗北 勝率 3回アップデート後 1736 828 …

評価関数の追加学習

前回は入玉対策として手動で適当にパラメータを変更しました。今回はそれを基に自己対局からの強化学習を行ってみます。 100局単位で学習を行い、指数移動平均を取った勝率が55%を超えたら強くなったとしてパラメータをアップデートします。 局面の多様性を…

入玉に関する点数付け

kkp_kpptの特徴量に変えてからいくらか改良をして自己対局をさせているところですが、対局内容を見ていると相手玉を上部に逃がしても駒得だけを考慮して優勢と主張するシーンが多くみられました。まだ宣言勝ち機能を導入していないこともあり、また256手を超…

将棋ソフトの自己対局による強化学習

評価関数の特徴量をkkp_kpptに変更し、駒割のみのゼロベクトルから自己対局による強化学習を行っています。学習用局面をsfenなどで出力することなく、ある程度の対局数を貯めてミニバッチとして更新しています。教師探索深さは3であり、ミニバッチサイズは10…