2018-05-01から1ヶ月間の記事一覧

評価関数の追加学習

前回は入玉対策として手動で適当にパラメータを変更しました。今回はそれを基に自己対局からの強化学習を行ってみます。 100局単位で学習を行い、指数移動平均を取った勝率が55%を超えたら強くなったとしてパラメータをアップデートします。 局面の多様性を…

入玉に関する点数付け

kkp_kpptの特徴量に変えてからいくらか改良をして自己対局をさせているところですが、対局内容を見ていると相手玉を上部に逃がしても駒得だけを考慮して優勢と主張するシーンが多くみられました。まだ宣言勝ち機能を導入していないこともあり、また256手を超…

AtCoder Grand Contest 024 参加ログ

結果 A,B,Cの3完で597位。C問題で7WAも出してしまったのが反省点だけど、簡単めとはいえ700点問題を通せたので個人的には悪くない結果だと思った。 パフォーマンスは1621、レートは1598(+3)で、惜しくも青コーダー復帰とはならず。 思考ログ 解法はほぼ公式…

将棋ソフトの自己対局による強化学習

評価関数の特徴量をkkp_kpptに変更し、駒割のみのゼロベクトルから自己対局による強化学習を行っています。学習用局面をsfenなどで出力することなく、ある程度の対局数を貯めてミニバッチとして更新しています。教師探索深さは3であり、ミニバッチサイズは10…

SIMDを用いて評価関数計算を高速化したかった話

コンピュータ将棋において評価関数を計算する際にSIMDによって高速化する手法が知られています。 基本的には野田さんのブログが詳しいので、深く知りたい方はそちらを参照してください。 今僕が開発している将棋ソフトでは手番なしの絶対2駒(kp, pp)のみを評…

DeepLearningによる将棋の学習12~7ブロック化~

前回はResidualBlockを6個に増やしたら性能が上がることを確認しました。 ならばと今回は7個にして実験してみました。結果は次の通りです。 Epoch Total Loss Policy Loss Value Loss Policy Accuracy Value Accuracy 1 3.6059 3.4564 0.5978 0.2957 0.6376 …

DeepLearningによる将棋の学習11~6ブロック化と対局結果~

前回は現状で最も良いと考えられるモデルで学習させてみました。 今回はResidualBlockを一つ増やして6個として実験してみました。 Epoch Total Loss Policy Loss Value Loss Policy Accuracy Value Accuracy 1 3.1680 3.0230 0.5797 0.3130 0.6512 2 2.7987 …