DeepLearningによる将棋の学習12~7ブロック化~

　前回はResidualBlockを6個に増やしたら性能が上がることを確認しました。

　ならばと今回は7個にして実験してみました。結果は次の通りです。

Epoch	Total Loss	Policy Loss	Value Loss	Policy Accuracy	Value Accuracy
1	3.6059	3.4564	0.5978	0.2957	0.6376
2	3.1807	3.0401	0.5622	0.3370	0.6677
3	3.0033	2.8649	0.5535	0.3581	0.6759
4	2.8979	2.7613	0.5465	0.3694	0.6809
5	2.8407	2.7050	0.5426	0.3766	0.6856
6	2.8037	2.6686	0.5403	0.3814	0.6893
7	2.7849	2.6495	0.5417	0.3831	0.6886
8	2.7692	2.6336	0.5426	0.3866	0.6889
9	2.7701	2.6347	0.5416	0.3868	0.6898
10	2.7635	2.6285	0.5400	0.3873	0.6925
11	2.7778	2.6427	0.5405	0.3889	0.6914
12	2.7783	2.6424	0.5439	0.3892	0.6895
13	2.7879	2.6518	0.5444	0.3898	0.6908

f:id:tokumini:20180502102246p:plain

　Policyの性能は下がってしまいました。これまでの結果を表にまとめるとこうなります。

ブロック数	Total Loss	Policy Loss	Value Loss	Policy Accuracy	Value Accuracy
5	2.4231	2.2876	0.5421	0.3957	0.6874
6	2.3999	2.2634	0.5458	0.4013	0.6883
7	2.7635	2.6285	0.5400	0.3873	0.6925

　Valueは良くなっているようにも見え、またPolicyの一致率はまだ上がりそうであることを考えると、損失比をいじることでまだ改善はできるかもしれません。ブロック数を変えると最適な損失比も変わるとなると実験が大変ですが……。そこまでこだわる精度の差でもない気はするので、選手権後はもっと大きな改善に取り組みたいと思います。

　NN版はリモートで動かせない環境だと思っていたのですが、試行錯誤していると動くようになったので選手権にも合議として参加させる可能性が高くなってきました。ルールの確認等をして問題がなさそうならば線形評価関数版の海底とNN版との楽観合議で参加したいと思います。