DeepLearningによる将棋の学習5~損失の配分を変更~

　前回はフィルタサイズを変更してもうまくいかないことを確認しました。

　個人的にはDeepLearningによる学習でValueの学習がなかなかうまくいかないという点が気になっています。マルチタスク学習をさせているので損失は指し手の一致具合とValueの一致具合の和を取っている

loss_op = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=policy, labels=teacher_for_move)
                         + tf.nn.sigmoid_cross_entropy_with_logits(logits=value, labels=teacher_for_win))

のですが、ここの配分を変えてみることで何か知見が得られないかと考えました。

　小さいデータ(訓練用1000局、テスト用100局)でいくらか試してみたところ、Value側の損失を大きくしても(定数100をかけても)そこまでValue予測の質は改善されない一方、指し手予測の方はひどい性能になりました。

　もともとValueだけを学習するネットワークでもそこまでの精度になっていないことを考えると、これは当たり前なのかもしれません。

　一方で逆にValueの損失を小さくするとValue予測の方は多少質が悪化した一方で指し手予測の精度は上がったため、これで全データを使って実験してみました。正確にはvalue側の損失に0.1をかけて学習させました。

loss_op = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=policy, labels=teacher_for_move)
                         + 0.1 * tf.nn.sigmoid_cross_entropy_with_logits(logits=value, labels=teacher_for_win))

　Residualブロック数は5、optimizerはSGD、early stoppingのpatienceは7で実験した結果が以下となります。

epoch	Loss	Move Accuracy	Value Accuracy
1	3.5121	0.2691	0.6114
2	3.0486	0.3111	0.6389
3	2.8629	0.3315	0.6432
4	2.7399	0.3454	0.6505
5	2.6606	0.3545	0.6572
6	2.6133	0.3587	0.6618
7	2.5537	0.3667	0.6635
8	2.5361	0.3689	0.6647
9	2.5160	0.3707	0.6698
10	2.4973	0.3730	0.6707
11	2.4876	0.3743	0.6689
12	2.4843	0.3759	0.6745
13	2.4760	0.3783	0.6731
14	2.4844	0.3774	0.6744
15	2.4794	0.3795	0.6742
16	2.4832	0.3790	0.6717
17	2.4864	0.3799	0.6747
18	2.4926	0.3797	0.6761