DeepLearningによる将棋の学習9~損失比の再検討~

 前回の実験ではResidualBlockの実装にミスがあったことがわかりました。Valueの出力を3つ目のブロックから取る実験をしてそのままにしていて、前回の実験は無意味でした。

 今回はそれを修正して一番基本的な実装に戻し、一番気になるのが損失の比をいじる部分だったのでそれを変更して実験しなおしました。

 結果はPolicy:Valueの比が

 1:1の場合 f:id:tokumini:20180427101946p:plain

 1:0.5の場合 f:id:tokumini:20180427101959p:plain

 1:0.1の場合 f:id:tokumini:20180427102008p:plain

 やはり多少Valueの損失を小さく扱ったほうが曲線のピークが一致するようで良く見えます。損失が最小になった瞬間を比較してもValueの性能をそこまで落とさずにPolicyの性能を上げられているようでうs。

損失比 Policy Loss Value Loss Move Accuracy Value Accuracy
1:1 2.4987 0.6193 0.3673 0.6774
1:0.5 2.4348 0.5650 0.3773 0.6831
1:0.1 2.4149 0.5591 0.3811 0.6717

 詳細なデータ

 1:1

Epoch Total Loss Policy Loss Value Loss Move Accuracy Value Accuracy
1 4.0093 3.4192 0.5901 0.2738 0.6449
2 3.5516 2.9888 0.5629 0.3127 0.6689
3 3.3704 2.7949 0.5755 0.3321 0.6655
4 3.2515 2.6918 0.5597 0.3428 0.6779
5 3.1720 2.6084 0.5636 0.3538 0.6798
6 3.1440 2.5726 0.5714 0.3576 0.6824
7 3.1315 2.5363 0.5953 0.3633 0.6774
8 3.1277 2.5212 0.6065 0.3654 0.6779
9 3.1180 2.4987 0.6193 0.3673 0.6774
10 3.1503 2.4924 0.6578 0.3698 0.6736
11 3.1420 2.4766 0.6654 0.3720 0.6765
12 3.1590 2.4686 0.6904 0.3721 0.6746

 1:0.5

Epoch Total Loss Policy Loss Value Loss Move Accuracy Value Accuracy
1 3.6982 3.3983 0.5999 0.2741 0.6397
2 3.2568 2.9709 0.5716 0.3142 0.6596
3 3.0546 2.7779 0.5535 0.3350 0.6728
4 2.9499 2.6735 0.5528 0.3451 0.6742
5 2.8712 2.5978 0.5468 0.3536 0.6807
6 2.8096 2.5365 0.5462 0.3635 0.6818
7 2.7826 2.5069 0.5515 0.3644 0.6833
8 2.7552 2.4790 0.5526 0.3698 0.6844
9 2.7467 2.4604 0.5725 0.3718 0.6782
10 2.7294 2.4454 0.5681 0.3757 0.6813
11 2.7264 2.4425 0.5678 0.3746 0.6838
12 2.7173 2.4348 0.5650 0.3773 0.6831
13 2.7304 2.4404 0.5801 0.3780 0.6829
14 2.7273 2.4328 0.5888 0.3778 0.6795
15 2.7317 2.4332 0.5970 0.3782 0.6814

 1:0.1

Epoch Total Loss Policy Loss Value Loss Move Accuracy Value Accuracy
1 3.4702 3.4077 0.6256 0.2763 0.6181
2 3.0286 2.9682 0.6044 0.3159 0.6357
3 2.8417 2.7829 0.5886 0.3331 0.6467
4 2.7277 2.6681 0.5958 0.3476 0.6436
5 2.6520 2.5945 0.5749 0.3558 0.6590
6 2.5996 2.5420 0.5767 0.3632 0.6575
7 2.5550 2.4981 0.5683 0.3667 0.6630
8 2.5143 2.4573 0.5703 0.3718 0.6633
9 2.5021 2.4458 0.5627 0.3735 0.6682
10 2.4859 2.4295 0.5639 0.3763 0.6677
11 2.4771 2.4208 0.5628 0.3771 0.6706
12 2.4744 2.4187 0.5572 0.3778 0.6726
13 2.4726 2.4167 0.5589 0.3793 0.6717
14 2.4708 2.4149 0.5591 0.3811 0.6717
15 2.4758 2.4202 0.5559 0.3804 0.6743
16 2.4726 2.4171 0.5554 0.3828 0.6748
17 2.4789 2.4233 0.5563 0.3819 0.6732