前回の実験ではResidualBlockの実装にミスがあったことがわかりました。Valueの出力を3つ目のブロックから取る実験をしてそのままにしていて、前回の実験は無意味でした。
今回はそれを修正して一番基本的な実装に戻し、一番気になるのが損失の比をいじる部分だったのでそれを変更して実験しなおしました。
結果はPolicy:Valueの比が
1:1の場合
1:0.5の場合
1:0.1の場合
やはり多少Valueの損失を小さく扱ったほうが曲線のピークが一致するようで良く見えます。損失が最小になった瞬間を比較してもValueの性能をそこまで落とさずにPolicyの性能を上げられているようでうs。
損失比 | Policy Loss | Value Loss | Move Accuracy | Value Accuracy |
---|---|---|---|---|
1:1 | 2.4987 | 0.6193 | 0.3673 | 0.6774 |
1:0.5 | 2.4348 | 0.5650 | 0.3773 | 0.6831 |
1:0.1 | 2.4149 | 0.5591 | 0.3811 | 0.6717 |
詳細なデータ
1:1
Epoch | Total Loss | Policy Loss | Value Loss | Move Accuracy | Value Accuracy |
---|---|---|---|---|---|
1 | 4.0093 | 3.4192 | 0.5901 | 0.2738 | 0.6449 |
2 | 3.5516 | 2.9888 | 0.5629 | 0.3127 | 0.6689 |
3 | 3.3704 | 2.7949 | 0.5755 | 0.3321 | 0.6655 |
4 | 3.2515 | 2.6918 | 0.5597 | 0.3428 | 0.6779 |
5 | 3.1720 | 2.6084 | 0.5636 | 0.3538 | 0.6798 |
6 | 3.1440 | 2.5726 | 0.5714 | 0.3576 | 0.6824 |
7 | 3.1315 | 2.5363 | 0.5953 | 0.3633 | 0.6774 |
8 | 3.1277 | 2.5212 | 0.6065 | 0.3654 | 0.6779 |
9 | 3.1180 | 2.4987 | 0.6193 | 0.3673 | 0.6774 |
10 | 3.1503 | 2.4924 | 0.6578 | 0.3698 | 0.6736 |
11 | 3.1420 | 2.4766 | 0.6654 | 0.3720 | 0.6765 |
12 | 3.1590 | 2.4686 | 0.6904 | 0.3721 | 0.6746 |
1:0.5
Epoch | Total Loss | Policy Loss | Value Loss | Move Accuracy | Value Accuracy |
---|---|---|---|---|---|
1 | 3.6982 | 3.3983 | 0.5999 | 0.2741 | 0.6397 |
2 | 3.2568 | 2.9709 | 0.5716 | 0.3142 | 0.6596 |
3 | 3.0546 | 2.7779 | 0.5535 | 0.3350 | 0.6728 |
4 | 2.9499 | 2.6735 | 0.5528 | 0.3451 | 0.6742 |
5 | 2.8712 | 2.5978 | 0.5468 | 0.3536 | 0.6807 |
6 | 2.8096 | 2.5365 | 0.5462 | 0.3635 | 0.6818 |
7 | 2.7826 | 2.5069 | 0.5515 | 0.3644 | 0.6833 |
8 | 2.7552 | 2.4790 | 0.5526 | 0.3698 | 0.6844 |
9 | 2.7467 | 2.4604 | 0.5725 | 0.3718 | 0.6782 |
10 | 2.7294 | 2.4454 | 0.5681 | 0.3757 | 0.6813 |
11 | 2.7264 | 2.4425 | 0.5678 | 0.3746 | 0.6838 |
12 | 2.7173 | 2.4348 | 0.5650 | 0.3773 | 0.6831 |
13 | 2.7304 | 2.4404 | 0.5801 | 0.3780 | 0.6829 |
14 | 2.7273 | 2.4328 | 0.5888 | 0.3778 | 0.6795 |
15 | 2.7317 | 2.4332 | 0.5970 | 0.3782 | 0.6814 |
1:0.1
Epoch | Total Loss | Policy Loss | Value Loss | Move Accuracy | Value Accuracy |
---|---|---|---|---|---|
1 | 3.4702 | 3.4077 | 0.6256 | 0.2763 | 0.6181 |
2 | 3.0286 | 2.9682 | 0.6044 | 0.3159 | 0.6357 |
3 | 2.8417 | 2.7829 | 0.5886 | 0.3331 | 0.6467 |
4 | 2.7277 | 2.6681 | 0.5958 | 0.3476 | 0.6436 |
5 | 2.6520 | 2.5945 | 0.5749 | 0.3558 | 0.6590 |
6 | 2.5996 | 2.5420 | 0.5767 | 0.3632 | 0.6575 |
7 | 2.5550 | 2.4981 | 0.5683 | 0.3667 | 0.6630 |
8 | 2.5143 | 2.4573 | 0.5703 | 0.3718 | 0.6633 |
9 | 2.5021 | 2.4458 | 0.5627 | 0.3735 | 0.6682 |
10 | 2.4859 | 2.4295 | 0.5639 | 0.3763 | 0.6677 |
11 | 2.4771 | 2.4208 | 0.5628 | 0.3771 | 0.6706 |
12 | 2.4744 | 2.4187 | 0.5572 | 0.3778 | 0.6726 |
13 | 2.4726 | 2.4167 | 0.5589 | 0.3793 | 0.6717 |
14 | 2.4708 | 2.4149 | 0.5591 | 0.3811 | 0.6717 |
15 | 2.4758 | 2.4202 | 0.5559 | 0.3804 | 0.6743 |
16 | 2.4726 | 2.4171 | 0.5554 | 0.3828 | 0.6748 |
17 | 2.4789 | 2.4233 | 0.5563 | 0.3819 | 0.6732 |