Policy正解ラベルの偏り調査

　深層学習系の将棋ソフトでは主にPolicyを教師あり学習などで訓練する。しかし、将棋を普通にプレイしている上で出やすい手と出にくい手があると考えられ、正解ラベルにはクラスごとの偏りが大きくあると思われる。今回はその偏りについて調査した。

ラベルの作り方

　Policyの出力はdlshogiと同じく、9×9マスに対して27方向から駒が動いてくる可能性があるとして、合計2187クラスのクラス分類として行っている。

　指し手は全て先手のものとして見る。後手であれば盤面を180度反転させる。

　27方向というのは、まず盤上の駒が動くものが上下左右斜めの8方向 + 桂馬の2方向で10方向あり、これらについては成りつつ動くものとそうでないものを区別して20方向とする。そして手駒から打つ指し手が歩、香車、桂馬、銀、金、角、飛車の7種類があり得るので、合わせて27種類ということになる。

　より具体的には、方向の順番は

上、左上、右上、左、右、下、左下、右下、左上(桂馬)、右上(桂馬)

であり、成りなら+10する。手駒から打つ場合は20+歩、香車、桂馬、銀、金、角、飛車の順番となる。

　マスのidは以下のようになっている。

f:id:tokumini:20210917194745p:plain

　たとえば８八に居る角を▲７七角と上がる手であるなら、７七のマスへ右上方向として動く移動であり、マスのidが60、方向のidが2になる。これらから60 + 2 * 81 = 222としてクラスラベルを作成する。

データ

　普段検証データとして利用している、floodgateの2015年のデータを用いた。対局者のレートの高い方が3400を超える対局のみを抽出した。重複局面削除も導入して、50528局面が得られた。

　重複局面削除の際には、一つの同じ局面についてPolicy正解ラベルは取りまとめている。(各指し手が指された割合に応じた値を正解値としている。)たとえば初期局面などは▲２六歩が30%、▲７六歩が25%、…以下指し手が続き、合計で100%になるようになっている(数値は例であり実際に確認したものではない)。

結果

f:id:tokumini:20210917193217p:plain

　頻度が多い順に並べると図のような結果になった。

　上位の指し手を見てみると次のようなものであった。

順位	指し手の移動先	移動方向	頻度	割合	多そうな指し手
1	２四	上	829.644	1.64%	▲２四歩とか▲２四飛車
2	８六	上	687	1.36%	相手の△８六歩に対する▲同歩
3	３六	上	635.693	1.26%	▲３六歩
4	６六	上	587.545	1.16%	▲６六歩
5	４六	上	559.747	1.11%	▲４六歩
6	５六	上	458.679	0.91%	▲５六歩
7	６五	上	449.611	0.89%	▲６五歩
8	７七	右上	441.831	0.87%	▲７七角
9	８八	左上	436.574	0.86%	▲８八銀
10	３五	上	432.5	0.86%	▲３五歩
11	３七	左上(桂馬)	430	0.85%	▲３七桂馬