近況

1行まとめ

 去年のWCSCで使った手法(AlphaZero+分布型強化学習)についての論文を出そうと奮闘していたのですがちょっと挫折しかかっているという感じです。

長い

 現在はジャーナルに投稿してレビューが返ってきた段階です。レビューの指摘に従って改稿作業や追加実験を行っていたのですが、追加実験で論文の主張と合わない結果が出てき始めていて頭を抱えています。

 もう少し詳しく言うと、論文ではゲームドメインによらず性能が上げられる手法であるとアピールするために将棋だけでなくオセロでも実験を行っていまして、そっちでの提案手法の効果が今一つといった感じなんですね。

 1回目投稿版では超小規模ネットワークでの結果を使っていたのですが、比較対象が弱いと指摘されたのもあってMaicisにオセロ対応を追加する形で完全に実装し直して実験しました。提案手法フルではやや性能が上がっているんですが、切除実験をしてみると一番主張したいところがほぼ効果なく、一番どうでもいいところが一番効果があるという感じで……。

 将棋の方で切除実験をやればもっと顕著な差が出そうな感じはあるんですが、将棋では1回の学習・評価に2,3週間かかるので実験をたくさんやるのはしんどいんですよね。やっぱり計算資源がそんなにあるわけじゃないのに本将棋で実験しているのが良くないなぁと改めて反省しています。

 再投稿の締め切りが迫ったプレッシャーもあってかここ数日心身の調子が悪くなっていて、ちょっと再投稿は無理そうかなという見通しになっています。まぁ再投稿締め切りに間に合わなかった場合でも新規投稿として扱われるだけなので、そんなにデメリットがあるわけでもないのかなとは思うわけですが。実験結果をちゃんと解釈すると論旨がやや変わりそうな気配もあるので新規投稿の方がむしろ相応しいのかもしれないとも思いつつ。

 あとはそもそもレビューの指摘でもあったんですが、「トップソフトと差が大きすぎる低レベルなところで手法の有効性を示してもどうなのか」みたいなところは自分としても感じるところであり、もう少しプログラム自体の性能を上げないとなーと思います。しかしここ数カ月は基本的にオセロの方ばかりいじっていたので将棋側の性能は上がっているわけではなく……。

 根本的に論文を書くことが全く好きではないことがわかり始めていてつらいですね。論文書きたくない。プログラムを書きたい。そんな感じですね。