探索系NN

Transformerを用いた探索的NNの学習(失敗編)

以下の続き。 前回までの手法では多少改善は得られたものの、探索回数を増やすほど性能が良くなるような性質は得られなかった。またこのやり方では本質的にゲームであることを利用しておらず、一般的に画像認識等でも利用できるものになっており、スコープが…

LSTMを用いた探索的NNの学習:単純なLSTM

以下の続き。 前回はLSTMによくわからない工夫を入れることで探索(?)回数が増えると損失が落ちる結果を得ることができた。 今回はもっと単純に本当にLSTMだけを使うものと比較する。 手法 余計な部分を加えず、LSTMで単純に規定回数だけ推論してから出力す…

LSTMを用いた探索的NNの学習

以下の続き。 前回はMCTSNetの学習方法を工夫することで上手く学習できた。 今回はそれに対する提案手法に近いものとして、LSTMを用いてGPU上のみで探索的な振る舞いを可能にするモデルについて実験を行った。 手法 Simulation Policyに相当するLSTMは状態の…

MCTSNetの学習結果(Simulation Policyの廃止)

以下の続き。 前回はMCTSNetの学習式に従って実験したが、結果は振るわなかった。学習の挙動などを見ていて、個人的な印象としてはSimulation Policyを方策勾配法のような形で学習していくのは難しいように感じている。 具体的な要因としては、特に学習序盤…

事前学習を含めたMCTSNetの学習結果

以下の続き。 前回はエンコーダ部分(MCTSNetのEmbedネットワーク)だけ事前学習したものを用いた。結果的に0回探索でも事前学習より悪い損失に留まり、また探索回数を増やしたときに性能向上しなかった。対策案として今回は次の2点について修正を行った。 勾…

エンコーダを凍結した探索系NNの学習結果

以下の続き。 前回の学習の反省としてエンコーダ側を事前学習し、凍結することにした。事前学習でのPolicy損失は1.85であった。 実験結果 全体の結果 前回に比べて値が安定するようになり、MCTSnetはかなり低い値まで下がっていった。しかし単純な探索なしで…

探索系NNの学習結果

とりあえず試しで回した学習が一通り終わったので結果をまとめる。 実験設定 将棋での教師あり学習でモデルの学習を行い、Policy損失を比較した。 比較手法 探索なしの全結合ネットワーク MCTSnet 提案手法 Stacked LSTM(Deep Repeated ConvLSTMを意識したも…

MCTSnetの学習(仮)

MCTSnetのだいたいの実装が終わり、将棋での教師あり学習を回し始めている。 論文通りの損失ではないけどとりあえずMCTSnetの将棋での教師あり学習が回るようになったが、やっぱり探索回数が増えると損失がハチャメチャになっているし、これが逆転してくる未…

時系列モデルが木構造を学習できることの検証

前回の考察では、時系列モデルが暗黙のうちに木構造を学習できるので木の遷移履歴を時系列展開しても良いという仮説を立てた。この仮説を多少なりとも検証するため、今回は木に関する簡単なタスクを考えて、それが学習可能かどうかを実験により確かめた。 実…

木探索についての考察2

以下の続き。 木探索がそもそもどういうものであるかと考えると、状態をノード、行動をエッジとして構築されるグラフ上を遷移しつつ、ノード上の価値を更新していく作業だと思われる。モンテカルロ木探索の選択ステップに「一個親のノードへ戻る」という選択…

Differentiable Neural Computersの実装

で書いた通り、ワーキングメモリモジュールを持つ探索マネージャについて考えている。 ワーキングメモリモジュールとしては LSTM Neural Turing Machine Differentiable Neural Computer Transformer(Compressive Transformer) あたりが可能性ありそうなのか…

最近木探索について考えていること

最近、「探索の仕方自体を学習する」手法について興味が出ている。AlphaZeroの手法をニューラルネットワーク + モンテカルロ木探索として分けて見た場合、前者は学習されるが後者は固定的なアルゴリズムとなっているため、ここを学習にすることができればよ…