2020-07-01から1ヶ月間の記事一覧

128チャンネルで1ヶ月学習(2回目)

5月の世界コンピュータ将棋オンライン大会が終わってから、実験サイクルを早めるため学習は64チャンネルのネットワークで行っていた。しかしlibtorch1.5.0版に対応した影響で後方互換性がなくなり、すぐ動かせる強いパラメータが手元ないと細かい動作の検証…

MCTSnetの学習(仮)

MCTSnetのだいたいの実装が終わり、将棋での教師あり学習を回し始めている。 論文通りの損失ではないけどとりあえずMCTSnetの将棋での教師あり学習が回るようになったが、やっぱり探索回数が増えると損失がハチャメチャになっているし、これが逆転してくる未…

時系列モデルが木構造を学習できることの検証

前回の考察では、時系列モデルが暗黙のうちに木構造を学習できるので木の遷移履歴を時系列展開しても良いという仮説を立てた。この仮説を多少なりとも検証するため、今回は木に関する簡単なタスクを考えて、それが学習可能かどうかを実験により確かめた。 実…

MCTSnetの損失計算部

MCTSnetの解説は他にもある ので、そちらも参照されたし。この記事では損失計算部分にだけ注目して記述する。 arXiv版とOpenReview版は式番号が異なるので注意。OpenReview(ICLR2018)で一回Rejectになって、ICML2018に通っていて、arXivの最新版はそのICMLに…

木探索についての考察2

以下の続き。 木探索がそもそもどういうものであるかと考えると、状態をノード、行動をエッジとして構築されるグラフ上を遷移しつつ、ノード上の価値を更新していく作業だと思われる。モンテカルロ木探索の選択ステップに「一個親のノードへ戻る」という選択…

Differentiable Neural Computersの実装

で書いた通り、ワーキングメモリモジュールを持つ探索マネージャについて考えている。 ワーキングメモリモジュールとしては LSTM Neural Turing Machine Differentiable Neural Computer Transformer(Compressive Transformer) あたりが可能性ありそうなのか…