エンコーダを凍結した探索系NNの学習結果

探索系NN

以下の続き。前回の学習の反省としてエンコーダ側を事前学習し、凍結することにした。事前学習でのPolicy損失は1.85であった。実験結果全体の結果前回に比べて値が安定するようになり、MCTSnetはかなり低い値まで下がっていった。しかし単純な探索なしで…

囲碁のルールについてのメモ

Miacisをコンピュータ囲碁にも対応させようかと思って調べてみているが、意外と詰まるところが多そうだ。やっぱりあまり知らないゲームの実装は難しい。とりあえずここまでの考えをメモしておく。プロトコル基本的にはGo Text Protocolに対応していれば良…

探索系NN

とりあえず試しで回した学習が一通り終わったので結果をまとめる。実験設定将棋での教師あり学習でモデルの学習を行い、Policy損失を比較した。比較手法探索なしの全結合ネットワーク MCTSnet 提案手法 Stacked LSTM(Deep Repeated ConvLSTMを意識したも…