2020-08-01から1ヶ月間の記事一覧

エンコーダを凍結した探索系NNの学習結果

以下の続き。 前回の学習の反省としてエンコーダ側を事前学習し、凍結することにした。事前学習でのPolicy損失は1.85であった。 実験結果 全体の結果 前回に比べて値が安定するようになり、MCTSnetはかなり低い値まで下がっていった。しかし単純な探索なしで…

囲碁のルールについてのメモ

Miacisをコンピュータ囲碁にも対応させようかと思って調べてみているが、意外と詰まるところが多そうだ。やっぱりあまり知らないゲームの実装は難しい。とりあえずここまでの考えをメモしておく。 プロトコル 基本的にはGo Text Protocolに対応していれば良…

探索系NNの学習結果

とりあえず試しで回した学習が一通り終わったので結果をまとめる。 実験設定 将棋での教師あり学習でモデルの学習を行い、Policy損失を比較した。 比較手法 探索なしの全結合ネットワーク MCTSnet 提案手法 Stacked LSTM(Deep Repeated ConvLSTMを意識したも…