2020-08-26から1日間の記事一覧

エンコーダを凍結した探索系NNの学習結果

探索系NN

以下の続き。前回の学習の反省としてエンコーダ側を事前学習し、凍結することにした。事前学習でのPolicy損失は1.85であった。実験結果全体の結果前回に比べて値が安定するようになり、MCTSnetはかなり低い値まで下がっていった。しかし単純な探索なしで…