2020-08-26から1日間の記事一覧

エンコーダを凍結した探索系NNの学習結果

以下の続き。 前回の学習の反省としてエンコーダ側を事前学習し、凍結することにした。事前学習でのPolicy損失は1.85であった。 実験結果 全体の結果 前回に比べて値が安定するようになり、MCTSnetはかなり低い値まで下がっていった。しかし単純な探索なしで…