2018-04-01から1ヶ月間の記事一覧
前回は損失の比を調整することでPolicyの損失曲線とValueの損失曲線がだいたい同じタイミングで底を打つようにできるのではないかということを実験しました。 今回はそれを踏まえて現状での最高性能を出す条件で実験してみました。 ResidualBlock5つ、フィル…
elmo 文字化けしていて読めなかった(・ω・) ダウンロードしたら読めた。定跡を「自己対局→勝敗+評価値を利用して評価」によってうまく作るというのは面白そうな考えですね。ライブラリを複数組み合わせいくのはやはり公開されていることの良さを上手く活か…
前回の実験ではResidualBlockの実装にミスがあったことがわかりました。Valueの出力を3つ目のブロックから取る実験をしてそのままにしていて、前回の実験は無意味でした。 今回はそれを修正して一番基本的な実装に戻し、一番気になるのが損失の比をいじる部…
前回はフィルタ数を変更して実験をしてみました。 今回はいろんな実験をしすぎて情報が取っ散らかってきたように思えるのでここらで一度標準的なものを再実験してみることにしました。 ResidualBlock5つ、フィルタ数192、optimizerはSGD、patienceは10、損失…
フィルタ数を256にして実験してみました。 損失の比が1:1の場合 Epoch Total Loss Policy Loss Value Loss Move Accuracy Value Accuracy 1 3.9012 3.3180 0.5833 0.2844 0.6544 2 3.4626 2.8997 0.5630 0.3194 0.6710 3 3.2766 2.7227 0.5539 0.3407 0.6819…
前回は損失の配分を調整して学習をさせてみましたが思わしい結果は得られませんでした。しかし、これは指し手予測の精度だけを見た場合の話であり、損失について考えると実は良い結果になっているともいえるかもしれないことに記事を書いてから気づきました…
前回はフィルタサイズを変更してもうまくいかないことを確認しました。 個人的にはDeepLearningによる学習でValueの学習がなかなかうまくいかないという点が気になっています。マルチタスク学習をさせているので損失は指し手の一致具合とValueの一致具合の和…
前回はフィルタサイズを5にして実験してみました。その結果性能は下がり、学習時間も多くなるということがわかりました。単純に考えれば増やしてもダメだということになるのですが、念のため今回はさらにフィルタサイズを7にして実験を行いました。結果は以…
前回はブロック数を10、optimizerをAdamにして実験してみましたが良い結果は得られませんでした。 今回はブロック数ではなくフィルタサイズを3→5に変更して学習させてみました。ブロック数は5、optimizerはSGD、patienceは7です。下の表が結果となります。 e…
前回の続き。 patienceを7にしてAdamでもやってみました。 optimizer = tf.train.AdamOptimizer(learning_rate=0.001) 結果は次の通りです。 epoch Loss Move Accuracy Value Accuracy 1 4.4521 0.2929 0.6807 2 4.1956 0.3232 0.6873 3 4.1133 0.3335 0.689…
山岡さんの本を参考にtensorflowを用いてDeepLearningを用いた将棋ソフトを作ってみています。 将棋AIで学ぶディープラーニング作者: 山岡忠夫出版社/メーカー: マイナビ出版発売日: 2018/03/14メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) …
結果 C,D,Eの3完で112位。後述するがE問題はほぼ不正のような解き方をしている。高順位となったが実力ではない。 今回の結果によって青コーダーになれてしまったが、今後も精進を重ねていかなければいきたい。 C問題 配列Aを違う配列BにコピーしておいてBを…