学習スレッドのスリープ時間と学習速度の関係

現状では少ない計算資源の下でできるだけAlphaZeroの設定に近づけるために、学習スレッドは1ステップごとに定数時間のスリープ時間を入れて、学習量に対して生成量が十分になるように調整している。スリープ時間をどの程度にすれば良いのかを決めるため、今…

AtCoder Beginner Contest 171

結果順位 3812th / 10526 パフォーマンス 856 レーティング 1784 → 1718(-66) 気が狂うほど何もわからない回だった。二夜連続の3桁パフォーマンスは精神に来る。先週が+49, +45で喜んでいたら今週-63,-66でひどい取り立てだ。借金取りだってもう少し良心的…

探索系NN

最近、「探索の仕方自体を学習する」手法について興味が出ている。AlphaZeroの手法をニューラルネットワーク + モンテカルロ木探索として分けて見た場合、前者は学習されるが後者は固定的なアルゴリズムとなっているため、ここを学習にすることができればよ…

要約全結合ネットワークにした場合、CNNの場合よりもレートが200ほど落ちてしまった。オセロにおいて終盤の評価が難しいのはゲームの性質による問題の可能性がある。背景オセロでの対局を検証していると、終盤での状態価値推定の精度が良くないのではない…