2020-11-01から1ヶ月間の記事一覧

Transformerを用いた探索的NNの学習(成功?編)

以下の続き。 前回は上手くいかなかった学習をなんとか多少は改善することができた。修士論文としてはとりあえずこの方針の結果で許してもらいたい、という気持ちです。 基本的な手法は冒頭で示した前回と変わらず、事前学習したモデルのPolicyが示す確率に…

教師あり学習をした後の強化学習

カテゴリカルモデルで教師あり学習をすると勝ち負け引分に相当する値の領域にしか教師信号が発生しないため分布が有効活用できない問題がある。 先の実験はCategoricalモデルでやったものなんですが、CategoricalモデルのValueを最終的な勝敗から教師あり学…