2019-06-13から1日間の記事一覧

優先度付き経験再生の実装・実験

要約 優先度付き経験再生はAlphaZero方式の学習でも効果がありそう。 背景 以前の記事でも軽く触れたが、優先度付き経験再生という手法がある。 大雑把に言うとリプレイバッファからのサンプリング確率を一様ランダムではなく優先度で重み付けするものである…