Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

論文

出典記事中の図は論文から引用概要モデルを利用して直接方策を構築するのではなく、ロールアウト結果を方策を構築する際の追加情報として利用するI2Aという手法を提案アーキテクチャ Imagination Core 環境モデルは現在の状態と行動から次の状態、報酬を…

2019-10-28

Value Prediction Networkを読んだ際のメモ

論文

出典 Thirty-first Conference on Neural Information Processing Systems (NeurIPS 2017) に採択。 ※この記事の図は全て論文中のもの概要抽象表現での遷移を予測して内部的にプランニングを行うValue Prediction Networkを提案短い先読みでもDQNを上回っ…

2019-10-28

AtCoder Beginner Contest 144

競技プログラミング

結果順位 109th / 5557 パフォーマンス 2266 レーティング 1872 → 1918(+46) 全完できたのでかなりパフォーマンスが良い値になった。余計な誤答がなければ100位以内になったかもしれなかったが、F問題を解けたのも運っぽいのでこんなもんだろう。 A - 9x9 …

2019-10-20

AtCoder Beginner Contest 143

競技プログラミング

結果 5完。E問題で12回の誤答と、ハマりにハマって大変なことになった。なんかレート更新がされていなくていつもの成績表が貼れない。 A - Curtain 問題文が理解できなかったが、結局こういうことを要求されているんだろうという推測を書いたら通った。提…

2019-10-06

AtCoder Grand Contest 039

競技プログラミング

結果順位 642nd / 3114 パフォーマンス 1676 レーティング 1917 → 1895(-22) A - Connection and Disconnection 2WA。まず一回目は「S一つを考えたときに必要な操作回数を数えて倍し、Sの末尾とSの先頭が同じなら回プラス」という方針。しかしこれは aabaaa…

2019-10-02

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ

論文

出典読んだ理由前回、コンピュータ将棋における現状の強化学習の課題として、特定の戦型に弱く、探索が偏っているのではないかという問題意識を持った。居飛車・振飛車のような方針からして大きく異なる戦法を探索できる必要があり、それは階層的強化学習…

水たまり

2019-10-01から1ヶ月間の記事一覧

Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

Value Prediction Networkを読んだ際のメモ

AtCoder Beginner Contest 144

AtCoder Beginner Contest 143

AtCoder Grand Contest 039

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ