2019-10-01から1ヶ月間の記事一覧

Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

出典 記事中の図は論文から引用 概要 モデルを利用して直接方策を構築するのではなく、ロールアウト結果を方策を構築する際の追加情報として利用するI2Aという手法を提案 アーキテクチャ Imagination Core 環境モデルは現在の状態と行動から次の状態、報酬を…

Value Prediction Networkを読んだ際のメモ

出典 Thirty-first Conference on Neural Information Processing Systems (NeurIPS 2017) に採択。 ※この記事の図は全て論文中のもの 概要 抽象表現での遷移を予測して内部的にプランニングを行うValue Prediction Networkを提案 短い先読みでもDQNを上回っ…

AtCoder Beginner Contest 144

結果 順位 109th / 5557 パフォーマンス 2266 レーティング 1872 → 1918(+46) 全完できたのでかなりパフォーマンスが良い値になった。余計な誤答がなければ100位以内になったかもしれなかったが、F問題を解けたのも運っぽいのでこんなもんだろう。 A - 9x9 …

AtCoder Beginner Contest 143

結果 5完。E問題で12回の誤答と、ハマりにハマって大変なことになった。 なんかレート更新がされていなくていつもの成績表が貼れない。 A - Curtain 問題文が理解できなかったが、結局こういうことを要求されているんだろうという推測を書いたら通った。 提…

AtCoder Grand Contest 039

結果 順位 642nd / 3114 パフォーマンス 1676 レーティング 1917 → 1895(-22) A - Connection and Disconnection 2WA。まず一回目は「S一つを考えたときに必要な操作回数を数えて倍し、Sの末尾とSの先頭が同じなら回プラス」という方針。しかしこれは aabaaa…

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ

出典 読んだ理由 前回、コンピュータ将棋における現状の強化学習の課題として、特定の戦型に弱く、探索が偏っているのではないかという問題意識を持った。居飛車・振飛車のような方針からして大きく異なる戦法を探索できる必要があり、それは階層的強化学習…