論文

Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

出典 記事中の図は論文から引用 概要 モデルを利用して直接方策を構築するのではなく、ロールアウト結果を方策を構築する際の追加情報として利用するI2Aという手法を提案 アーキテクチャ Imagination Core 環境モデルは現在の状態と行動から次の状態、報酬を…

Value Prediction Networkを読んだ際のメモ

出典 Thirty-first Conference on Neural Information Processing Systems (NeurIPS 2017) に採択。 ※この記事の図は全て論文中のもの 概要 抽象表現での遷移を予測して内部的にプランニングを行うValue Prediction Networkを提案 短い先読みでもDQNを上回っ…

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ

出典 読んだ理由 前回、コンピュータ将棋における現状の強化学習の課題として、特定の戦型に弱く、探索が偏っているのではないかという問題意識を持った。居飛車・振飛車のような方針からして大きく異なる戦法を探索できる必要があり、それは階層的強化学習…

DeepMDP: Learning Continuous Latent Space Models for Representation Learningを読んだ際のメモ

本当にただのメモだし意味もわからないままに式を写しているだけなので注意。特に数学の専門用語など誤訳も多そう。力のある人は自分で読んで。 出典 ICML2019に採択 概要 状態表現空間の中でのMDPとしてDeepMDPを定式化 報酬予測と次状態表現予測について適…

Temporal Difference Variational Auto-Encoderを読んだ際のメモ

出典 International Conference on Learning Representations 2019に採択。 所感 長くなってしまったので最初に所感を。 初めて読んだときはなんだかよくわからず挫折してしまったけど、4.2節あたりの気持ちをちゃんと読んでみると多少わかってきた。詳しい…

ELF OpenGo: An Analysis and Open Reimplementation of AlphaZeroを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択。arXivには2月ごろに投稿されていたので以前もちらっと読んだことはあったが、一応再確認。 概要 AlphaZeroのオープンソースによる再実験を行い、学習や推論における挙動について分析 詳細 実…

Learning Action Representations for Reinforcement Learningを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 前回に続いて行動の表現を学習する手法についてのものがICMLにあった。特に昨日の論文が行動ログから事前学習という形のものだったのに対して、より強化学習の学習ステップに明示…

The Natural Language of Actionsを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 うさぴょん外伝のアピール文書を読んでから行動表現の学習に興味が出ている。自然言語処理における分散表現の考え方に近いなと思いながらICML2019の論文一覧を見ていたところ、か…

Recurrent World Models Facilitate Policy Evolutionを読んだ

出典 David Ha and Jürgen Schmidhuber, “Recurrent World Models Facilitate Policy Evolution,” Advances in Neural Information Processing Systems 31, 2018. arXiv:https://arxiv.org/abs/1809.01999 World Models:https://arxiv.org/abs/1803.10122 概…

AlphaZeroに対するTDLeaf(λ)の適用 ~準備編~

TDLeaf()の出典:Jonathan Baxter, Andrew Tridgell, Lex Weaver, "TDLeaf(lambda): Combining Temporal Difference Learning with Game-Tree Search," Proceedings of the Ninth Australian Conference on Neural Networks (ACNN'98), Brisbane QLD, Februar…

Accelerating Self-Play Learning in Goを読んだ

出典 David J. Wu, "Accelerating Self-Play Learning in Go," arXiv preprint, arXiv:1902.10565v2[cs.LG], 2019 概要 AlphaZeroを高速化した。32GPU(V100)を使って1週間でトッププロレベルの性能を実現。 手法の詳細 ニューラルネットワークの学習(4章) 価…

The Predictron: End-To-End Learning and Planningを読んだ

出典 David Silver, Hado van Hasselt, Matteo Hessel, Tom Schaul and Arthur Guez, "The Predictron: End-To-End Learning and Planning," Proceedings of the 34th International Conference on Machine Learning, 2017. arXiv版には付録がついている。Op…

On Monte Carlo Tree Search and Reinforcement Learningを読んだ

出典 Tom Vodopivec, Spyridon Samothrakis and Branko Ster, "On Monte Carlo Tree Search and Reinforcement Learning," Journal of Artificial Intelligence Research, vol.60, pp.881-936, 2017 概要 MCTSと強化学習を統一的な観点から捉え直し、TD()法…