論文

MCTSnetの損失計算部

MCTSnetの解説は他にもある ので、そちらも参照されたし。この記事では損失計算部分にだけ注目して記述する。 arXiv版とOpenReview版は式番号が異なるので注意。OpenReview(ICLR2018)で一回Rejectになって、ICML2018に通っていて、arXivの最新版はそのICMLに…

MuZeroを読んだ感想

自分用にメモを書くなら「自分の研究テーマとほぼ同じ。差分は表現ベクトルの一致具合を損失に入れるかどうかくらい」で終わり。それくらい本当にもろ被りしている。そこまで突飛なアイデアではないので当然と言えば当然でもあるが。 Miacisのrepresentation…

An Investigation of Model-Free Planningを読んだメモ

出典 ICML(International Conference on Machine Learning)2019に採択。 図は全て当論文から引用。 概要 ConvLSTMを積み重ねたDeep Repeated ConvLSTM(DRC)というモデルを提案。プランニングが可能なエージェントが持つ性質を提案手法も持つことを実証 導入 …

Model-Based Reinforcement Learning for Atariを読んだメモ

出典 この文字色の部分は当記事筆者の感想 Introduction モデルフリー強化学習手法は学習に実時間にして数週間ほどのプレイが必要 一方人間は数分でAtariゲームを学習可能 人間は行動結果の予測ができるからだと推測→モデルベース強化学習 10万タイムステッ…

Learning Latent Dynamics for Planning from Pixelsを読んだメモ

出典 概要 Deep Planning Network(PlaNet)の提案 画像から環境モデルを学習 決定的および確率的遷移要素の両方を組み合わせる 潜在空間の中でマルチステップ学習を実行 潜在空間でのプランニングを行うことで高い性能 提案手法:Recurrent State Space Model …

Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

出典 記事中の図は論文から引用 概要 モデルを利用して直接方策を構築するのではなく、ロールアウト結果を方策を構築する際の追加情報として利用するI2Aという手法を提案 アーキテクチャ Imagination Core 環境モデルは現在の状態と行動から次の状態、報酬を…

Value Prediction Networkを読んだ際のメモ

出典 Thirty-first Conference on Neural Information Processing Systems (NeurIPS 2017) に採択。 ※この記事の図は全て論文中のもの 概要 抽象表現での遷移を予測して内部的にプランニングを行うValue Prediction Networkを提案 短い先読みでもDQNを上回っ…

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ

出典 読んだ理由 前回、コンピュータ将棋における現状の強化学習の課題として、特定の戦型に弱く、探索が偏っているのではないかという問題意識を持った。居飛車・振飛車のような方針からして大きく異なる戦法を探索できる必要があり、それは階層的強化学習…

DeepMDP: Learning Continuous Latent Space Models for Representation Learningを読んだ際のメモ

本当にただのメモだし意味もわからないままに式を写しているだけなので注意。特に数学の専門用語など誤訳も多そう。力のある人は自分で読んで。 出典 ICML2019に採択 概要 状態表現空間の中でのMDPとしてDeepMDPを定式化 報酬予測と次状態表現予測について適…

Temporal Difference Variational Auto-Encoderを読んだ際のメモ

出典 International Conference on Learning Representations 2019に採択。 所感 長くなってしまったので最初に所感を。 初めて読んだときはなんだかよくわからず挫折してしまったけど、4.2節あたりの気持ちをちゃんと読んでみると多少わかってきた。詳しい…

ELF OpenGo: An Analysis and Open Reimplementation of AlphaZeroを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択。arXivには2月ごろに投稿されていたので以前もちらっと読んだことはあったが、一応再確認。 概要 AlphaZeroのオープンソースによる再実験を行い、学習や推論における挙動について分析 詳細 実…

Learning Action Representations for Reinforcement Learningを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 前回に続いて行動の表現を学習する手法についてのものがICMLにあった。特に昨日の論文が行動ログから事前学習という形のものだったのに対して、より強化学習の学習ステップに明示…

The Natural Language of Actionsを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 うさぴょん外伝のアピール文書を読んでから行動表現の学習に興味が出ている。自然言語処理における分散表現の考え方に近いなと思いながらICML2019の論文一覧を見ていたところ、か…

Recurrent World Models Facilitate Policy Evolutionを読んだ

出典 David Ha and Jürgen Schmidhuber, “Recurrent World Models Facilitate Policy Evolution,” Advances in Neural Information Processing Systems 31, 2018. arXiv:https://arxiv.org/abs/1809.01999 World Models:https://arxiv.org/abs/1803.10122 概…

AlphaZeroに対するTDLeaf(λ)の適用 ~準備編~

TDLeaf()の出典:Jonathan Baxter, Andrew Tridgell, Lex Weaver, "TDLeaf(lambda): Combining Temporal Difference Learning with Game-Tree Search," Proceedings of the Ninth Australian Conference on Neural Networks (ACNN'98), Brisbane QLD, Februar…

Accelerating Self-Play Learning in Goを読んだ

出典 David J. Wu, "Accelerating Self-Play Learning in Go," arXiv preprint, arXiv:1902.10565v2[cs.LG], 2019 概要 AlphaZeroを高速化した。32GPU(V100)を使って1週間でトッププロレベルの性能を実現。 手法の詳細 ニューラルネットワークの学習(4章) 価…

The Predictron: End-To-End Learning and Planningを読んだ

出典 David Silver, Hado van Hasselt, Matteo Hessel, Tom Schaul and Arthur Guez, "The Predictron: End-To-End Learning and Planning," Proceedings of the 34th International Conference on Machine Learning, 2017. arXiv版には付録がついている。Op…

On Monte Carlo Tree Search and Reinforcement Learningを読んだ

出典 Tom Vodopivec, Spyridon Samothrakis and Branko Ster, "On Monte Carlo Tree Search and Reinforcement Learning," Journal of Artificial Intelligence Research, vol.60, pp.881-936, 2017 概要 MCTSと強化学習を統一的な観点から捉え直し、TD()法…