論文

The Natural Language of Actionsを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 うさぴょん外伝のアピール文書を読んでから行動表現の学習に興味が出ている。自然言語処理における分散表現の考え方に近いなと思いながらICML2019の論文一覧を見ていたところ、か…

Recurrent World Models Facilitate Policy Evolutionを読んだ

出典 David Ha and Jürgen Schmidhuber, “Recurrent World Models Facilitate Policy Evolution,” Advances in Neural Information Processing Systems 31, 2018. arXiv:https://arxiv.org/abs/1809.01999 World Models:https://arxiv.org/abs/1803.10122 概…

AlphaZeroに対するTDLeaf(λ)の適用 ~準備編~

TDLeaf()の出典:Jonathan Baxter, Andrew Tridgell, Lex Weaver, "TDLeaf(lambda): Combining Temporal Difference Learning with Game-Tree Search," Proceedings of the Ninth Australian Conference on Neural Networks (ACNN'98), Brisbane QLD, Februar…

Accelerating Self-Play Learning in Goを読んだ

出典 David J. Wu, "Accelerating Self-Play Learning in Go," arXiv preprint, arXiv:1902.10565v2[cs.LG], 2019 概要 AlphaZeroを高速化した。32GPU(V100)を使って1週間でトッププロレベルの性能を実現。 手法の詳細 ニューラルネットワークの学習(4章) 価…

The Predictron: End-To-End Learning and Planningを読んだ

出典 David Silver, Hado van Hasselt, Matteo Hessel, Tom Schaul and Arthur Guez, "The Predictron: End-To-End Learning and Planning," Proceedings of the 34th International Conference on Machine Learning, 2017. arXiv版には付録がついている。Op…

On Monte Carlo Tree Search and Reinforcement Learningを読んだ

出典 Tom Vodopivec, Spyridon Samothrakis and Branko Ster, "On Monte Carlo Tree Search and Reinforcement Learning," Journal of Artificial Intelligence Research, vol.60, pp.881-936, 2017 概要 MCTSと強化学習を統一的な観点から捉え直し、TD()法…