The Predictron: End-To-End Learning and Planningを読んだ

出典

　David Silver, Hado van Hasselt, Matteo Hessel, Tom Schaul and Arthur Guez, "The Predictron: End-To-End Learning and Planning," Proceedings of the 34th International Conference on Machine Learning, 2017.

　arXiv版には付録がついている。OpenReviewでの議論も参考になるはず。

概要

　環境モデルの学習から価値関数の学習までをend-to-endで行うモデルベース強化学習のアーキテクチャ、Predictronを提案。

手法の詳細

アーキテクチャ

　4つのパーツから構成

状態を状態表現へエンコードする部分 $\boldsymbol{\mathrm{s}} = f(s)$
環境のモデル $\boldsymbol{\mathrm{s}}', \boldsymbol{\mathrm{r}}, \boldsymbol{\gamma} = m(\boldsymbol{\mathrm{s}}, \beta)$
状態価値関数 $\boldsymbol{\mathrm{v}} = v(\boldsymbol{\mathrm{s}})$
Accumulator：上3パーツで計算した値を用いて内部的な報酬preturn $\boldsymbol{g}$ を予測する機構。 $k$ -ステップTD法やTD( $\lambda$ )に則った計算手法(論文中Firgure 1)

学習法

　実際の環境から得た報酬を教師信号として使う。 $k$ ステップ予測あるいは $\lambda$ 予測と実際の報酬の差について自乗誤差を損失とする。

　上の学習に加えて $k$ ステップ予測が $\lambda$ 予測と一致するように自乗誤差を損失とするConsistency updatesも行うことができる。外部の情報を使わずにモデルを洗練させられる。

実験

ランダム迷路

　ランダムに生成する迷路について2つのタスクを実行

決定論的な方策が到達したマスの軌跡を推定
- 到達したマスなら1、そうでないマスなら0を示すベクトル $\boldsymbol{g}$ を目標ベクトルとしてそれを推測
- 結果の例(Figure 3)
- マスを通った順序は与えられず、軌跡のみが与えられるのにかかわらず、モデルの出力からは順序のようなものが学習されていることがわかる
- 一番右の簡単な軌跡では2ステップのみで学習が行えている。
左上と右下が繋がっているか判定
- このタスクが全体的にどういう入出力をしているのかがわからなかった。迷路をそのまま入力しただけで時系列的な予測を伴ってこの問題を解けるのだろうか

　普通のRNNより精度が高く、また $k$ ステップ予測より $\lambda$ 予測の方が多少性能が良い(Figure 4)。

ビリヤードゲーム

　5フレーム分の入力から将来どのようなイベントが起こるかを予測するタスク。4つのボールについて、他のボールと衝突する、各象限にとどまるなど14のイベントを考え、それらについて5つの割引率{0, 0.5, 0.9, 0.98, 1.0}を考える計280通りの要素について予測を行う。普通のフィードフォワード型NNやRNNと比べて高精度(Figure 5)。

知見

Consistency updatesも入れた方が性能が良くなる(Figure 6)
タスクに応じて各探索深さへの重み付けが異なる
意思決定にも応用できる
- タスク2に関連してどの初期状態がボールを落としやすいか予測するタスクで普通のCNNよりも高精度

所感

discount rateも環境モデルに含めるというのは初めて見た。ステップごとに変える価値がどこまであるのかわからないし、それを環境モデル側が学習するべきものなのかもピンとこない。MDP(Markov Decision Process)ではなくMRP(Markov Reward Process)というのが大事なところなんだろうか。
環境モデルの遷移計算部分で行動を含めないモデル化にどれだけ価値があるのかがわからない。ノイズ $\beta$ がある意味で行動的な役割を果たしているのかもしれないが。
「内部的、抽象的な行動を用いて内部的にMDPを学習する」ことについて7章Conclusionのところで述べられており、重要な分野になるのではないかと感じる。