強化学習における自分の興味範囲

　強化学習と一口に言ってもその範囲はとても広いので、自分はどこに興味があるのかを絞って考えたい。その点について改めて整理する。手法や工夫ではなく問題設定の方に着目する。

　まず、究極的な目標としては「実世界で動作できる知性を実現したい」となる。しかし、現実的に役に立つものを作りたいというよりも、知性を機械的に再現する手法を知りたいという気持ちの方が強い。

　現実的に有用なものを目指す場合、実世界と相互作用するボディの作り込みや、MLOpsのようなデータ収集と学習の仕組み作りを整備することが近道になりそうで、それは個人でやるには難しく、有益なことはどうせ企業がやるだろうとも思う。個人の趣味としてやるなら、実用性よりも納得を優先したい。

　生物は「他のマシンで学習したパラメータを脳内にコピーしてくる」ということはできず、個体として振る舞う独立したこの脳だけで学習する必要があると思われる。それを完全再現することはとても難しいだろうが、「この技術が洗練されていけば実現できそうだな」と納得できるようなものがわかると良い。

　環境準備の手軽さを鑑みて、題材自体はAtari等々のようなゲームとするのが現実的だろう。ゲームではやりつつも、先を見据える意味で以下のような4つの要素を念頭に置きたくなる。

オンライン強化学習
非分散学習
非エピソディック
非定常環境

オンライン強化学習

　データを予め収集しておいた中で学習するオフライン設定ではなく、探索のことも考える必要があるオンラインの強化学習に興味がある。探索以外にも、環境と相互作用をしていて今起こった失敗を（理屈上の最短で）いつ学習で取り込めるかという問題意識や、学習中も同じFPSで動き続けられるかといった話題もありそうだが、とりあえずはオンラインで学習できていれば良いとする。

非分散学習

　強化学習手法の中には、環境を並列でたくさん生成して相互作用の効率を上げるものがあるが、最終的な目標が現実世界との相互作用ということになると現実世界は一つしかないのでそのような手法には頼れなくなる。もちろん、シミュレータで並列的に事前学習してから現実世界に持ち込むというのは有力な手段なのだろうが、興味の範囲からは外れる。環境のモデル自体を学習して、それを内部的に並列に動かして学習するのは良い。最終的に相互作用する真の環境が一つだけであることが重要になる。

非エピソディック

　現実世界での振る舞いを考えると、明確なエピソード区切りはないものと考えた方が自然に思える。擬似的な再現としては、ゲーム系の環境として1回終わったらすぐ次が始まると想定するだけで良い。ただ、連続的にクリアできるような環境だと、報酬の割引率を適切に設定しないと報酬和自体がかなり大きくなっていってしまい学習に悪影響が出そうだ。このあたりの報酬の大きさの不安定性にも興味がある。

非定常環境

　結局、オンライン学習が求められるのは環境が非定常だからという側面が大きそうなので、評価する上ではそのような設定を準備するのが良さそう。この場合、環境が切り替わっても得られる報酬が落ちにくい、あるいはすぐ高い報酬に行けることが重要になるので、単純に最高スコアが高いことだけでなくサンプル効率が良いものが重要になる。

　上記を念頭にやっていけたらなという所存。