継続学習あたりの軽い調査

論文1 : Decision-RWKV

　この論文ではLifelong Learningの問題に対してDecision-RWKVを使って対処しようとしている。Decision-RWKV自体の理解もしたいとはいえちょっと後回しにして、まずは「2.4 Related Work on Lifelong Robot Learning」に触れる。ここではLifelong Learningを4つに分類している。

1. 正則化手法

　損失関数に正則化を導入して破滅的忘却を軽減する。特にElastic Weight Consolidation (EWC)が有名で、このカテゴリの手法はモデルサイズが増えたりしないというメリットがある。

2. メモリベースの手法

　リプレイバッファを使って過去のデータを保持しておいて再学習を行う。Experience Replay (ER)が代表例となる。（書いてないが補足 : 性能を出しやすいことがメリットで、追加の余計なメモリが必要なこと、データ保持の戦略や学習頻度の調整などが必要になることがデメリットだと思われる）

3. 勾配制約を用いる手法

　Gradient Episodic Memory (GEM) と、その高速化版であるA-GEMでは勾配を投影してどうのこうのとするらしい。Orthogonal Gradient Descent (OGD)だと古いタスクと直行するように勾配を調整する。立ち位置としては若干 (1)の正則化手法に近い気もする。

4. 拡張手法

　各タスクに対して新しいサブモジュールを導入していく。Additive Parameter Decomposition (APD)がある。

総評と補足

　LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learningなどに追加情報がある。

　このDecision-RWKVの論文自体ではリプレイバッファを利用している。やはりネットワークの工夫を入れた場合の初手などにまずやりやすいのはこのやり方なのだろう。

論文2 : Learning from One Continuous Video Stream

　こちらの論文では、行動は含まれていないが、ランダムシャッフルしない一連の動画から動画予測タスクを継続的に学習するという設定を行っているので気になった。Baby Learningという強い名前を与えているが、結果自体はそこまではっきりとしたものには思えなかった。

　手法自体を追うことは主眼ではないので、やはりこの論文についても2. Related workを見ていく。

Online learning from a single video stream

　The challenges of continuous self-supervised learning ではリプレイバッファが使用されている。

　リプレイバッファは継続的学習としてはあまり良い手法ではないとMaintaining Plasticity in Deep Continual Learningで主張されているようで、やはり主な問題点は使用するバッファのサイズに比例して使用メモリ等が増加することだと思われる。

Learning from a single video

　A critical analysis of self-supervision, or what we can learn from a single imageでは、十分なデータ拡張が使用されていれば、1 つの画像から自己教師によって良い特徴を学習できる可能性を示唆している。

　Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled videoでは1本の長い動画から自己教師あり学習をすることについて調査をしている。（Yuki M. Asanoが共通の著者になっている）

Continual learning

　動画ではなく画像の分類系の研究が多かったので割愛。

Representation learning to the rescue

　最近の継続学習に関する論文では、問題のいくつかは事前学習された特徴を使用することで緩和されると報告されている。

雑感

　動画系のタスクについてはかなり既存研究のまとめも充実していて参考になった。今回挙げたものの中からサーベイ系を中心に読んでみたい。

　感触としては、まぁ必然的に事前学習モデルからのスタートというのは常識になっていくのだろうし、リプレイバッファもメモリが許す範囲では使われるのだと思う。それ+αの工夫がどれだけ必要になってくるか、特に強化学習的なドメインで、というのが気になってくるところ。

　検証するタスクとしてもAtariゲームだけじゃなくMujocoとか触ってみるべきなのかなとは感じ始めてきた。ぼちぼちと。