ICML2021のPoster採択論文一覧を眺める

　なんかoralは上手く反応しないのでPosterだけ。AbstだけGoogle翻訳にかけて、明らかに誤訳そうなところだけは少し手直しして貼り付けておく。結局これが手間と後で見返したとき便利さのバランスとして適当そう。

MuZero系

多くの重要な現実世界の問題には、高次元、連続、またはその両方のアクションスペースがあり、考えられるすべてのアクションを完全に列挙することは不可能です。代わりに、ポリシーの評価と改善を目的として、アクションの小さなサブセットのみをサンプリングできます。この論文では、そのようなサンプリングされたアクションサブセットに対するポリシー評価と改善について原則的な方法で推論するための一般的なフレームワークを提案します。このサンプルベースのポリシー反復フレームワークは、原則として、ポリシー反復に基づく強化学習アルゴリズムに適用できます。具体的には、サンプリングされたアクションを計画することにより、任意に複雑なアクション空間を持つドメインで学習できるMuZeroアルゴリズムの拡張であるSampledMuZeroを提案します。このアプローチを、囲碁の古典的なボードゲームと、DeepMind ControlSuiteとReal-WorldRLSuiteの2つの連続制御ベンチマークドメインで示します。

　4月に出ていたSampled MuZeroというやつが通っている。当時読んだときはMuZeroの真っ当な拡張という印象ではあった。まぁサンプリングであってもそれなりの試行回数があればある程度動きそうという感覚はあり、ちゃんと上手くいくんだなくらいで流している。もしかしたらもっと重要なことが書いてあるのかもしれないが。

モデルベースのRLの分野における最近の開発は、さまざまな環境、特に計画が不可欠な環境で成功していることが証明されています。ただし、そのような成功は、決定論的な完全に観察された環境に限定されています。確率的で部分的に観察可能な環境を処理する新しいアプローチを提示します。私たちの重要な洞察は、離散オートエンコーダーを使用して、確率的環境でのアクションの複数の可能な効果をキャプチャすることです。モンテカルロ木探索の確率的変形を使用して、エージェントのアクションと環境の応答を表す離散潜在変数の両方を計画します。私たちのアプローチは、対戦相手が環境の一部と見なされるチェスの確率論的解釈において、オフラインバージョンのMuZeroを大幅に上回っています。また、私たちのアプローチが、大規模な視覚的観察と部分的な観察可能性を備えた一人称3D環境であるDeepMindLabに対応していることも示しています。

　確率的な環境に対応するために、離散Auto Encoderを使って確率的サンプリングをしつつ環境遷移を行って、MCTSもちょっと変形して探索的なことをしようという内容だと認識している。アイデアとして自然な気がするので有力そう。いつかちゃんと読む。

ゲーム系

StarCraft IIでGrandMasterレベルに到達するAIであるAlphaStarは、複雑なリアルタイムストラテジー（RTS）ゲームで深層強化学習が何を達成できるかを示す注目すべきマイルストーンです。ただし、ゲーム、アルゴリズム、システムの複雑さ、特に必要な膨大な量の計算は、コミュニティがこの方向でさらに調査を行う上での大きな障害です。深層強化学習エージェント、スタークラフトコマンダー（SCC）を提案します。計算が桁違いに少なく、テストマッチでGrandMasterプレーヤーを、ライブイベントでトッププロプレーヤーを打ち負かす最高の人間のパフォーマンスを示しています。さらに、それは様々な人間の戦略に対して強い頑健性を示し、人間の遊びからは見えない新しい戦略を発見します。このホワイトペーパーでは、StarCraftIIフルゲームの効率的な模倣学習と強化学習に関する重要な洞察と最適化について説明します。

　StarCraftというゲームがどんなもんかピンときてないんだけど、妙に題材にされているし、なんか深層強化学習でやりやすい要素があるのだろうか。ゲームとして違いすぎるので将棋に活かせるような話がどれだけあるかはわからないけど、とても時間が余っていたら読んでみても良いかも。

ゲームは現実世界を抽象化したものであり、人工エージェントは他のエージェントと競争して協力することを学びます。さまざまな完全情報ゲームと不完全情報ゲームで大きな成果が得られていますが、3人用のカードゲームであるDouDizhu（別名Fighting the Landlord）はまだ解決されていません。 DouDizhuは非常に挑戦的なドメインであり、競争、コラボレーション、不完全な情報、広い状態空間、そして特に合法性がターンごとに大幅に異なる可能性のあるような大量の行動セットといった難点があります。残念ながら、現代の強化学習アルゴリズムは主に単純で小さなアクションスペースに焦点を合わせており、当然のことながら、DouDizhuでは満足のいく進歩を遂げていないことが示されています。この作業では、概念的にシンプルでありながら効果的なDouDizhu AIシステム、つまりDouZeroを提案します。これは、ディープニューラルネットワーク、アクションエンコーディング、および並列アクターを使用して従来のモンテカルロ法を強化します。 DouZeroは、4つのGPUを備えた単一のサーバーでゼロから始め、トレーニングの数日で既存のすべてのDouDizhu AIプログラムを上回り、344のAIエージェントの中でBotzoneリーダーボードで1位にランクされました。 DouZeroを構築することにより、複雑なアクションスペースを持つハードドメインで強力な結果を提供するために、従来のモンテカルロ法を作成できることを示します。コードとオンラインデモはこのURLでリリースされており、この洞察が将来の作業の動機付けになることを期待しています。

　これまた知らないゲームだけど、多人数カードゲームとは難しそうな題材だ。こういうのは革命的な工夫を論文から読み取るというよりも、細かいゲームへの適応方法とか、分析方法とか、そういうところが学びになったりならなかったりしそう。

環境モデルが関わっていそうな強化学習

正則化されたポリシーの最適化と補助的な損失としてのモデル学習を組み合わせた新しいポリシーの更新を提案します。提案手法（以下、Muesli）は、アタリでのMuZeroの最先端のパフォーマンスと一致します。特に、Muesliは詳細検索を使用せずにこれを行います。ポリシーネットワークと直接連携し、モデルフリーのベースラインに匹敵する計算速度を備えています。 Atariの結果は、広範なアブレーション、および連続制御と9x9囲碁に関する追加の結果によって補完されます。

　なんか大渡さんが実装していたのをちらっと眺めたことはあるけど、それだけなのであまり深くはわかっていない。探索系となるとちょっとは気になるな。

強化学習アルゴリズムのMuesliを実装しました。
（探索が必須だと思われていた）囲碁9路で探索なしでそこそこ強くなることが示されたアルゴリズムです。https://t.co/aAlMiMNUZA
— Katsuki Ohto (@kohto_ai) 2021年11月4日

計画-大規模な問題の構造を分析し、それを相互に関連するサブ問題に分解する能力-は、人間の知性の特徴です。深層強化学習（RL）は、比較的単純な制御タスクを解決するための大きな期待を示していますが、ますます複雑化する環境を処理するために、既存の深層RLパラダイムに計画を最適に組み込む方法は未解決の問題です。 1つの著名なフレームワークであるモデルベースRLは、世界モデルを学習し、段階的な仮想ロールアウトを使用して計画を立てます。このタイプの世界モデルは、計画期間が長くなるとすぐに現実から逸脱するため、長期計画で苦労します。エージェントに時間的に拡張された推論を行う能力を与える世界モデルをどのように学ぶことができますか？この作業では、スパースなマルチステップ遷移で構成されるグラフ構造の世界モデルを学習することを提案します。グラフ上のノードとしてゴール空間全体に（到達可能性の観点から）散在する潜在的なランドマークを学習するための新しいアルゴリズムを考案します。この同じグラフでは、エッジはQ関数から抽出された到達可能性の推定値です。ロボット操作からナビゲーションに至るまでのさまざまな高次元連続制御タスクで、L3Pという名前の方法が以前の作業を大幅に上回り、モデルフリーRLの堅牢性と一般化の両方を活用できる唯一の方法であることが多いことを示します。グラフ検索アルゴリズムの。私たちの仕事は、強化学習におけるスケーラブルな計画に向けた重要なステップであると信じています。

　パッと概要見た感じではアイデア的には良さそう。世界モデルと、行動決定の階層性、目標の抽象化あたりは強化学習の重要な点になるとは思うので、この論文の手法かどうかはともかく、なにか対策を入れるのがスタンダードにはなると勝手に予想している。

画像などの生の高次元観測のみを利用しながら将来を計画する機能は、自律エージェントに幅広い機能を提供できます。将来の行動を直接計画する視覚モデルベースの強化学習（RL）手法は、短期間の推論のみを必要とするタスクで印象的な結果を示していますが、これらの手法は時間的に拡張されたタスクで苦労しています。アクションの効果は時間の経過とともに大きく複雑になり、最適化するのが難しいため、アクションだけでなく状態のシーケンスを計画することで、長期的なタスクを解決する方が簡単であると主張します。これを達成するために、最適制御文献で長期的なタスクで良好な結果を示したコロケーションのアイデアを利用し、学習した潜在状態空間モデルを利用して画像ベースの設定に適応させます。結果として得られる潜在選点法（LatCo）は、潜在状態の軌道を最適化します。これは、報酬がまばらで長期的な目標を持つタスクで、ビジュアルモデルベースのRLに対して以前に提案されたShooting法よりも優れています。

　人間が1秒単位のことも1年単位のことも考えられたりするのすごそうなことに思えるが、まぁどうにかすればなんとかできてしまう話ではあるのかなぁという気もする。多分時間というのは環境の変化と結びついているところが大きそうだから環境モデルとの関連は重要そうだよねーとは思いつつ、これは環境モデルというよりは表現空間よりの話なのかな？ちゃんと読んでみないとわからないところ。

強化学習における表現学習

画像ベースの環境で効果的な表現を学習することは、サンプルの効率的な強化学習（RL）にとって非常に重要です。残念ながら、RLでは、表現学習はエージェントの探索的経験と混同されます。有用な表現を学習するには多様なデータが必要ですが、効果的な探索は一貫性のある表現でのみ可能です。さらに、タスク全体を一般化するだけでなく、効率的なタスク固有のトレーニングのためにダウンストリームの探索を加速する表現を学びたいと思います。これらの課題に対処するために、Proto-RLを提案します。これは、表現学習とプロトタイプ表現による探索を結び付ける自己監視フレームワークです。これらのプロトタイプは、同時に、エージェントの探索的経験の要約として、また観察を表すための基礎として機能します。ダウンストリームのタスク情報がない環境で、これらのタスクに依存しない表現とプロトタイプを事前にトレーニングします。これにより、一連の困難な継続的制御タスクに関する最先端のダウンストリームポリシー学習が可能になります。

　強化学習における表現学習部分と方策決定部分はある程度分けてやれるんじゃないかという派閥の一つに見える。プロトタイプを作るというの、数個上でもあった表現空間でのランドマークというのとちょっと近かったりする？

　実験はDeepMind Control Suiteでやっているらしい。そういえばMuJoCoが無料で使えるようになったのでこのタスクでの検証っていうのはわりと自分のPCでもできるはずではあるのか。

計装されていない(精密でない？元の語"uninstrumented")環境での直接的な相互作用を介して自律的に行動を学習する能力は、生産性を向上させたり、家のような構造化されていない環境でケアを提供したりできるジェネラリストロボットにつながる可能性があります。このような計装されていない設定では、車載カメラやジョイントエンコーダーなど、ロボットの固有受容センサーのみを使用した操作が保証されます。これは、高次元性と部分的な可観測性の問題により、ポリシーの学習が困難になる可能性があります。強化学習の表現としてRRL：Resnetを提案します。これは、固有受容感覚の入力から直接複雑な行動を学習できる、簡単で効果的なアプローチです。 RRLは、事前にトレーニングされたResnetから抽出された特徴を標準の強化学習パイプラインに融合し、州から直接学習するのに匹敵する結果を提供します。最先端の方法が大幅な進歩を遂げることができない、シミュレートされた器用な操作ベンチマークでは、RRLは接触が豊富な動作を提供します。 RRLの魅力は、表現学習、模倣学習、強化学習の分野からの進歩をまとめるという単純さにあります。複雑な高次元領域であっても、視覚入力から直接行動を学習し、状態から直接学習するパフォーマンスとサンプル効率を一致させることにおけるその有効性は明らかではありません。

　表現抽出器としてResNet使った方がいいんじゃねって、それはそうじゃねという気はするけど、なにかすごく新規的なことが言われているのかよくわからない。まぁでもちゃんと検証したという話ならそれはそれで重要なのかな。

画像からの深層強化学習（RL）における報酬駆動型特徴学習の制限を克服するために、表現学習をポリシー学習から分離することを提案します。この目的のために、Augmented Temporal Contrast（ATC）と呼ばれる新しい教師なし学習（UL）タスクを導入します。これは、畳み込みエンコーダーをトレーニングして、画像の拡張とコントラスト損失を使用して、短い時間差で分離された観測のペアを関連付けます。オンラインRL実験では、ATCのみを使用してエンコーダーをトレーニングすると、ほとんどの環境でエンドツーエンドのRLと一致するか、それよりも優れていることがわかります。さらに、専門家のデモンストレーションでエンコーダーを事前トレーニングし、RLエージェントで重みを凍結して使用することにより、いくつかの主要なULアルゴリズムのベンチマークを行います。 ATCでトレーニングされたエンコーダーを使用しているエージェントは、他のすべてのエージェントよりもパフォーマンスが優れていることがわかります。また、複数の環境からのデータでマルチタスクエンコーダーをトレーニングし、さまざまなダウンストリームRLタスクへの一般化を示します。最後に、ATCのコンポーネントをアブレーションし、新しいデータ拡張を導入して、RLで拡張が必要な場合に、事前にトレーニングされたエンコーダーからの（圧縮された）潜像の再生を可能にします。私たちの実験は、DeepMind Control、DeepMind Lab、およびAtariの視覚的に多様なRLベンチマークにまたがっており、完全なコードはこのURLで入手できます。

　時間的な近さで対比学習をさせるというのは、将棋とかで少し考えたことがある。しかしせっかく時系列的な要素があるなら環境遷移という形で学習させたくなる気もする？対比学習はそれはそれで面白そうな内容の一つではあるのだけど。

強化学習その他

強化学習におけるクレジットの割り当ては、将来の報酬に対する行動の影響を測定する問題です。特に、これにはスキルと運を分ける必要があります。報酬に対する行動の影響を、外部要因およびその後の行動の影響から解きほぐします。これを達成するために、因果関係理論からの反事実の概念をモデルフリーのRLセットアップに適応させます。重要なアイデアは、軌道から関連情報を抽出することを学習することにより、将来のイベントで価値関数を調整することです。次に、これらを将来の条件付きベースラインおよびポリシー勾配アルゴリズムの批評家(Critic)として使用することを提案し、エージェントのアクションに関する情報を含まないように後知恵情報を制約することで偏りをなくしながら、分散が明らかに低い有効で実用的なバリアントを開発します。いくつかの実例となる問題について、アルゴリズムの有効性と妥当性を示します。

　反実仮想という言葉が最近少し気になりつつあるので釣られてしまった。とはいえそういう話が実用性の高いタスクに対して現状ものすごく有効という印象はなく……。強化学習に関する論文はどのタスクで検証したかが重要(トイプロブレムでの検証なのか、Atari系のゲームか、ボードゲームか、ロボット的シミュレーションかで話が結構違う)ので、そこについてだけチラッと論文の中身を見てみたけどトイプロブレムっぽかったかな。

強化学習の探索は困難な問題です。最悪の場合、エージェントは状態空間のどこにでも隠されている可能性のある高報酬の状態を検索する必要があります。エージェントに成功した結果の例が提供される、より扱いやすいクラスのRL問題を定義できますか？この問題設定では、状態を成功または失敗として分類するように分類器をトレーニングすることにより、報酬関数を自動的に取得できます。適切に訓練された場合、そのような分類器は、良好な状態への進歩を促進し、補正された探査ボーナスを提供する、整った客観的Landscapeを提供することができます。この作業では、不確実性を意識した分類器が、探索を奨励し、前向きな結果に向けた指示されたガイダンスを提供することによって、困難な強化学習の問題を解決できることを示します。正規化された最尤（NML）分布を計算するための償却手法に基づいて、これらのキャリブレーションされた不確実性を意識した分類器を取得するための新しいメカニズムを提案します。これを扱いやすくするために、メタ学習を使用してNML分布を計算するための新しい方法を提案します。結果として得られるアルゴリズムは、カウントベースの探索方法と報酬関数を学習するための以前のアルゴリズムの両方に多くの興味深い接続を持ち、同時に目標に向けてより効果的なガイダンスを提供することを示します。私たちのアルゴリズムが、以前の方法では困難または不可能であることが判明した、多くの困難なナビゲーションおよびロボット操作タスクを解決することを示します。

　内発的動機づけとどのあたりが違いそうなのかはAbst読んだだけではイマイチ判然としない感じではあるけど、本当に疎な報酬のみから強化学習をやっていくのはやや無謀なのではないかと思うことも度々あり、この手の話題も少しはさらってみたい気分。

目標条件付き強化学習は、エージェントに多種多様なスキルを与えますが、より時間的に拡張された推論を必要とするタスクを解決するのに苦労することがよくあります。この作業では、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案します。想像されたサブゴールは、ポリシーとその批評家と同時に訓練される別の高レベルのポリシーによって予測されます。この高レベルのポリシーは、到達可能性メトリックとして値関数を使用して、目標の途中で中間状態を予測します。これらのサブゴールに明示的に到達するためのポリシーは必要ありません。代わりに、それらを使用して事前ポリシーを定義し、この事前ポリシーをKL制約付きポリシー反復スキームに組み込んで、学習を高速化および正規化します。想像されたサブゴールは、ポリシーの学習中に使用されますが、学習されたポリシーのみを適用するテスト時間には使用されません。複雑なロボットナビゲーションおよび操作タスクに対するアプローチを評価し、既存の方法を大幅に上回っていることを示しています。

　サブゴールの作成とか階層的強化学習とか、そういうのも時間方向の抽象化の一つではあるっぽい。とはいえそれをベタにやっていくというよりも、なんか認知的な基盤の上で曖昧にやっていくのが強化学習の今後の方向性になるんじゃないかと個人的には思っている。

継続学習・生涯学習

継続的な学習（多くのタスクを順番に学習する能力）は、人工学習システムにとって重要です。しかし、ディープネットワークの標準的なトレーニング方法は、新しいタスクを学習すると以前のタスクの知識が消去されるという壊滅的な忘却に悩まされることがよくあります。壊滅的な忘却は問題にラベルを付けますが、タスク間の干渉の理論的な理由は不明なままです。ここでは、教師と生徒の設定で継続的な学習を研究することにより、理論と実践の間のこのギャップを狭めることを試みます。教師と生徒のセットアップにおける2層ネットワークでの以前の分析作業を複数の教師に拡張します。各教師を使用して異なるタスクを表現し、教師間の関係が、タスクが切り替わったときに生徒が示す忘却と転送の量にどのように影響するかを調査します。最近の研究と一致して、タスクが類似の機能に依存している場合、中間のタスクの類似性が最大の忘却につながることがわかりました。ただし、機能の類似性は、タスクを関連付けることができる1つの方法にすぎません。教師と生徒のアプローチにより、読み出し（非表示から出力への重み）および機能（入力から非表示への重み）のレベルでタスクの類似性を解きほぐすことができます。両方のタイプの類似性、初期転送/忘却率、最大転送/忘却、および長期転送/忘却の間に複雑な相互作用が見られます。一緒に、これらの結果は壊滅的な忘却に寄与する多様な要因を明らかにするのに役立ちます。

　ニューラルネットワークの破滅的忘却についての研究。そもそも「タスクが類似の機能に依存している場合、中間のタスクの類似性が最大の忘却につながる」というのを知らなかったな。タスクの違いというか、強化学習での状況が少し異なる場合とかでもこういう問題って起きていないんだろうか。

多様なタスクにわたる効果的な生涯学習には、多様な知識の伝達が必要ですが、無関係な知識の伝達は、干渉や壊滅的な忘却につながる可能性があります。深いネットワークでは、適切な粒度の知識を転送することは転送メカニズムと同じくらい重要であり、タスク間の関係によって推進される必要があります。最初に、いくつかの現在の深層学習アーキテクチャの生涯学習パフォーマンスが、適切なレイヤーで転送することによって大幅に改善できることを示します。次に、期待値最大化（EM）メソッドを開発して、適切な転送構成を自動的に選択し、タスクネットワークの重みを最適化します。このEMベースの選択的転送は非常に効果的であり、いくつかの生涯にわたるオブジェクト分類シナリオの3つのアルゴリズムで示されているように、すべてのタスクの転送パフォーマンスと壊滅的な忘却のバランスを取ります。

　生涯学習(Lifelong Learning)について、知識伝達の粒度？あたりの工夫を入れて改善するなどの話らしい。この分野も気になっているので最新の動向を一本くらいは追ってみたい。

この論文では、ベイズ推定フレームワークに生成的正則化を追加することにより、壊滅的な忘却を克服するための新しい方法を提案します。ベイジアン法は、継続的な学習のための一般的なフレームワークを提供します。エネルギーベースモデルとランジュバン動力学サンプリングを活用して各タスクで学習した機能を強化することにより、特定のすべての分類モデルの生成正則化項をさらに構築できます。識別的損失と生成的損失を組み合わせることにより、提案された方法がさまざまなタスクで最先端の方法よりも優れており、継続的な学習における壊滅的な忘却を回避することを経験的に示します。特に、提案された方法は、Fashion-MNISTデータセットで15％以上、CUBデータセットで10％以上ベースライン方法を上回っています。

　こういう方向からのアプローチは自分が別に数学詳しくないのでよくわからない気分になりがち。Fashion-MNISTでの検証とかってどうなんだろう。継続学習の良い測り方みたいなの全然知らないな。

　Tutorialでもこの手の話題があったみたい。

その他

宝くじの仮説（LTH）は、密なネットワークの当選チケット（スパースだが重要なサブネットワーク）の存在を明らかにします。これは、ランダムな初期化とは別にトレーニングして、後者の精度に一致させることができます。ただし、当選チケットを見つけるには、特に大規模なデータセット（ImageNetなど）で、train-prune-retrainプロセスで面倒な計算が必要になり、実際のメリットが制限されます。このホワイトペーパーでは、完全なトレーニングセットを使用するのではなく、プルーニング対応クリティカルセット（PrACセット）と呼ばれる特別に選択されたデータのサブセットのみを使用して、宝くじをより効率的に見つけるための新しい視点を探ります。 PrACセットの概念は、深いネットワークにはトレーニング中に覚えるのが難しいか、剪定中に忘れやすいサンプルがあるという最近の観察に触発されました。したがって、PrACセットは、高密度モデルの最も困難で有益な例をキャプチャすると仮定されます。非常にコンパクトなPrACセットで高密度ネットワークをトレーニングおよびプルーニングすることで、高品質の当選チケットを見つけることができます。これにより、チケット検索プロセスのトレーニングの反復を大幅に節約できます。広範な実験により、さまざまなデータセットとネットワークアーキテクチャにわたる提案が検証されます。具体的には、CIFAR-10、CIFAR-100、およびTiny ImageNetで、有効なPrACセットをトレーニングセットサイズの35.32％〜78.19％に配置します。さらに、対応する高密度ネットワークで同じ競争力のある当選チケットを取得できますが、トレーニングの反復回数はそれぞれ最大82.85％〜92.77％、63.54％〜74.92％、76.14％〜86.56％節約できます。重要なのは、見つかったPrACセットがさまざまなネットワークアーキテクチャ間で再利用可能であることを示しています。これにより、PrACセットを見つけるための追加コストを償却し、効率的な宝くじの検索のための実用的な体制を実現できます。

　データセットのうち重要そうなものだけ取り出してきても宝くじの判別が上手くできるので高速にサイクル回せて良さそうという主張をしているように見えた。

　この論文に限らず、画像データセットだと学習初期ですぐ判別できるデータ点と、暗記する必要がある難しいデータ点があると言われているような気がするけど、ボードゲームだとどうなんだろう。単なる難易度というよりも、現状の方策で即負けになるような読み抜けをこそ埋める必要がある気がしていて、そこが強化学習の重要性に繋がっているような気がするんだけど(既存の棋譜で教師あり学習したときは、損失値はそこそこ良くなるのに読み抜け多発してどうにも強くならなかった)。

バックプロパゲーションを使用した深部残余ニューラルネットワーク（ResNets）のトレーニングには、ネットワークの深さに対して直線的に増加するメモリコストがあります。この問題を回避する方法は、リバーシブルアーキテクチャを使用することです。この論文では、勢い(Momentum)の項を追加することにより、ResNetのフォワードルールを変更することを提案します。結果として得られるネットワークである運動量残余ニューラルネットワーク（Momentum ResNets）は、可逆です。以前の可逆アーキテクチャとは異なり、既存のResNetブロックのドロップイン置換として使用できます。 Momentum ResNetsは、微小ステップサイズレジームで2階常微分方程式（ODE）として解釈でき、運動量を追加することでMomentumResNetsの表現能力がどのように漸進的に増加するかを正確に特徴付けることができます。私たちの分析によると、Momentum ResNetsは乗法係数までの線形マッピングを学習できますが、ResNetsは学習できません。固定小数点への収束が必要な設定を最適化するための学習では、既存の可逆アーキテクチャが失敗する一方で、私たちの方法が成功することを理論的および経験的に示します。 CIFARとImageNetで、Momentum ResNetsはResNetsと同じ精度でありながら、メモリフットプリントがはるかに小さいことを示し、事前にトレーニングされたMomentumResNetsがモデルの微調整に有望であることを示します。

　面白そうではあるんだけどこれがスタンダードになっていくってことがあり得るのか？という気がしないでもない。

注意メカニズムは、長期記憶を必要とするシーケンスモデリングタスクで有望な結果を示しています。最近の研究では、メモリの保存と保存の計算コストを削減するメカニズムが調査されました。ただし、過去のすべてのコンテンツを覚えておくことが等しく重要であるとは限りません。最も重要な情報を保持し、無関係な情報を期限切れにすることを学習する方法であるExpire-Spanを提案します。この記憶の忘却により、以前のタイムステップのすべての状態が保持されるわけではないため、Transformersは数万を超える以前のタイムステップに効率的に参加できるように拡張できます。 Expire-Spanは、モデルが重要な情報を識別して保持するのに役立ち、この機能に挑戦するように特別に設計された強化学習タスクで強力なパフォーマンスを達成できることを示します。次に、Expire-Spanが数万のサイズのメモリに拡張できることを示し、文字レベルの言語モデリングやフレームごとの移動オブジェクトタスクなどの非常に長いコンテキストタスクに新しい最先端を設定します。最後に、既存のアプローチと比較したExpire-Spanの効率を分析し、トレーニングが速く、メモリの使用量が少ないことを示します。

　Transformerによる言語モデルで重要情報だけを後に残しつつ推論していく？そんなことがあっさり可能なのかどうかよくわからないけど、中短期的記憶は強化学習でも重要そうなのでちょっと興味がある。読んでみたい。

機械エージェントが実際の環境で人間とうまく対話するには、人間の精神生活についての理解を深める必要があります。直感的な心理学、つまり観察可能な行動を促進する隠れた精神的変数について推論する能力は、自然に人々にもたらされます。言語前の乳児でさえ、エージェントが制約を与えられた目標を達成するために効率的に行動することを期待して、エージェントをオブジェクトから区別できます。他のエージェントについて推論する機械エージェントへの最近の関心にもかかわらず、そのようなエージェントが人間の推論を推進するコア心理学の原則を学習または保持するかどうかは明らかではありません。直感的な心理学に関する認知発達研究に触発され、手続き的に生成された3Dアニメーションの大規模なデータセットであるAGENT（Action, Goal, Efficiency, coNstraint, uTility）を提示します。これは、コアとなる直感的な心理学の主要な概念を精査する4つのシナリオ（目標の好み、行動の効率、観察されない制約、およびコストと報酬のトレードオフ）を中心に構成されています。 AGENTを人間の評価で検証し、一般化を強調する評価プロトコルを提案し、ベイズ逆計画と心の理論ニューラルネットワークに基づいて構築された2つの強力なベースラインを比較します。私たちの結果は、人間レベルでコア直感心理学の設計されたテストに合格するには、モデルは、ユーティリティ計算とオブジェクトと物理学のコア知識を組み合わせて、エージェントが計画する方法の表現を取得または組み込む必要があることを示唆しています。

　他者のメンタルモデルを考慮するというのは少し気になっているが、本質的には環境モデルの学習により獲得されて欲しいものなのかなという気もする。

プログラム合成や文書要約などの多くのシーケンス学習タスクでは、重要な問題は、可能な出力シーケンスの広いスペースを検索することです。特に検索を目的とした出力の表現を学習することを提案します。目的の出力を指定するのに十分なリッチでありながら、検索をより効率的にするのに十分コンパクトです。個別の潜在コードは、高度な組み合わせ検索戦略を自然に可能にするため、この目的には魅力的です。潜在コードは、自己監視学習原理を使用して学習されます。この原理では、最初に離散オートエンコーダーが出力シーケンスでトレーニングされ、次に結果の潜在コードがエンドツーエンドシーケンス予測タスクの中間ターゲットとして使用されます。これらの洞察に基づいて、\ emph {潜在プログラマー}を紹介します。これは、最初に入出力例から個別の潜在コードを予測し、次にターゲット言語でプログラムを生成するプログラム合成方法です。文字列変換プログラムの合成と自然言語記述からのプログラムの生成という2つのドメインで潜在プログラマーを評価します。離散潜在表現が合成精度を大幅に向上させることを示します。

　コード生成についても少し気になっているので記録しておく。離散AutoEncocerちょろちょろ見かけるのでわりと重要技術ではあるのかもしれない。

所感

　ちょっと今はやりたいテーマがぼんやりとしているので、論文タイトルがズラッと並んでいるところを眺めて自分がどういうものに惹かれるのかという点について検証してみたくなった。

　相変わらず環境モデル的な強化学習はつい拾ってしまう。ボードゲームは部分的にはもういいんじゃないという気がするところはありつつ、とはいえもちろん解決されていない話も多いのでやる価値は十分にある。

　ニューラルネットワークの記憶的なところに少し興味があり、継続学習やら長い系列データへの対処やらは何本かでいいから読んでみたいところではある。ボードゲームだと「AIは定跡を暗記しているだけ」みたいな、まぁ的外れだとは思う批判があったりするわけだけど、ニューラルネットワークだとそれってあながち間違いとも言えないんじゃないかと考え直すところがなくもない。法則の学習とかができていることを示すには、やっぱり探索的なことがニューラルネットワークの内部でできていてほしいところ？