週記 20231218~20231224

読んだ本

今井むつみ,秋田喜美『言語の本質-ことばはどう生まれ、進化したか』

　言語学には特に詳しくないし思想も持っていないのでオノマトペについて語られるあれこれは素直にそう思える。個人的に興味を惹かれたのはアブダクション推論部分についての仮説で、ちょうどLLMは同じ知識を逆転した形式で問うと精度が落ちるという話とリンクするのではないか。外れているかもしれなくとも勝手に外挿して当てはめてみようとした方が学習効率が高そう。でもそれをどうやって機械で実現する？

書いたもの

断想：系列入力ベースの強化学習

　補足としては、「対策3：入力系列を圧縮する」というものもある。たとえば将棋の盤面を9x9 = 81トークンとしてずっと扱うのは流石に無駄が多い。もっと少ないトークン数で局面を十全に表すことができそう。おそらく、ここでのトークンは直接Policy, Valueを計算できるほど抽象化された分散状態じゃなくて良いので、局面を一意に指定・復元できる情報があれば良い（？）

やっていること

　強化学習の実装周りは、強化学習が想像以上に難しくて撤退戦という趣になっている。とにかくちゃんと学習できることを確認できる地点まで戻るために、グリッド世界をGym形式環境として書き直し、Stable Baseline3の既存実装を使って学習ができるかどうか、というところまで戻ってきた。強化学習をやるならGymから逃げられない！

　一応学習はできるらしい。上手くいくPPOとDQNのデフォルトパラメータで10回回して、安定性も問題なさそうなことを確認した。

　グラフ化している指標としては、単に収益ではなく最適行動を取る確率にしている。ターゲット位置が離れた位置に生成されるとどうやっても収益1にすることは不可能なので、細かい最善を考えるのが面倒くさい。最適な行動とは、今がターゲット位置ならクリック行動だし、今がターゲット位置でないならターゲット位置に近づくものとなる（相対位置関係によっては2方向が正解になることがあり得る）。これだと正しく100%が上限となる。

　DQNではかなり安定した収束を見せているのだが、それでも理想的な行動を取る確率が100%にはなりきらず96%ほどで止まってしまうことが気になる。どういう状態で失敗しているのか、確認してみなければいけない。まだライブラリの操作に慣れていないので少し調べながら進める必要があるのが面倒だ。

　とはいえDQNの方は収束した後に崩壊することも少なさそうなので、グリッド離散行動に適しているのは性質からいってもこちらだろうし、とりあえずはDQNの改造という方針で考えてみたいところ。

来週の目標

　Stable Baseline3の互換形式で、エピソードをまたいだ系列を入力とするモデルを実装する目処をつける。