週記 202311120~20231126

　今週も一瞬だっった。どうしてこんなに早く過ぎ去ってしまったんだっけ。木曜日も休みだったはずなのに。だいたい本を読んでいる時間が長かった気がする。プログラミングをやる気がさっぱり起きず、将棋拡散モデルについては一切触れていない。

断想

　この土日は特に「やっぱりまた強化学習じゃね？」という気分で、Sutton & Barto本の第2版とかを買って（今更！）ぼちぼちと読んでいた。特に方策勾配定理あたりのところが気になって他の本とかWebページも見ているが、説明する人によって比例する量で止めたり期待値まで出しきったり、エピソディックな設定だったりそうじゃなかったり、なんか違いがあって難しい感じがしている。

　そういえばゲーム系だとエピソディックな設定が多いけど、1プレイとか1対局で区切らずにやってみたいということもチラッと思ったりする。もっと長期的に時間スケールを持つエージェントを仕立てたいというか。

　実践的には、昨今だと方策勾配法を使うならほぼPPOになっているんだろうか。しかしPPOも細かい工夫が実は大事とか大事じゃないとかで、イマイチ腑に落ちる感覚を得られていない。このあたりは実装と実験を繰り返さないとどうにもならなさそう。

　あと、そもそもやっぱり方策勾配法を直接使ってパラメータ更新していくことがどれだけ効率良いのかというのは自信がない。もう少しメタな反省と行動決定を求めたくなる気もする（直近一連の行動について振り返り、こういうところが悪かったので次はこうしてみよう、という思考ができないと、パラメータ更新だけでサンプル効率を上げきれるのか？という疑問が残る）。

　LLM関連でそういうことをなにか上手いこと引っ掛けられないか、という曖昧な構想。まぁなにかやるとしたら、題材としては将棋を選ぶことになるのかなぁ。