2023-11-01から1ヶ月間の記事一覧

Direct Preference Optimizationを読む(その2)

その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…

Direct Preference Optimizationを読む(その1)

Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習 ということが…

週記 202311120~20231126

今週も一瞬だっった。どうしてこんなに早く過ぎ去ってしまったんだっけ。木曜日も休みだったはずなのに。だいたい本を読んでいる時間が長かった気がする。プログラミングをやる気がさっぱり起きず、将棋拡散モデルについては一切触れていない。 断想 この土…

週記 202311113~20231119

業務の方でいろいろ忙しい(?)せいで一週間があっという間だった。厳しい。 拡散モデル (1)手駒まで生成できるようにした。 まぁこれはやるだけではあるんだけど、手駒の表現をどうするかという問題は若干あり、今は各持ち駒に1トークンを割り当てている。…

内発報酬だけで勝ちを目指せるのか断想

ボードゲームで(ここでは具体的に将棋で)、最終的な勝ち・引き分け・負けに(+1, 0, -1)とか、(+1, 0.5, 0)とか、報酬を割り当てて最大化目指して強化学習するのがある程度上手くいくのはわかる。そういう明示的な報酬を与えずに、内発報酬のようなものだけ…

週記 202311106~20231112

平日の5日中で4回も出社してしまったのもあって、疲労感も強く、一週間があっという間に過ぎ去った感覚になっている。 拡散モデル 以下の論文のアイデアが良さそうと感じており、 自動運転向けの将来点群分布の行動条件付予測に離散化拡散モデルを利用。精度…

週記 20231030~20231105

今週は全然やる気が出なかった。業務も来週からちょっと嫌だな〜と思っている内容が始まるので緩やかに憂鬱だ。 3連休もゲームばかりしていたのでゲームの話しかできない。 ゲーム リバース:1999 最近、ダークファンタジーよりのアプリゲームがわりと流行っ…