2023-11-30から1日間の記事一覧

Direct Preference Optimizationを読む(その2)

その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…