2023-11-30から1日間の記事一覧

Direct Preference Optimizationを読む（その2）

論文

その1 でDPOの損失関数が導出できたので、この関数の性質を分析してみます。勾配がどうなっているかまず微分してみます。整理するためにと置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…