2023-11-29から1日間の記事一覧

2023-11-29

Direct Preference Optimizationを読む（その1）

論文

Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習ということが…