Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習ということが行われたりします。冒頭の論文では、この2ステップは実は適切な損…

水たまり

Direct Preference Optimizationを読む（その1）