DPO によるLLMのPreferenceチューニング|npaka

以下の記事が面白かったので、かるくまとめました。 ・Preference Tuning LLMs with Direct Preference Optimization Methods 1. 強化学習を使用しないアライメント この記事では、「DPO」(Direct Preference Optimization)、「IPO」(Identity Preference Optimization)、「KTO」(Kahneman-Taversky Optimization) …