以下の記事が面白かったので、かるくまとめました。・Preference Tuning LLMs with Direct Preference Optimization Methods 1. 強化学習を使用しないアライメントこの記事では、「DPO」(Direct Preference Optimization)、「IPO」(Identity Preference Optimization)、「KTO」(Kahneman-Taversky Optimization) …

DPO によるLLMのPreferenceチューニング｜npaka