Краткий ответ: Direct Preference Optimization (DPO) — это метод до-обучения модели. Традиционно, человек выбирает между двумя ответами модели лучший (отдает "предпочтение"), и на данных о предпочтениях обучают небольшую другую "награждающую" модель - Reward Model. И уже Reward Model используется для оценки качества работы и обучения главной модели. Метод DPO - это когда никакой Reward-модели мы не обучаем, и используем данные о предпочтениях сразу же для обучения главной модели.
Direct Preference Optimization — это метод обучения, при котором модель учится выбирать лучший ответ на основе прямых сравнений между двумя вариантами. Вместо того чтобы сначала строить отдельную модель, оценивающую качество ответа (Reward Model), система сразу получает информацию о том, какой из двух ответов более предпочтителен, и эта информация зашивается в её Policy (принципы, по которым из наиболее вероятных ответов модель выбирает финальный).