AI человеческим языком
Подготовлено ElKornacio:
t.me/elkornacio
Чтобы перейти на страницу с подробным объяснением термина - кликните на него.
Direct Preference Optimization (DPO)
—
подход к reinforcement learning, основанный на выборе лучшего из двух (или более) ответов
Mixture of Experts (MoE)
—
архитектура LLM, которая разбивает модель на "экспертов", и ответ дают только эксперты компетентные в заданном вопросе
Reinforcement Learning (RL)
—
подход к обучению моделей, который не требует данных, но требует оценивать качество ответов модели