AI человеческим языком

Подготовлено ElKornacio: t.me/elkornacio

Чтобы перейти на страницу с подробным объяснением термина - кликните на него.

Direct Preference Optimization (DPO) — подход к reinforcement learning, основанный на выборе лучшего из двух (или более) ответов

Mixture of Experts (MoE) — архитектура LLM, которая разбивает модель на "экспертов", и ответ дают только эксперты компетентные в заданном вопросе

Reinforcement Learning (RL) — подход к обучению моделей, который не требует данных, но требует оценивать качество ответов модели