Краткий ответ: Reinforcement Learning (RL) — это метод обучения без начальных данных. ИИ в реальном времени совершает действия (или дает ответы), и получает вознаграждение или штраф за качество своих действий/ответов. Так он учится делать то, что приносит больше награды.
Reinforcement Learning (обучение с подкреплением) - это один из ключевых методов обучения ИИ. Его главная особенность в том, что он не требует изначального датасета с примерами правильно решенных задач. В reinforcement learning ИИ совершает действия (или дает ответы) в реальном времени, после чего, человек или алгоритм оценивают качество этого действия/ответа. Если результат хорош - ИИ получает награду (усиливает те веса модели, которые привели к этому результату), если плох - ИИ получает штраф (снижает веса).
Цель ИИ — получить как можно большее вознаграждение. Для этого он пробует разные варианты, запоминая, какие действия приводят к позитивным результатам, а какие — нет.
Важный ньюанс заключается в том, кто решает, является ли действие хорошим? Если это делает человек, то это называется RLHF (Reinforcement Learning from Human Feedback). Такое обучение максимально дорогое, т.к. требует огромного количества ручного человеческого труда.
Если же существует возможность сделать такой алгоритм, который сможет оценивать качество ответов модели на основе входных данных, то это значительно удешевляет и ускоряет процесс обучения.
Простой пример того, как выглядит RL без участия человека: можно посадить ИИ играть в компьютерную игру, скажем, тетрис. И награждать его за победы, а за поражения - штрафовать. Так как компьютерная игра - это по сути и есть алгоритм, то человек в этой схеме не нужен: ИИ будет играть до тех пор, пока не научиться побеждать настолько часто, насколько это возможно.
В случае LLM в большинстве случаев используется обучение отдельной Reward Model (RM), "награждающей модели". Это небольшая модель, которую учат оценивать качество ответов основной модели, и эта оценка как раз и используется при обучении.