Глава 4 — Как модель обучается

Четвёртый пост разбора LLM Primer I: How Generative AI Works по главам. Полная картина того, как модель, которой вы пользуетесь каждый день, стала такой, какая она есть.

Три этапа — увидеть все три, чтобы понять модель

Глядя на современный LLM, легко не удержать в голове весь путь, который он прошёл, чтобы стать тем ассистентом на вашем экране. Предобучение, fine-tuning, обучение с подкреплением от человеческой обратной связи (RLHF). Глава 4 книги — про эти три этапа: что делает каждый, что производит, и почему только все три вместе доводят дело до того ассистента, которому мы доверяем повседневно.

Когда понимаешь, какой этап формирует какую часть модели, такие вопросы как «почему эта модель сильна в X и слаба в Y» начинают находить ответ вашими словами.

Предобучение — этап, который задаёт потолок

Предобучение — это старт LLM. И по стоимости — настоящий монстр: основная доля времени и вычислений всего проекта. Один полный запуск предобучения большой модели — сравнимо по масштабу с постройкой самолёта.

На этом этапе модель получает океан текста — книги, веб-страницы, код, вики, статьи — и одну-единственную задачу: предсказывать следующий токен. Повторяя эту простую цель на триллионах токенов, модель — почти как побочный эффект — впитывает грамматику, факты, навыки рассуждения и слой за слоем — паттерны человеческой речи.

Один тезис книга подчёркивает особо: именно этот этап задаёт «потолок способностей». Последующие этапы могут вылепить характер, но добавить, поверх, способностей, которых не было в предобучении, — почти невозможно.

Если коротко: предобучение задаёт способности. Fine-tuning задаёт характер. Эти две вещи часто путают, но они делают разную работу.

Fine-tuning — превратить способности во что-то удобоваримое

Сразу после предобучения модель мощная, но эргономически неудобная. Она производит что угодно, но редко в том формате, в каком вам хочется. Аналогия, которой я часто пользуюсь: разговор с гениальным, но социально неловким человеком. Способность есть; упаковка — не очень.

Тут заходит fine-tuning. На гораздо меньшем и куда более продуманном наборе — обычно образцовых диалогах, собранных людьми, — модель дообучают. Веса смещаются совсем чуть-чуть, но в направлении, которое накапливается: модель начинает отвечать вежливо, а не сухо, аккуратно, а не разбросанно, развёрнуто там, где нужно, и кратко там, где избыточно.

Та же предобученная модель, в зависимости от того, какой fine-tuning она получила, выходит совсем разной: ассистент по коду, советчик с медицинским тоном, бытовой чатбот. Семейства моделей расходятся именно здесь.

RLHF — место, где выковывается ассистент, которым вы пользуетесь

Из трёх этапов самый тонкий — и при этом самый определяющий — это обучение с подкреплением от человеческой обратной связи (RLHF). Идея в одной строке: дать модели сгенерировать на один вопрос два разных ответа → попросить людей-оценщиков указать, какой лучше → использовать этот сигнал, чтобы сместить модель в ту сторону. Повторить это десятки, сотни тысяч раз.

Получаемая тонкость — огромна. Что считать настоящей помощью, что считать безопасным ответом, когда честно сказать «не знаю», насколько можно быть вежливым, не скатываясь в льстивость — эти оттенки люди размечают пример за примером. На этих сигналах постепенно выковывается характер, который мы называем «ассистент».

Стоит запомнить: RLHF не учит новым знаниям. Он вытягивает на поверхность то, что предобучение уже разложило внутри, отбирая формы выражения, совпадающие с человеческими ожиданиями.

Почему модели одной семьи звучат по-разному

С этими тремя этапами в голове встают на место и другие вопросы. Почему модели OpenAI и Anthropic отвечают разным тоном на один и тот же вопрос? Почему две модели одного размера близки по коду, но пишут прозу по-разному? Почему одна без колебаний скажет «не знаю», а другая будет до последнего пытаться выдать ответ?

Большая часть различий — поверх базовой разницы в данных предобучения — возникает на этапах fine-tuning и RLHF. Эти два этапа и есть «стиль» семьи; привыкать к семье — значит, по сути, привыкать к её философии обучения.

Ментальная модель, которую даёт Глава 4

К концу главы 4 становится отчётливо, что «базовая модель» и «модель-ассистент» — не одно и то же, и какой этап обучения формирует какое поведение. С этим знанием куда легче — чего ждать и чего не ждать — от каждой следующей LLM, которая попадётся вам по дороге.

Завтра — Глава 5: Ещё остаются мелкие изъяны. Сменим тон и честно посмотрим на слабости, которые есть даже у хорошо обученных LLM — галлюцинации, отсутствие чувства времени, проблемы с вычислениями, колебания согласованности. И покажем, почему это не баги, а свойства того же механизма.

Хочется всю картину? Книга соединяет предобучение, fine-tuning и RLHF в одну картину и показывает, как они вместе формируют того ассистента, которого вы видите на экране. Открыть LLM Primer I на Amazon →