Глава 10 — Математика дообучения и согласования

Десятый пост разбора LLM Primer II: Language Models Through Mathematics по главам. О том, как блестящего, но дикого предсказателя следующего токена цивилизуют в полезного ассистента — и как целый конвейер обучения с подкреплением одной красивой выкладкой сворачивается в задачу, которую можно обучать как обычный классификатор.

Зачем эта глава

Главы 8 и 9 дали нам предобученную модель. Она прочла значительную часть интернета и продолжает любой текст с пугающей беглостью. Но никакого особого желания быть полезной у неё нет. Задайте вопрос — и она с лёгкостью сгенерирует ещё больше вопросов. Блестящая и дикая одновременно.

Глава 10 — мост между этим существом и тем ассистентом, с которым вы реально разговариваете. И одновременно одна из самых математически красивых глав в книге: инженерия согласования держится на трёх чистых идеях подряд, и третья из них устроена неприлично элегантно.

Если коротко: дообучение в трёх движениях — supervised fine-tuning учит модель подражать хорошим ответам, модель вознаграждения учит распознавать человеческие предпочтения, а оптимизация по предпочтениям настраивает модель так, чтобы их удовлетворять — на KL-поводке, удерживающем её рядом с исходной.

10.1 Supervised fine-tuning

Первый и самый мягкий шаг. Математически — ничего нового: собираем пары (запрос, идеальный ответ) у людей и обучаем тем же кросс-энтропийным лоссом из Главы 1. Подражая тысячам примеров полезного ассистента, модель научается вести себя как этот ассистент, а не как усреднённая страница интернета. Потолок очевиден: подражание не превзойдёт демонстраторов, а написать идеальный ответ куда труднее, чем узнать его среди двух.

10.2 Модели вознаграждения и математика предпочтений

Если написать идеальный ответ трудно, а сравнить два — просто, значит, собирайте сравнения. Мост от шумных человеческих сравнений к гладкой оценочной функции — модель Брэдли–Терри (статистика, 1950-е). Она присваивает каждому объекту скрытую «силу», а вероятность того, что один обходит другого, определяется разностью этих сил через логистическую функцию. Модель вознаграждения обучается так, чтобы эта вероятность совпадала с человеческими разметками. Перечитайте — и узнайте знакомое: это логистическая регрессия на разностях вознаграждений.

10.3 RLHF на поводке

Наивный RL — максимизировать ожидаемое вознаграждение — это ловушка. Модель вознаграждения — лишь прокси, со своими слепыми зонами. Политика, оптимизированная слишком жадно, эксплуатирует эти зоны и выдаёт вырожденный текст, который абсурдно высоко оценивается, оставаясь для человека бессмыслицей. Reward hacking — взлом метрики в самом конкретном виде. Лекарство: добавить KL-штраф, тянущий политику обратно к предобученной референсной. Искусство — в балансе: слишком короткий поводок — модель не сдвинется; слишком длинный — взломает вознаграждение.

10.4 DPO: когда обучение с подкреплением растворяется

Один из самых красивых результатов в недавнем ML. RLHF-задача выглядит так, будто требует всего арсенала — модели вознаграждения, RL-цикла, сэмплирования. Direct Preference Optimization (DPO) показала, что не требует. У задачи максимизации вознаграждения с KL-ограничением есть замкнутая оптимальная форма: референсная политика, перевзвешенная через экспоненту вознаграждения. Прокрутите это назад: выразите вознаграждение через оптимальную политику, подставьте в лосс Брэдли–Терри для предпочтений — и смотрите, как модель вознаграждения исчезает. Остаётся лосс, выраженный целиком через лог-вероятности самой политики относительно референсной. Никакой отдельной модели вознаграждения. Никакого RL-цикла. Только обучение с учителем на парах предпочтений.

Стоит запомнить: DPO — из тех результатов, после которых область на мгновение кажется маленькой и стройной. Целый зверинец движущихся частей аккуратно складывается в один лосс с учителем. Та же математика, меньше механики.

10.5 Best-of-n, alignment tax и честные оговорки

Более простая альтернатива — rejection sampling / best-of-n. Сгенерируйте n кандидатов, оцените их, оставьте лучшего. Никакого обучения политики, только дополнительный инференс. Сильный, до неприличия простой бейзлайн.

Две оговорки. Первая — alignment tax: модель, слишком сильно настроенная на полезность и безопасность, иногда теряет в чистой способности. Вторая, и более глубокая, — все методы здесь оптимизируют под человеческое одобрение, а это не то же самое, что истина или добро. Модель может научиться нравиться, не научившись быть правой.

Глава также проходит RLAIF (когда суждение одной модели используется для согласования другой) и Constitutional AI (ценности, записанные на простом языке). Оба подхода намекают на более фундаментальную проблему масштабируемого надзора.

Что Глава 10 готовит

Вы выходите с тремя движениями и двумя красивыми кусками статистики. Дальше книга поворачивает к смежному и не менее математическому вопросу: теперь, когда мы построили и согласовали модель — как понять, хороша ли она?

Завтра — Глава 11: Оценка, калибровка и вывод. Перплексия, калибровка, доверительные интервалы, которые должны бы стоять рядом с каждой бенчмарк-оценкой, и математика измерения галлюцинаций.

Хочется всю картину? Книга содержит полный вывод Брэдли–Терри, замкнутое решение DPO с подстановкой и доказательством, а также диаграммы трёхмодельной хореографии RLHF. Открыть LLM Primer II на Amazon →