Глава 6 — Безопасность, выравнивание, и что значит «быть полезным»
Шестой пост разбора LLM Primer I: How Generative AI Works по главам. Самая сильно переработанная глава в издании 2026 года — с новым §6.6 о последних направлениях исследований в выравнивании.
«Звучать связно» и «быть полезным» — разные вещи
Глава 6 открывается небольшим по виду, но крупным по последствиям разделением. То, что модель выдаёт гладко сшитые фразы, и то, что её ответ действительно полезен спрашивающему, — это не одно и то же.
Связность даёт предобучение. Полезность даёт выравнивание. И эти две вещи расходятся сильнее, чем кажется. Бывает гладкий ответ, по сути опасный; бывает невыразительный ответ, по сути очень полезный. Без этого различия любая оценка модели уже начинает шататься.
Что именно настраивает выравнивание
«Выравнивание» — широкое слово, у каждого своё понимание. Книга старается дать конкретные контуры. В одной строке: выравнивание — это удерживать модель на том направлении, которое задумали люди, и сделать так, чтобы, однажды откалибровавшись, она оставалась там и со временем, и в новых ситуациях, и перед слегка перекошенным вводом.
На практике это означает следить за несколькими измерениями вместе: быть действительно полезным, быть честным (уметь сказать «не знаю»), быть безвредным (избегать обманчивых и вредных ответов), и балансировать между этими тремя — там, где они вступают в конфликт.
§6.6 — новая секция 2026 года
В издании 2026 года я открыл §6.6, посвящённый конституционному ИИ, моделям на основе дебатов и свежим направлениям исследований в выравнивании.
Конституционный ИИ частично заменяет человека-оценщика набором принципов — «конституцией», — по которым модель сама проверяет свои ответы и корректирует их исходя из этой проверки. Это не только способ удешевить RLHF. Это способ удержать выравнивание масштабируемым: с ростом моделей выравнивание через человеческие оценки становится трудно держать. Конституционный ИИ — один из ответов на этот рост.
Выравнивание через дебаты подходит с другой стороны. Две модели получают один и тот же вопрос и дают конкурирующие ответы; конфликт между этими ответами выводится наружу как явный материал, и этот конфликт становится сигналом — для человека-судьи или для другой модели. Интуиция в том, что тонкости, которые один оценщик упустит, имеют шанс выпрыгнуть наружу при прямом столкновении двух ответов.
«Безопасность» — слово шире, чем кажется
В книге я стараюсь не сводить безопасность только к «фильтрации вредного контента». Здесь больше. Какой режим взаимодействия может считаться достойным долгосрочного доверия? Как модели говорить «не знаю», когда она не знает? Как избегать чрезмерной зависимости — когда пользователь перестаёт упражнять собственное суждение, делегируя всё модели? Всё это — часть той же повестки безопасности.
Когда этот спектр входит в поле зрения, выбор и эксплуатация модели обретают глубину. Доверие начинаешь видеть не как свойство «эта модель в одиночку», а как свойство «эта система в целом».
Нить Главы 6
Что остаётся от главы, в одной строке: выравнивание — это последний шаг, после которого модель становится по-настоящему «пригодной к использованию». Предобучение дало способности, fine-tuning набросал контуры характера, выравнивание шлифует этот характер до той точки, где на модель можно опираться каждый день, долго, без сожалений.
Завтра — Глава 7: Промпт-инжиниринг как ремесло. Один из самых практичных постов. Четыре паттерна, которые несут основную нагрузку — system prompt, few-shot, цепочка размышления, роль — и почему они работают, в свете механизма предсказания следующего токена.