Глава 6 — Безопасность, выравнивание, и что значит «быть полезным»

Шестой пост разбора LLM Primer I: How Generative AI Works по главам. Самая сильно переработанная глава в издании 2026 года — с новым §6.6 о последних направлениях исследований в выравнивании.

«Звучать связно» и «быть полезным» — разные вещи

Глава 6 открывается небольшим по виду, но крупным по последствиям разделением. То, что модель выдаёт гладко сшитые фразы, и то, что её ответ действительно полезен спрашивающему, — это не одно и то же.

Связность даёт предобучение. Полезность даёт выравнивание. И эти две вещи расходятся сильнее, чем кажется. Бывает гладкий ответ, по сути опасный; бывает невыразительный ответ, по сути очень полезный. Без этого различия любая оценка модели уже начинает шататься.

Что именно настраивает выравнивание

«Выравнивание» — широкое слово, у каждого своё понимание. Книга старается дать конкретные контуры. В одной строке: выравнивание — это удерживать модель на том направлении, которое задумали люди, и сделать так, чтобы, однажды откалибровавшись, она оставалась там и со временем, и в новых ситуациях, и перед слегка перекошенным вводом.

На практике это означает следить за несколькими измерениями вместе: быть действительно полезным, быть честным (уметь сказать «не знаю»), быть безвредным (избегать обманчивых и вредных ответов), и балансировать между этими тремя — там, где они вступают в конфликт.

Если коротко: выравнивание — это не работа «сделал и забыл». Каждый новый паттерн использования, каждый новый вход, каждый новый враждебный промпт снова и снова проверяют его на прочность.

§6.6 — новая секция 2026 года

В издании 2026 года я открыл §6.6, посвящённый конституционному ИИ, моделям на основе дебатов и свежим направлениям исследований в выравнивании.

Конституционный ИИ частично заменяет человека-оценщика набором принципов — «конституцией», — по которым модель сама проверяет свои ответы и корректирует их исходя из этой проверки. Это не только способ удешевить RLHF. Это способ удержать выравнивание масштабируемым: с ростом моделей выравнивание через человеческие оценки становится трудно держать. Конституционный ИИ — один из ответов на этот рост.

Выравнивание через дебаты подходит с другой стороны. Две модели получают один и тот же вопрос и дают конкурирующие ответы; конфликт между этими ответами выводится наружу как явный материал, и этот конфликт становится сигналом — для человека-судьи или для другой модели. Интуиция в том, что тонкости, которые один оценщик упустит, имеют шанс выпрыгнуть наружу при прямом столкновении двух ответов.

«Безопасность» — слово шире, чем кажется

В книге я стараюсь не сводить безопасность только к «фильтрации вредного контента». Здесь больше. Какой режим взаимодействия может считаться достойным долгосрочного доверия? Как модели говорить «не знаю», когда она не знает? Как избегать чрезмерной зависимости — когда пользователь перестаёт упражнять собственное суждение, делегируя всё модели? Всё это — часть той же повестки безопасности.

Когда этот спектр входит в поле зрения, выбор и эксплуатация модели обретают глубину. Доверие начинаешь видеть не как свойство «эта модель в одиночку», а как свойство «эта система в целом».

Важно: выравнивание — это не цензура. Это обучение модели чувствовать разницу между честным и полезным — и переходить между ними в тонких случаях, где они расходятся.

Нить Главы 6

Что остаётся от главы, в одной строке: выравнивание — это последний шаг, после которого модель становится по-настоящему «пригодной к использованию». Предобучение дало способности, fine-tuning набросал контуры характера, выравнивание шлифует этот характер до той точки, где на модель можно опираться каждый день, долго, без сожалений.

Завтра — Глава 7: Промпт-инжиниринг как ремесло. Один из самых практичных постов. Четыре паттерна, которые несут основную нагрузку — system prompt, few-shot, цепочка размышления, роль — и почему они работают, в свете механизма предсказания следующего токена.

Хочется всю картину? Книга разбирает тему целиком с диаграммами, включая новый §6.6 издания 2026 года. Открыть LLM Primer I на Amazon →