Глава 11 — Меньше модели, умнее модели
Одиннадцатый пост разбора LLM Primer I: How Generative AI Works по главам. Когда размер перестаёт быть достоинством — и где сейчас, в 2026 году, проходит граница «умной модели».
Большая модель сама по себе — не ответ
У больших моделей, которые мы видели до сих пор, тяжёлая стоимость эксплуатации. Медленный ответ, дорогой токен, тяжёлая инфраструктура. В реальной работе естественно возникает вопрос: можно ли сохранить способности большой модели в модели поменьше — быстрее и дешевле?
Глава 11 — об этом вопросе в деталях.
Дистилляция — передать ученику то, что знает «учитель»
Самый закреплённый путь — дистилляция. В одной строке: большая модель («учитель») генерирует ответы на разные входы; маленькая модель («ученик») учится подражать этим ответам — не только финальному, но и распределению в целом, которое выдал учитель. Ученик впитывает не только правильный ответ, но и «фактуру уверенности» учителя.
Поэтому дистиллированный ученик нередко справляется лучше, чем ученик, обученный только на правильных ответах, — он наследует интуицию учителя, а не только факты.
Квантизация — снизить точность весов
Второй путь — квантизация. Веса модели — миллиарды чисел — обычно хранятся в 32 или 16 битах. Квантизация снижает эту точность до 8 бит, 4 бит или ещё меньше.
Когда точность падает, вся модель ужимается пропорционально. Больше модели влезает в ту же GPU. Та же модель работает быстрее. И — что слегка удивляет — при разумно сделанной квантизации поведение в основном сохраняется. Не любая модель переносит квантизацию без потерь; хорошо обученные обычно переносят неплохо.
MoE — раздать знание по специалистам
Третий путь по природе иной. MoE (Mixture of Experts) ставит внутри большой модели несколько «экспертных» под-сетей. Для каждого токена активируются только некоторые из них. Полное число параметров большое; реально работающее на одном вызове — маленькое.
Интересно, что модель в совокупности несёт в себе разные стили специализации, но на каждом вызове использует только тот кусок, который лучше всего подходит к данному входу.
§11.6 — новая секция 2026 года, о моделях рассуждения
В издании 2026 года я открыл §11.6 для совсем другого фронта. Это не эффективность, это противоположное направление.
В одной строке: дать модели на каждом вызове писать больше токенов внутри собственного рассуждения. И отшлифовать эту цепочку рассуждения через RLHF, чтобы модель училась внутренне рассуждать осторожнее. Финальный ответ, когда приходит, прошёл через более глубокое рассуждение, чем у эквивалентной модели.
Эффективность снижает стоимость генерации того же ответа. Модели рассуждения повышают стоимость генерации ответа — в обмен на качество. Эти два направления сейчас соседствуют внутри одних и тех же семейств моделей. Это большая ось 2025–2026.
Нить Главы 11
Что остаётся: универсально «правильной» модели нет. Есть правильная модель под конкретную задачу, бюджет и тип нужного ответа. Уметь перемещаться между эффективностью и глубоким рассуждением — часть хорошей эксплуатации LLM в 2026 году.
Завтра — Глава 12: Построить LLM-систему — и что дальше. Последний пост. Модели, инструменты, RAG, оценка, ограждения — сшиваем в одну систему. И переход от Книги 1 к Книгам 2–7 серии.