Глава 11 — Меньше модели, умнее модели

Одиннадцатый пост разбора LLM Primer I: How Generative AI Works по главам. Когда размер перестаёт быть достоинством — и где сейчас, в 2026 году, проходит граница «умной модели».

Большая модель сама по себе — не ответ

У больших моделей, которые мы видели до сих пор, тяжёлая стоимость эксплуатации. Медленный ответ, дорогой токен, тяжёлая инфраструктура. В реальной работе естественно возникает вопрос: можно ли сохранить способности большой модели в модели поменьше — быстрее и дешевле?

Глава 11 — об этом вопросе в деталях.

Если коротко: «модель побольше = ответ получше» — это фраза заголовка. В эксплуатации правильно подобранная под задачу модель почти всегда выигрывает у максимально большой под рукой.

Дистилляция — передать ученику то, что знает «учитель»

Самый закреплённый путь — дистилляция. В одной строке: большая модель («учитель») генерирует ответы на разные входы; маленькая модель («ученик») учится подражать этим ответам — не только финальному, но и распределению в целом, которое выдал учитель. Ученик впитывает не только правильный ответ, но и «фактуру уверенности» учителя.

Поэтому дистиллированный ученик нередко справляется лучше, чем ученик, обученный только на правильных ответах, — он наследует интуицию учителя, а не только факты.

Квантизация — снизить точность весов

Второй путь — квантизация. Веса модели — миллиарды чисел — обычно хранятся в 32 или 16 битах. Квантизация снижает эту точность до 8 бит, 4 бит или ещё меньше.

Когда точность падает, вся модель ужимается пропорционально. Больше модели влезает в ту же GPU. Та же модель работает быстрее. И — что слегка удивляет — при разумно сделанной квантизации поведение в основном сохраняется. Не любая модель переносит квантизацию без потерь; хорошо обученные обычно переносят неплохо.

MoE — раздать знание по специалистам

Третий путь по природе иной. MoE (Mixture of Experts) ставит внутри большой модели несколько «экспертных» под-сетей. Для каждого токена активируются только некоторые из них. Полное число параметров большое; реально работающее на одном вызове — маленькое.

Интересно, что модель в совокупности несёт в себе разные стили специализации, но на каждом вызове использует только тот кусок, который лучше всего подходит к данному входу.

§11.6 — новая секция 2026 года, о моделях рассуждения

В издании 2026 года я открыл §11.6 для совсем другого фронта. Это не эффективность, это противоположное направление.

В одной строке: дать модели на каждом вызове писать больше токенов внутри собственного рассуждения. И отшлифовать эту цепочку рассуждения через RLHF, чтобы модель училась внутренне рассуждать осторожнее. Финальный ответ, когда приходит, прошёл через более глубокое рассуждение, чем у эквивалентной модели.

Эффективность снижает стоимость генерации того же ответа. Модели рассуждения повышают стоимость генерации ответа — в обмен на качество. Эти два направления сейчас соседствуют внутри одних и тех же семейств моделей. Это большая ось 2025–2026.

Важно: эффективность и модели рассуждения — две стороны одного и того же выбора: «сколько токенов мы готовы потратить на один вызов?». Одно направление режет, другое вкладывает. Эксплуатирующий должен уметь выбирать.

Нить Главы 11

Что остаётся: универсально «правильной» модели нет. Есть правильная модель под конкретную задачу, бюджет и тип нужного ответа. Уметь перемещаться между эффективностью и глубоким рассуждением — часть хорошей эксплуатации LLM в 2026 году.

Завтра — Глава 12: Построить LLM-систему — и что дальше. Последний пост. Модели, инструменты, RAG, оценка, ограждения — сшиваем в одну систему. И переход от Книги 1 к Книгам 2–7 серии.

Хочется всю картину? Книга собирает эффективность и рассуждение в одно место — с новым §11.6. Открыть LLM Primer I на Amazon →