Глава 12 — Построить LLM-систему, и что дальше

Последний пост разбора LLM Primer I: How Generative AI Works по главам. Закрываем книгу и открываем дверь к следующим.

Уйти от «модели» и прийти к «системе»

С первой страницы до этой мы одиннадцать глав смотрели внутрь модели. В последней фокус сдвигается. Я гляжу на LLM издалека — как на деталь в большей системе.

В реальной жизни модель не работает одна. Она работает вместе с инструментами, с RAG, с оценкой, с ограждениями, с мониторингом, с человеческим надзором. До пользователя доходит вся система целиком, и именно здоровье системы целиком определяет, работает ли всё это в принципе.

Если коротко: вопрос «какая модель лучше?» редко имеет ответ. Вопрос «какая модель лучше под какую деталь моей системы?» — почти всегда имеет.

Оценка — деталь, которой чаще всего не хватает

Из всех деталей системы оценка — та, что отсутствует чаще всего. Знать на данных, а не угадывать, выполняет ли модель то, что нужно вашему сценарию.

У хорошей оценки три опоры. Набор примеров, по-настоящему отражающий вашу задачу. Сочетание автоматической оценки и периодического человеческого надзора. И регулярность — оценка, которая прогоняется всякий раз, когда что-то в системе меняется. Без этой регулярности «улучшения» превращаются в веру, а вера держится ровно до того дня, когда перестаёт держаться.

Ограждения — компенсировать там, где модель спотыкается

Ограждения — это барьеры, ловящие модель, когда она выходит за рельсы. Это не только фильтры контента. Это совокупность правил, решающих, например, отказывать ли опасным входам, показывать ли цепочку рассуждений там, где это важно, обозначать ли неуверенность, передавать ли сложный случай человеку.

Ясное понимание, где решение остаётся за моделью, а где система решает за неё — эта граница и отделяет систему, выдерживающую реальную нагрузку, от той, что красива в проектной комнате, но рассыпается на первом же краевом случае.

Пять паттернов, встречающихся почти в любой системе

В финальной главе я собираю пять паттернов, покрывающих большинство систем, с которыми я видел, как люди работают.

Простой вызов без украшений; плоский RAG; модель с инструментами; агент в один шаг или в несколько шагов; и оркестровка нескольких моделей. Каждый паттерн лучше ложится на свой тип задачи. Уметь выбирать паттерн под проблему — так же важно, как уметь писать промпт — и помогает не брать молоток там, где справится отвёртка.

Стоит запомнить: не каждая задача требует самого сложного паттерна. Не звать агента туда, где хватает одного вызова, — одна из самых ценных привычек эксплуатации.

Почему это «Книга I» в серии

LLM Primer I — первая книга серии. Здесь мы заложили основу: как работает модель и как сшить её в систему. Поверх этой основы книга за книгой пойдут углубления.

Следующие книги — RAG, агенты, оценка и эксплуатация, fine-tuning и адаптация, мультимодальность на практике, LLM-системы в продакшене — каждая берёт свой кусок экосистемы и идёт в него вглубь. Книга 1 — это то, что делает погружение безопасным. Кто дошёл сюда, дальше сможет идти без надрыва.

Одна последняя строка

Если бы я мог оставить одну фразу, резюмирующую всю книгу, это была бы такая: LLM — не тайна. Это инженерия в слоях, поверх простого механизма — предсказания следующего токена. Когда каждый слой понятен своими словами, любая новая модель найдёт удобное место на вашей карте.

Спасибо, что дошли со мной до этого места. До следующей книги.

Хочется всю картину в одном месте? Книга собирает всё — от механизма до эксплуатации — с диаграммами, в одно цельное чтение. Открыть LLM Primer I на Amazon →

Тем, кто прочёл серию до конца, — мой искренний поклон ещё раз.