LLM Primer III — Корпоративный ИИ с RAG: введение в серию и оглавление

«Базовая модель блестяща и недоказуема. RAG — это архитектура, делающая её одновременно свежей и цитируемой». Добро пожаловать в третью книгу серии LLM Primer — и в её поглавный разбор. Следующие одиннадцать дней, по одному посту на главу, мы будем открывать стек retrieval-augmented generation и смотреть на решения, от которых зависит, тихо работает корпоративная RAG-система или тихо отказывает.

Почему существует третья книга

Книги I и II этой серии дали вам модель. Первая книга рассказала простым языком, что такое LLM и как вокруг них строятся системы. Вторая открыла лежащую под ними математику. Третья книга — о том, что окружает модель, когда вы пытаетесь применить её к документам, которые меняются, к знаниям, которые надо цитировать, и к контролю доступа, который не является опциональным.

Снаружи RAG выглядит просто. Три коробки на слайде: эмбеддинг, поиск, генерация. Любой, кто доводил такую систему до продакшена, знает, что каждая коробка — отдельная дисциплина, а расстояние между работающим демо и системой, которой доверится юридический отдел, измеряется месяцами инженерной работы над проблемами, которых демо не показало. Парсер тихо сплющивает таблицы. Чанкер отрезает определение от его уточнения. У векторной базы фильтрация по метаданным слабее, чем обещал бенчмарк. Ретривер уверенно возвращает соседей бессмысленного эмбеддинга. А дашборды оценки светятся зелёным поверх галлюцинаций.

Эта книга проходит по стеку честно, слой за слоем. Каждая глава — это дисциплина за одной из коробок, вопросы, на которые серьёзная команда обязана ответить, чтобы вывести этот слой в продакшен. Обещание не в том, что существует одна правильная архитектура. Обещание в том, что к концу книги вы будете знать, какая архитектура правильна для вашего корпуса, вашей команды и вашего регуляторного периметра — и какую цену вы платите по каждой оси.

Если коротко: корпоративный RAG — это стек решений (парсинг, чанкинг, индексация, поиск, безопасность, оценка, обновление), и каждый слой определяет, что может слой над ним.

Для кого книга

Для инженеров, строящих RAG-системы; для технических PM, формирующих их рамки; и для архитекторов, которым придётся защищать выбранные решения перед security-ревью. Книга предполагает, что читатель знаком с картиной поведения LLM из первой книги, но не требует математики из второй. Там, где математика важна, она появляется как интуиция, а не как вывод формулы. Центр тяжести — инженерия: где живут режимы отказа, какие решения обратимы, а какие фиксируют команду на годы.

Как её читать

Три режима, оправдавшие себя у ранних читателей. От начала к концу — если вы собираетесь начинать корпоративную RAG-систему и хотите получить стек в том порядке, в котором решения реально приходят. Как справочник — если у вас уже есть работающая система и болит конкретный слой; главы про парсинг, чанкинг и оценку самостоятельны. Или как материал для архитектурного ревью, где главы становятся темами разговора, который команде нужно провести до фиксации на конкретном вендоре.

Одиннадцать глав

18 марта — Глава 1: Эволюция архитектуры RAG. Четыре архитектурные позы — Naive, Advanced, Modular, Agentic — и когда дообучение оказывается лучшим ответом, чем поиск.

19 марта — Глава 2: Интеллектуальный парсинг документов. Почему «расплющивание» PDF теряет самое важное, какие парсеры с учётом макета возвращают сигналы и мультимодальный трек, где модель читает страницу напрямую.

20 марта — Глава 3: Продвинутые фреймворки чанкинга. Спектр чанкинга, миф об overlap, обрыв контекста и приёмы фронтира — contextual retrieval и late chunking — переписывающие расчёты.

21 марта — Глава 4: Выбор подходящей векторной базы данных. Специализированные системы против расширений, лидеры managed-сегмента, поле open-source и три оси — резидентность, операционные расходы, стоимость — на которых решается реальный выбор.

22 марта — Глава 5: Архитектура поискового пайплайна. Гибридный поиск, reciprocal rank fusion, cross-encoder reranking и слой понимания запроса, соединяющий то, как спрашивают пользователи, и то, как отвечают документы.

23 марта — Глава 6: Модели угроз и уязвимости RAG. Prompt injection, непрямые инъекции через найденный контент, пути утечки данных и модель угроз, которую вы действительно должны защищать.

24 марта — Глава 7: Реализация контроля доступа. Разрешения на уровне документа, row-level security на индексе, проброс идентичности в поисковый вызов и паттерны, переживающие аудит.

25 марта — Глава 8: Анонимизация данных в RAG-пайплайне. Обнаружение PII на этапе ингеста, правильное место для редактирования, асимметрии между обучающими данными и поисковым корпусом и картина остаточного риска.

26 марта — Глава 9: Триада оценки RAG. Релевантность контекста, верность ответа контексту и релевантность ответа вопросу — три измерения, локализующие источник регрессии.

27 марта — Глава 10: Ведущие фреймворки оценки. RAGAS, TruLens, DeepEval и практический вопрос — как сделать триаду пригодной для CI.

28 марта — Глава 11: Непрерывные обновления и оптимизация пайплайна. Инкрементальная индексация, обнаружение дрейфа, стратегия переиндексации и операционная дисциплина, не дающая RAG-системе тихо деградировать после запуска.

Стоит запомнить: предыдущие тома были про модель. Этот — про аппарат вокруг неё. Большинство отказов RAG — это не отказы модели; это решения, принятые тремя слоями выше по потоку, которые никаким prompt engineering не исправить. Книга устроена так, чтобы выводить эти решения в том порядке, в котором их реально приходится принимать.

Об этой книге и о серии

Серия LLM Primer — это длинный ответ на вопрос, который мне раз за разом задавали инженеры, основатели и иногда регуляторы: как эти системы устроены на самом деле и что нужно, чтобы построить такую, которая выдержит нагрузку? Первая книга задала форму. Вторая дала математику. Третья — production-архитектуру. Четвёртая, в работе, поворачивает к MCP и слою когниции, сидящему над моделью.

Хочется всю картину прямо сейчас? LLM Primer III: Enhancing Enterprise AI with RAG — это книга, которую разбирает серия: с полными архитектурными сравнениями, плейбуками оценки, чек-листами безопасности и операционными шаблонами, которых разбор лишь касается. LLM Primer III на Amazon →

Увидимся завтра, с первой главой.

LLM Primer III — Введение в серию и оглавление