LLM Primer III — Корпоративный ИИ с RAG: введение в серию и оглавление
«Базовая модель блестяща и недоказуема. RAG — это архитектура, делающая её одновременно свежей и цитируемой». Добро пожаловать в третью книгу серии LLM Primer — и в её поглавный разбор. Следующие одиннадцать дней, по одному посту на главу, мы будем открывать стек retrieval-augmented generation и смотреть на решения, от которых зависит, тихо работает корпоративная RAG-система или тихо отказывает.
Почему существует третья книга
Книги I и II этой серии дали вам модель. Первая книга рассказала простым языком, что такое LLM и как вокруг них строятся системы. Вторая открыла лежащую под ними математику. Третья книга — о том, что окружает модель, когда вы пытаетесь применить её к документам, которые меняются, к знаниям, которые надо цитировать, и к контролю доступа, который не является опциональным.
Снаружи RAG выглядит просто. Три коробки на слайде: эмбеддинг, поиск, генерация. Любой, кто доводил такую систему до продакшена, знает, что каждая коробка — отдельная дисциплина, а расстояние между работающим демо и системой, которой доверится юридический отдел, измеряется месяцами инженерной работы над проблемами, которых демо не показало. Парсер тихо сплющивает таблицы. Чанкер отрезает определение от его уточнения. У векторной базы фильтрация по метаданным слабее, чем обещал бенчмарк. Ретривер уверенно возвращает соседей бессмысленного эмбеддинга. А дашборды оценки светятся зелёным поверх галлюцинаций.
Эта книга проходит по стеку честно, слой за слоем. Каждая глава — это дисциплина за одной из коробок, вопросы, на которые серьёзная команда обязана ответить, чтобы вывести этот слой в продакшен. Обещание не в том, что существует одна правильная архитектура. Обещание в том, что к концу книги вы будете знать, какая архитектура правильна для вашего корпуса, вашей команды и вашего регуляторного периметра — и какую цену вы платите по каждой оси.
Для кого книга
Для инженеров, строящих RAG-системы; для технических PM, формирующих их рамки; и для архитекторов, которым придётся защищать выбранные решения перед security-ревью. Книга предполагает, что читатель знаком с картиной поведения LLM из первой книги, но не требует математики из второй. Там, где математика важна, она появляется как интуиция, а не как вывод формулы. Центр тяжести — инженерия: где живут режимы отказа, какие решения обратимы, а какие фиксируют команду на годы.
Как её читать
Три режима, оправдавшие себя у ранних читателей. От начала к концу — если вы собираетесь начинать корпоративную RAG-систему и хотите получить стек в том порядке, в котором решения реально приходят. Как справочник — если у вас уже есть работающая система и болит конкретный слой; главы про парсинг, чанкинг и оценку самостоятельны. Или как материал для архитектурного ревью, где главы становятся темами разговора, который команде нужно провести до фиксации на конкретном вендоре.
Одиннадцать глав
18 марта — Глава 1: Эволюция архитектуры RAG. Четыре архитектурные позы — Naive, Advanced, Modular, Agentic — и когда дообучение оказывается лучшим ответом, чем поиск.
19 марта — Глава 2: Интеллектуальный парсинг документов. Почему «расплющивание» PDF теряет самое важное, какие парсеры с учётом макета возвращают сигналы и мультимодальный трек, где модель читает страницу напрямую.
20 марта — Глава 3: Продвинутые фреймворки чанкинга. Спектр чанкинга, миф об overlap, обрыв контекста и приёмы фронтира — contextual retrieval и late chunking — переписывающие расчёты.
21 марта — Глава 4: Выбор подходящей векторной базы данных. Специализированные системы против расширений, лидеры managed-сегмента, поле open-source и три оси — резидентность, операционные расходы, стоимость — на которых решается реальный выбор.
22 марта — Глава 5: Архитектура поискового пайплайна. Гибридный поиск, reciprocal rank fusion, cross-encoder reranking и слой понимания запроса, соединяющий то, как спрашивают пользователи, и то, как отвечают документы.
23 марта — Глава 6: Модели угроз и уязвимости RAG. Prompt injection, непрямые инъекции через найденный контент, пути утечки данных и модель угроз, которую вы действительно должны защищать.
24 марта — Глава 7: Реализация контроля доступа. Разрешения на уровне документа, row-level security на индексе, проброс идентичности в поисковый вызов и паттерны, переживающие аудит.
25 марта — Глава 8: Анонимизация данных в RAG-пайплайне. Обнаружение PII на этапе ингеста, правильное место для редактирования, асимметрии между обучающими данными и поисковым корпусом и картина остаточного риска.
26 марта — Глава 9: Триада оценки RAG. Релевантность контекста, верность ответа контексту и релевантность ответа вопросу — три измерения, локализующие источник регрессии.
27 марта — Глава 10: Ведущие фреймворки оценки. RAGAS, TruLens, DeepEval и практический вопрос — как сделать триаду пригодной для CI.
28 марта — Глава 11: Непрерывные обновления и оптимизация пайплайна. Инкрементальная индексация, обнаружение дрейфа, стратегия переиндексации и операционная дисциплина, не дающая RAG-системе тихо деградировать после запуска.
Об этой книге и о серии
Серия LLM Primer — это длинный ответ на вопрос, который мне раз за разом задавали инженеры, основатели и иногда регуляторы: как эти системы устроены на самом деле и что нужно, чтобы построить такую, которая выдержит нагрузку? Первая книга задала форму. Вторая дала математику. Третья — production-архитектуру. Четвёртая, в работе, поворачивает к MCP и слою когниции, сидящему над моделью.
Увидимся завтра, с первой главой.