Серия LLM Primer

Путеводитель по генеративному ИИ — том за томом. Семь книг Шохэя Шимоды для тех, кому нужно работать с большими языковыми моделями всерьёз, а не просто рассуждать о них.

Что это за серия

Серия LLM Primer задумана как один связный маршрут через генеративный ИИ. Каждая книга берёт свой слой работы с большими языковыми моделями — от того, что такое LLM и как она работает, до математики, на которой стоит её механизм, и дальше — к практике: RAG, агенты, фабрика приложений, масштабируемая инфраструктура, безопасность. Семь книг, один автор, один тон, одно стремление: сначала объяснить «почему», потом «как».

Между броскими заголовками о магии и тяжёлыми статьями, требующими свободной математики со второго абзаца, почти ничего нет — а ведь именно в этом промежутке живые специалисты каждый день принимают живые решения. Серия пишется в этот промежуток.

Каждая книга растёт из реальной работы: системы в продакшене, командные обсуждения, ночные дебаги. Тон везде одинаковый — внятный, точный, без тумана.

Для кого эта серия: для инженеров и продакт-лидов, которым нужно строить системы на LLM. Для технических специалистов из смежных областей — данных, безопасности, инфраструктуры, — у которых почва под ногами начала сдвигаться. Для тех, кому нужна не магия и не учебник линейной алгебры, а ясная инженерная картина с понятным «почему» под каждым «как».

Как читать эту страницу

Каждый том ниже показан со своим полным оглавлением, разбитым по Частям. По мере выхода разборов каждой главы соответствующие пункты становятся ссылками. Те главы, чьи разборы ещё впереди, остаются простым текстом.

Приложения перечислены для полноты картины, но они — контент только в книге: справочный материал, шпаргалки, упражнения с решениями и прочее, чему место в конце книги, а не в отдельном разборе. Чтобы получить приложения — читайте книгу.

Том I — Как работает генеративный ИИ

Ясное и практическое руководство по основам больших языковых моделей.

Внятный заход во всю серию. С нуля — от токенов, обучения и простого предсказания следующего слова — собирается честная, без жаргона, картина того, что такое большая языковая модель, как её обучают и почему она ведёт себя так, как ведёт. Никакого предварительного бэкграунда не требуется. Это фундамент, на котором стоит всё остальное.

Открыть LLM Primer I на Amazon →

Обложка Тома I — LLM Primer I: How Generative AI Works

Вступление серии: LLM Primer I — разбор по главам: вступление и оглавление

Часть I — Что такое LLM

Глава 1 —	Что такое, в сущности, Большая Языковая Модель?
Глава 2 —	Вероятность, токены и текст
Глава 3 —	Как текст течёт внутри модели

Часть II — Как модель учится

Глава 4 —	Как модель обучается
Глава 5 —	Ещё остаются мелкие изъяны
Глава 6 —	Безопасность, выравнивание и «быть полезным»

Часть III — Как с моделью работать

Глава 7 —	Промпт-инжиниринг как ремесло
Глава 8 —	Когда одной модели мало: инструменты и агенты
Глава 9 —	RAG: свежая информация в контекст

Часть IV — Куда LLM движется

Глава 10 —	Мультимодальность: за пределами текста
Глава 11 —	Меньше модели, умнее модели
Глава 12 —	Построить LLM-систему, и что дальше

Приложения (только в книге)

A —	Глоссарий LLM
B —	Математика, стоящая за вниманием
C —	Шпаргалка по промптингу

D —	Инструменты и библиотеки
E —	Рекомендованная литература

Том II — Языковые модели через математику

Заглядываем внутрь ИИ с математической точностью.

Математически строгий, но читаемый тур по внутреннему устройству ИИ: внимание, динамика оптимизации, ландшафты лосс-функций, поведение при масштабировании — всё объяснено через ту математику, что заставляет всё это работать. Каждое существенное уравнение выведено полностью, и каждое обёрнуто историей, аналогией и проработанным численным примером. Для тех, кому нужна та математика, которую первый том держал на полях.

Открыть LLM Primer II на Amazon →

Обложка Тома II — LLM Primer II: Language Models Through Mathematics

Вступление серии: LLM Primer II — разбор по главам: вступление и оглавление

Часть I — Математическая интуиция

Глава 1 —	Математическая интуиция для языковых моделей
Глава 2 —	LLM в контексте
Глава 3 —	Математический инструментарий

Часть II — Архитектура трансформера

Глава 4 —	Внимание
Глава 5 —	Позиция, порядок и структура последовательности
Глава 6 —	Блоки трансформера
Глава 7 —	Эффективность и варианты трансформера

Часть III — Обучение, дообучение, оценка

Глава 8 —	Как модели учатся
Глава 9 —	Обучение в масштабе
Глава 10 —	Математика дообучения и согласования
Глава 11 —	Оценка, калибровка и вывод

Часть IV — Применение и пределы

Глава 12 —	Применение LLM в реальном мире
Глава 13 —	Ограничения, риски и открытые проблемы
Глава 14 —	Практические знания для инженеров

Приложения (только в книге)

A —	Математическая шпаргалка по LLM
B —	Статистический взгляд на LLM
C —	Вопросы, которые задают чаще всего
D —	Проработанные выводы

E —	Упражнения с решениями
F —	Индекс символов
G —	Полный прямой проход — по числам
H —	Хронология идей

Том III — Прокачка корпоративного ИИ с RAG

Практическое руководство по построению систем генерации, дополненной поиском, для предприятия.

Практический RAG — векторные базы, стратегии разбиения, и архитектура заземления модели в ваших собственных документах ради надёжных, актуальных ответов в корпоративном контуре. Тот том, который читают, когда задача — выпускать ИИ-фичи, которые обязаны оставаться свежими и обязаны ссылаться на источник.

Обложка Тома III — Enhancing Enterprise AI with RAG

Часть I — Основы Retrieval-Augmented Generation

Глава 1 —

Эволюция архитектуры RAG

Часть II — Загрузка, парсинг и разбиение данных

Глава 2 —	Интеллектуальный парсинг документов
Глава 3 —	Продвинутые стратегии разбиения

Часть III — Векторные базы и оптимизация поиска

Глава 4 —	Выбор векторной базы
Глава 5 —	Архитектура поискового пайплайна

Часть IV — Безопасность, приватность, доступ

Глава 6 —	Модели угроз и уязвимости RAG
Глава 7 —	Контроль доступа на практике
Глава 8 —	Анонимизация данных в RAG-пайплайне

Часть V — Оценка, мониторинг, поддержка

Глава 9 —	Триада оценки RAG
Глава 10 —	Ведущие фреймворки оценки
Глава 11 —	Непрерывные обновления и оптимизация пайплайна

Приложения (только в книге)

A —	Ключевые математические формулы для оптимизации RAG
B —	Шаблоны системных промптов для анонимизации и оценки

C —	Матрицы выбора векторных баз и инструментов
D —	Бенчмарк-датасеты для оценки RAG

Том IV — Проектирование мышления ИИ через MCP

Инженерия контекста, инструментов и памяти для надёжных ИИ-агентов.

Структурированное моделирование контекста и оркестрация: как формировать рассуждение модели, инженеря те контексты и ситуации, которые она видит, а не саму модель. Том для тех, кто строит агентные системы — инвентарь инструментов, длинные циклы, память между сессиями и дисциплина проектирования того, что модели вообще доступно видеть.

Обложка Тома IV — Designing AI Cognition with MCP

Часть I — Смена парадигмы в интеграции ИИ

Глава 1 —	Кризис интеграции ИИ и подъём агентной архитектуры
Глава 2 —	Знакомство с Model Context Protocol (MCP)

Часть II — Базовая механика MCP

Глава 3 —	Серверные примитивы — экспонирование контекста и возможностей
Глава 4 —	Клиентские примитивы — агентное поведение и контроль
Глава 5 —	Транспортные протоколы и обнаружение

Часть III — Паттерны мультиагентной оркестрации

Глава 6 —	Фундаментальные стратегии оркестрации
Глава 7 —	Сложные совместные и динамические паттерны
Глава 8 —	Архитектурные раскладки развёртывания

Часть IV — Проектирование мышления: контекст и память

Глава 9 —	Управление бюджетом внимания
Глава 10 —	Память для задач с долгим горизонтом

Часть V — Безопасность агентных воркфлоу

Глава 11 —	Поверхности атаки и уязвимости протокола
Глава 12 —	Закаливание протокола и защиты

Часть VI — Продакшен-инженерия и масштаб

Глава 13 —	Фреймворки и облачная интеграция
Глава 14 —	Бенчмаркинг, тестирование, производительность

Приложения (только в книге)

A —	Шпаргалка по MCP
B —	Чертежи реализаций и примеры кода
C —	Чек-листы готовности к продакшену и безопасности

D —	Продвинутые спецификации и SEP
E —	Бенчмарки и данные о производительности
F —	Официальные ресурсы и экосистема

Том V — Реальные LLM-приложения

Проектирование, оценка и эксплуатация LLM-систем в продакшене.

Системный взгляд от прототипа до продакшена — дизайн API, оценочные циклы, мониторинг, интеграция — то, что превращает способную модель в надёжный продукт. Том, который переводит архитектурное понимание в работающие сервисы с реальными пользователями.

Обложка Тома V — Building Real-World LLM Applications

Часть I — Основы ИИ-инженерии

Глава 1 —	Дисциплина ИИ-инженерии
Глава 2 —	Foundation-модели и промпт-инжиниринг

Часть II — Агентные и поисковые возможности

Глава 3 —	Retrieval-Augmented Generation (RAG)
Глава 4 —	ИИ-агенты и вызов инструментов

Часть III — Качество и наблюдаемость

Глава 5 —	Оценка LLM-приложений
Глава 6 —	Наблюдаемость и трассировка ИИ

Часть IV — Безопасность, масштаб, оптимизация

Глава 7 —	Безопасность LLM и ограждения
Глава 8 —	Оптимизация производительности, инференса и стоимости

Приложения (только в книге)

A —	Чек-листы готовности и безопасности продакшена
B —	Матрицы выбора инструментов и фреймворков
C —	Протоколы, стриминг, структурированные ответы

D —	Архитектура ограничений и управления стоимостью
E —	Глоссарий метрик и терминов ИИ-инженерии

Том VI — Масштабирование ИИ-систем

Архитектура инференса LLM с низкой задержкой для продакшен-масштаба.

Архитектура высокопроизводительного инференса: распределённое обслуживание, оптимизация задержек, моделирование стоимости — для систем, которые обязаны отвечать миллионы раз в день. Том, который читают, когда ИИ-система перерастает один сервер и должна вести себя как настоящая инфраструктура.

Часть I — Основы инференса LLM

Глава 1 —	Механика генерации токенов
Глава 2 —	Вызов KV-кэша

Часть II — Аппаратная основа

Глава 3 —	GPU датацентра для генеративного ИИ
Глава 4 —	Специализированный ИИ-кремний и ASIC

Часть III — Оптимизация на уровне модели (сжатие)

Глава 5 —	Демистификация квантизации
Глава 6 —	Прунинг и дистилляция знаний

Часть IV — Оптимизации системы и движка

Глава 7 —	Продвинутые стратегии батчинга
Глава 8 —	KV-кэш нового поколения
Глава 9 —	Спекулятивное декодирование

Часть V — Фреймворки и оркестрация

Глава 10 —	Слой движка LLM
Глава 11 —	Платформа и оркестрация
Глава 12 —	Дезагрегированное обслуживание и Kubernetes
Глава 13 —	Автомасштабирование и борьба с холодным стартом

Часть VI — Экономика приложения и TCO

Глава 14 —	Экономика токенов и ценообразование API
Глава 15 —	Serverless API против выделенной инфраструктуры
Глава 16 —	Стратегии сокращения стоимости в продакшене

Приложения (только в книге)

A —	Математические формулы и справочник по моделированию стоимости
B —	Справочник по железу и ускорителям

C —	Конфигурации развёртывания и сниппеты
D —	Методология бенчмаркинга и определения метрик

Том VII — Безопасность ИИ

Защита LLM-систем от prompt injection, джейлбрейков и атак.

Проектирование безопасного и устойчивого ИИ: адверсариальные риски, prompt injection, фреймворки управления и защитная архитектура для систем, развёрнутых в реальном мире. Том, который читают, когда ИИ-систему нужно рассматривать как инфраструктуру с уровнем требований безопасности.

Часть I — Основы безопасности ИИ

Глава 1 —	Чем безопасность ИИ отличается
Глава 2 —	Моделирование угроз для LLM-систем
Глава 3 —	Безопасность данных и приватность

Часть II — Безопасность промптов и взаимодействия

Глава 4 —	Prompt injection и джейлбрейки
Глава 5 —	Валидация ввода и фильтрация вывода
Глава 6 —	Риски RAG

Часть III — Устойчивость и надёжность модели

Глава 7 —	Галлюцинации и надёжность
Глава 8 —	Адверсариальные атаки на модели
Глава 9 —	Целостность модели и риски цепочки поставок

Часть IV — Безопасность на уровне системы

Глава 10 —	Проектирование безопасной архитектуры LLM
Глава 11 —	Наблюдаемость, логирование, реакция на инциденты
Глава 12 —	Контроль доступа и идентификация

Часть V — Управление, этика, комплаенс

Глава 13 —	Регуляторный ландшафт
Глава 14 —	Смещения, справедливость, ответственный ИИ
Глава 15 —	Построение безопасной ИИ-организации

Часть VI — Продвинутые темы

Глава 16 —	Безопасный fine-tuning и адаптация
Глава 17 —	Будущие угрозы и новые средства защиты

Приложения (только в книге)

A —	Чек-лист безопасности ИИ для продакшена
B —	Шаблон модели угроз
C —	Паттерны безопасного дизайна промптов

D —	Шаблон реакции на инциденты для LLM-приложений
E —	Рекомендуемые инструменты и фреймворки

Как эта страница растёт

Эта страница будет обновляться по мере выхода каждого тома серии и по мере того, как живые разборы каждой главы становятся доступны. Тома с III по VII уже здесь со своими полными оглавлениями; разборы их глав будут добавляться по мере написания.

Сохраните страницу в закладки, если хотите следить за серией по мере её разворачивания. Или подпишитесь на ленту канала — каждая новая статья будет приходить в день выхода.

Начните с Тома I. Двенадцать глав, никакого требования к бэкграунду, и связная инженерная картина того, как работает большая языковая модель. Открыть LLM Primer I на Amazon →

Дальше — глубже, с Томом II. Та математика, что стоит под механизмом. Полные выводы, проработанные численные примеры и связки между ними. Открыть LLM Primer II на Amazon →

Серия LLM Primer

Что это за серия

Как читать эту страницу

Том I — Как работает генеративный ИИ

Часть I — Что такое LLM

Часть II — Как модель учится

Часть III — Как с моделью работать

Часть IV — Куда LLM движется

Приложения (только в книге)

Том II — Языковые модели через математику

Часть I — Математическая интуиция

Часть II — Архитектура трансформера

Часть III — Обучение, дообучение, оценка

Часть IV — Применение и пределы

Приложения (только в книге)

Том III — Прокачка корпоративного ИИ с RAG

Часть I — Основы Retrieval-Augmented Generation

Часть II — Загрузка, парсинг и разбиение данных

Часть III — Векторные базы и оптимизация поиска

Часть IV — Безопасность, приватность, доступ

Часть V — Оценка, мониторинг, поддержка

Приложения (только в книге)

Том IV — Проектирование мышления ИИ через MCP

Часть I — Смена парадигмы в интеграции ИИ

Часть II — Базовая механика MCP

Часть III — Паттерны мультиагентной оркестрации

Часть IV — Проектирование мышления: контекст и память

Часть V — Безопасность агентных воркфлоу

Часть VI — Продакшен-инженерия и масштаб

Приложения (только в книге)

Том V — Реальные LLM-приложения

Часть I — Основы ИИ-инженерии

Часть II — Агентные и поисковые возможности

Часть III — Качество и наблюдаемость

Часть IV — Безопасность, масштаб, оптимизация

Приложения (только в книге)

Том VI — Масштабирование ИИ-систем

Часть I — Основы инференса LLM

Часть II — Аппаратная основа

Часть III — Оптимизация на уровне модели (сжатие)

Часть IV — Оптимизации системы и движка

Часть V — Фреймворки и оркестрация

Часть VI — Экономика приложения и TCO

Приложения (только в книге)

Том VII — Безопасность ИИ

Часть I — Основы безопасности ИИ

Часть II — Безопасность промптов и взаимодействия

Часть III — Устойчивость и надёжность модели

Часть IV — Безопасность на уровне системы

Часть V — Управление, этика, комплаенс

Часть VI — Продвинутые темы

Приложения (только в книге)

Как эта страница растёт

SHO