Введение в LLM
Эта страница предоставляет понятное руководство по большим языковым моделям (LLM), от основ до приложений для любителей ИИ.
Глава 14 — Бенчмаркинг, тестирование и производительность
Пятнадцатый и финальный пост поглавного разбора LLM Primer IV. MCP-Universe Benchmark на реальных серверах, два системных режима отказа, которые он раскрыл, десятикратный разрыв пропускной способности между session-per-request и пулом сессий, и мост к тому V.
2026-04-12Глава 10 — Память для долгих задач
Десятый пост поглавного разбора LLM Primer IV. Краткосрочная память через окна и ReAct-черновики, долгосрочная память через эпизодические векторы и семантические хранилища, и техники сжатия, держащие агента продуктивным часами и днями.
2026-04-08Глава 9 — Управление бюджетом внимания
Девятый пост поглавного разбора LLM Primer IV. Context rot, обрыв lost-in-the-middle, tool-loadout rot и три архитектурных ответа — MCP, RAG, дообучение — на вопрос, где на самом деле живёт недостающее знание модели.
2026-04-07Глава 8 — Архитектурные раскладки развёртывания
Восьмой пост поглавного разбора LLM Primer IV. Три раскладки развёртывания, проявившиеся в MCP-экосистеме — reusable agent, strict purity, hybrid, — и четыре связывающих ограничения, определяющих, какая подходит какому проекту.
2026-04-06Глава 6 — Фундаментальные стратегии оркестрации
Шестой пост поглавного разбора LLM Primer IV. Две базовые формы оркестрации — последовательные пайплайны и параллельный scatter-gather — и предварительный вопрос, который должна задать каждая команда: является ли мультиагентная система вообще правильным ответом?
2026-04-04Глава 4 — Клиентские примитивы: агентное поведение и контроль
Четвёртый пост поглавного разбора LLM Primer IV. Sampling, Roots и Elicitation — три небольших, контролируемых отверстия, которые MCP пробивает в стене между хостом и сервером, каждое — отданная назад возможность и принятый от имени пользователя риск.
2026-04-02Глава 3 — Серверные примитивы: экспонирование контекста и возможностей
Третий пост поглавного разбора LLM Primer IV. Три существительных, которые может предложить MCP-сервер — Resources (чтение состояния), Prompts (переиспользуемые шаблоны), Tools (действия записи), — их схемы, жизненные циклы, модели ошибок и дисциплина выбора правильного примитива.
2026-04-01Глава 1 — Кризис интеграций ИИ и подъём агентной архитектуры
Первый пост поглавного разбора LLM Primer IV. Почему монолитные агенты распадаются по мере роста системных промптов, проблема интеграций N на M, скрытая под этим, и переход от prompt engineering к context engineering, под который и был построен MCP.
2026-03-30LLM Primer IV — Введение в серию и оглавление
Открываем поглавный разбор четвёртой книги серии LLM Primer — Проектирование когнитивных способностей ИИ с MCP. Почему агентам нужен протокольный слой, чтобы выйти за пределы демо, для кого эта книга и расписание четырнадцати постов с 30 марта по 12 апреля.
2026-03-29Глава 11 — Непрерывные обновления и оптимизация пайплайна
Одиннадцатый и заключительный пост разбора LLM Primer III. CDC и инкрементальная индексация держат корпус свежим, семантическое кеширование и тиринг моделей держат латентность низкой, а четырёхстадийная петля обратной связи закрывает разрыв между тем, что продакшен говорит команде, и тем, что команда реально меняет — плюс мост в Том IV про Model Context Protocol.
2026-03-28Глава 8 — Анонимизация данных в RAG-пайплайне
Восьмой пост разбора LLM Primer III. Анонимизация до генерации против после, три семейства техник — маскирование, синтетическая замена, дифференциальная приватность — и компромисс полезность–приватность, определяющий, остаётся ли система вообще полезной.
2026-03-25Глава 5 — Архитектура поискового пайплайна
Пятый пост разбора LLM Primer III. Почему одиночный векторный поиск — это не пайплайн: гибридный поиск, reciprocal rank fusion, cross-encoder reranking и переписывание запроса и HyDE, собранные в продакшен-архитектуру, к которой сходятся зрелые RAG-системы.
2026-03-22Глава 4 — Выбор подходящей векторной базы данных
Четвёртый пост разбора LLM Primer III. Архитектурный раздел между специализированными векторными базами и расширениями вроде Postgres, лидеры managed-сегмента (Pinecone, Vertex), open-source поле (Qdrant, Milvus, Weaviate), встраиваемые опции и три операционные оси — резидентность, ops, стоимость, на которых решается реальный выбор.
2026-03-21Глава 3 — Продвинутые фреймворки чанкинга
Третий пост разбора LLM Primer III. Спектр чанкинга от фиксированного размера до учёта структуры, миф об overlap, обрыв контекста, тихо разрушающий поиск, и техники contextual retrieval и late chunking, переписавшие фронтир.
2026-03-20Глава 2 — Интеллектуальный парсинг документов
Второй пост разбора LLM Primer III. Почему PDF — это не текстовый файл, что на самом деле сохраняют парсеры с учётом макета, текущий ландшафт инструментов (LlamaParse, Docling, Unstructured, Marker-PDF, Firecrawl, DeepSeek-OCR) и мультимодальный трек, ищущий по изображениям страниц напрямую.
2026-03-19Глава 11 — Меньше модели, умнее модели
Одиннадцатый пост разбора LLM Primer I по главам. Как уменьшить большие модели до размеров реальной эксплуатации — дистилляция, квантизация, MoE — и новая секция §11.6 издания 2026 года о моделях рассуждения.
2026-02-28Глава 10 — Мультимодальность: за пределами текста
Десятый пост разбора LLM Primer I по главам. Как тот же трансформер научился принимать картинки и звук — vision transformer и токенизация аудио — и честные ограничения за идеей «одна модель, которая видит всё».
2026-02-27Глава 8 — Когда одной модели мало: инструменты и агенты
Восьмой пост разбора LLM Primer I по главам. Территория, где модель обретает руки — использование инструментов, вызов функций, агенты — и новый §8.6 издания 2026 года с паттернами агентов: ReAct, планировщик-исполнитель, рефлексия.
2026-02-25Глава 3 — Как текст течёт внутри модели
Третий пост разбора LLM Primer I по главам. Как меняется токен внутри модели — эмбеддинги, внимание, трансформер — без матриц, но без потери точности.
2026-02-20Глава 2 — Вероятность, токены и текст
Второй пост разбора LLM Primer I по главам. Чем токены отличаются от слов, что такое то распределение вероятностей, которое модель строит на каждом шаге, и как temperature и top-p меняют характер вывода.
2026-02-19