Глава 6 — Фундаментальные стратегии оркестрации

Шестой пост поглавного разбора LLM Primer IV: Designing AI Cognition with MCP. Мультиагентная система — это распределённая система. Как только принят этот фрейм, большая часть проектных выборов этой главы становится знакомой, а большая часть дорогих отказов 2024 и 2025 годов перестаёт быть загадочной.

Почему существует эта глава

Маркетинговый язык вокруг агентных систем намекает, что больше агентов — это в принципе лучше: больше когнитивной мощности, больше специализации, больше эмерджентной способности. Инженерная реальность в большинстве случаев противоположна. Каждый дополнительный агент добавляет round trip, точку сериализации, место, где выход одного агента становится входом другого, и новую возможность для разговора уйти не туда. Правильный стартовый вопрос — не «как мне распределить это между агентами?», а «может ли единственная модель с правильными инструментами сделать это за один вызов?»

Эта глава проходит две простейшие формы оркестрации — последовательную и параллельную — и предварительный вопрос, который должен предшествовать обеим. Многие из самых дорогих продакшен-отказов последних двух лет были не отказами оркестрации. Это были системы, построенные как мультиагентные там, где один хорошо оснащённый агент сделал бы работу с одной десятой латентности и без багов координации.

Если коротко: последовательная — это эстафета, параллельная — это кухня с многими поварами; обе покупают возможность ценой координации, и ни одна не является правильным ответом, пока не было доказательно отвергнуто решение «один хорошо оснащённый агент».

6.1 Когда несколько агентов действительно помогают

Аргумент в пользу единственного агента с инструментами сильнее всего, когда задача распадается на небольшое число хорошо определённых операций против хорошо определённых источников данных. Ассистент ревью кода, читающий diff, запускающий линтер, ищущий конвенции и пишущий комментарий, может быть построен как один вызов модели с четырьмя инструментами. Добавление второго агента вводит латентность, не добавляя возможностей — модель и так делает планирование; вторая модель, планирующая по-другому, — это стоимость координации, а не улучшение.

Три свойства делают несколько агентов оправданными. Гетерогенность контекста — когда двум фазам нужны кардинально разные системные промпты, инструменты или справочный материал, силовое сведение их в одно окно размывает внимание модели. Канонический случай — «сначала исследование, потом запись»: поиску нужны широта и инструменты поиска, написанию — проза и никаких инструментов. Итеративная доводка против внешней проверки — если вывод нужно ревьюить и, возможно, переписывать, у автора и проверяющего каждый хочет собственный контекст и промпт. Параллелизм по независимым подзадачам — пять источников документов для резюмирования, три перспективы для сбора, десять файлов для анализа — прогон их последовательно тратит wall-clock-время на работу, у которой нет причинной зависимости.

До решения о мультиагентности инженер должен суметь назвать свойство, мотивирующее её. Ретроспектива 2025 года из крупной логистической компании заменила семиагентную оркестрацию поддержки клиентов одним агентом Claude плюс шестью MCP-инструментами; одноагентная версия была быстрее, дешевле и набирала выше по качеству разрешения. «Можем ли мы это свернуть?» должно быть постоянным вопросом в любом ревью оркестрации.

6.2 Последовательная оркестрация: пайплайны и прогрессивная доводка

Последовательная оркестрация — простейшая мультиагентная форма. Выход одного агента становится входом следующего. Большинство продакшен-«мультиагентных» систем — это последовательные пайплайны в маскировке. Сила — читаемость: пайплайн можно нарисовать на доске, протестировать по этапам и рассуждать о нём как о серии контрактов вход-выход. Контракт между этапами — ключевой артефакт; каждый этап объявляет свою входную схему, оркестратор обеспечивает её кодом, а не доверием, и провалы валидации запускают повторы или резервные пути, а не распространяются молча.

Канонический случай — «сначала исследование, потом запись». Исследующий агент с инструментами веб-поиска и retrieval производит структурированную сводку; пишущий агент без инструментов и с прозовым промптом превращает сводку в статью. Пишущий агент не видит ложных стартов, отброшенных источников или длинных цепочек рассуждений. Он видит сводку. Оба этапа могут пользоваться разными моделями — сильное рассуждение для исследования, сильная проза для написания — и стоимости начисляются только там, где каждая нужна. Прогрессивная доводка — близкий родственник: черновик, редактура, факт-чек, переформатирование. Специализированные операторы превосходят универсала, пытающегося сделать всё за один проход.

Честные стоимости — три. Латентность — у N-этапного пайплайна пол равен сумме времён этапов. Длинные пайплайны по определению исключают себя из разговорной латентности. Усиление ошибок — четырёхэтапный пайплайн при 95% на этапе даёт 81% от начала до конца; восьмиэтапный — 66%. Поэтапная валидация с ограниченными повторами держит математику работающей. Потеря информации между этапами — каждый выход неизбежно у́же своего рабочего контекста, и информация, которая позже понадобится пишущему агенту, ушла, если только схема сводки не была богаче строго необходимого.

6.3 Параллельная оркестрация: scatter, gather, мультиперспектива

Параллельная оркестрация запускает несколько агентов параллельно и комбинирует их выходы. Определяющее свойство — отсутствие причинной зависимости во время работы; зависимость только на шаге комбинирования. Иногда называют scatter-gather, иногда map-reduce для агентов; топология та же.

Три варианта применения мотивируют паттерн. Параллелизм по независимым подзадачам — пять источников читаются параллельно, затем один синтезатор. Wall-clock-время — это самый медленный читатель плюс синтезатор, а не сумма. Мультиперспективный анализ — один и тот же вход, поданный промпту финансового аналитика, юридического ревьюера и продуктового стратега, с настолько по-настоящему разными формулировками, чтобы выходы не оказались косметическими вариантами. Ансамблирование ради надёжности — один и тот же промпт у нескольких агентов с выходами, отголосованными или усреднёнными; оправданно, когда неверный ответ обходится сильно дороже, чем 3x по токенам.

Шаг комбинирования — место, где инженерное усилие окупается. Наивные синтезаторы, получив длинные противоречащие входы, становятся узким местом. Три паттерна это улучшают: структурированные промежуточные выходы, чтобы синтезатор сливал поля детерминированно, а не перечитывал прозу; иерархическая редукция, чтобы каждый комбинирующий агент видел ограниченное число входов при росте fan-out; и поднятие конфликтов, чтобы синтезатор помечал расхождения, а не тихо выбирал сторону.

Диагностический вопрос, правильно ли scatter-gather: если бы я сказал одному параллельному агенту, что сейчас производит другой, изменился бы его вывод? Если да — работа не была независимой и паттерн неправильный; вам нужны либо последовательные зависимости, либо динамические паттерны главы 7.

6.4 Честная математика координации

Каждый паттерн оркестрации в рантайме — это распределённый workflow над ненадёжными работниками. Частоты отказа на вызов в 1–5% типичны даже для качественных моделей — провалы парсинга JSON, нарушения контракта, галлюцинации имён инструментов, тихие пропуски. Перемноженная по пайплайну ставка 2% на этапе при восьми этапах даёт 85% от начала до конца. Смягчения структурны: поэтапная валидация, запускающая ограниченные повторы; поэтапная наблюдаемость, фиксирующая входы, выходы, латентность, расход токенов и какие ворота валидации пройдены; и ограниченный резерв, чтобы исчерпанный бюджет повторов деградировал плавно, а не схлопывал весь поток.

Бюджетам латентности нужен потолок, а не только пол — пользователей волнует не среднее, их волнует длинный хвост. Бюджетам стоимости нужна модель заранее: двухэтапный пайплайн стоит ~1,5x от одноэтапного эквивалента, scatter-gather по пяти ветвям стоит 5–8x, roundtable-ы — 10x или больше. Некоторые системы нежизнеспособны в масштабе, потому что стоимость на взаимодействие превышает ценность взаимодействия. Делайте арифметику на этапе проектирования, а не после прихода счёта.

Стоит запомнить: паттерн оркестрации должен соответствовать структуре работы, а не энтузиазму команды по агентным фреймворкам. Последовательная — это эстафета; параллельная — это кухня. Обе — распределённые системы с ненадёжными работниками, и разница между мультиагентной системой, работающей в демо, и той, что работает в продакшене, — это честный учёт частот ошибок, хвостов латентности и соотношений стоимости.

Что подготавливает глава 6

Последовательная и параллельная — строительные блоки. Они покрывают большинство мультиагентных случаев, когда топология задачи известна заранее и роли работников фиксированы. У них есть общая предпосылка: кто-то на этапе проектирования решил, какие агенты есть и как они соединены. Оркестрация статична; пайплайн рисуется до прихода любого пользовательского запроса. Глава 7 убирает эту предпосылку.

Дальше — Глава 7: Продвинутые совместные и динамические паттерны. Roundtable, handoff-маршрутизация и magentic-оркестрация — что происходит, когда топология должна строиться под запрос, а не под проект, и режимы отказа (не-завершение, мисс-маршрутизация, ускользающее планирование), которых избегают простые паттерны.

Хочется всю картину? Книга проходит два полевых паттерна в глубину — пайплайн legal-tech ревью контрактов, схлопнувшийся с пяти этапов до двух, и scatter-gather-исследовательскую систему консалтинговой фирмы, которой потребовался этап триажа во избежание катастрофических отказов декомпозиции — плюс полную арифметику бюджета ошибок для продакшен мультиагентных систем. LLM Primer IV на Amazon →