Глава 9 — Управление бюджетом внимания

Девятый пост поглавного разбора LLM Primer IV: Designing AI Cognition with MCP. В котором окно контекста в миллион токенов оказывается потолочным значением, а не рабочей точкой, и значительная доля «модель стала хуже» оказывается «модель завалили».

Почему существует эта глава

Окно контекста выглядит как свободное место. Это не так. Каждый токен, который читает агент, стоит латентности, денег и — менее очевидно, но важнее — качества. Иллюзия, что окно в миллион токенов означает «вместить всё», — одно из самых дорогих неверных прочтений текущей практики, и на её счету большая доля продакшен-отказов, диагностируемых как регрессии модели. Модель не стала хуже. Её завалили. Эта глава о том, как относиться к контексту как к конечному бюджету, а не свободному ресурсу: что съедает бюджет, какие альтернативы существуют, когда бюджет — неправильный инструмент, и как попасть в продуктивную зону, где у агента есть ровно то, что нужно, и ничего больше.

Если коротко: контекст — это центр затрат, а не свободный вход; команда, добавляющая инструменты без удаления, накапливающая историю без сжатия и засовывающая каждый найденный чанк в окно в надежде, что больше точно не помешает, работает в той части кривой, где каждое добавление делает хуже.

9.1 Context rot и нелинейный обрыв

Отношение между длиной контекста и качеством не линейно. Удвоение промпта не уполовинивает качество; после некоторого порога — более чем уполовинивает. Прижившееся техническое имя — context rot — неформально, но точно. Классическое исследование из Стэнфорда (Liu и др.) показало, что модели, которых просили найти информацию в списке документов, работали драматически хуже, когда релевантный документ был в середине, чем когда на любом из концов. U-образная кривая воспроизводится в разных семействах моделей и длинах контекста. Середина длинного промпта в осмысленном смысле «вниманием дешевле», чем границы, хотя архитектура трактует каждую позицию одинаково.

Бенчмарки «иголка в стоге», ставшие стандартными в 2023–2024, поначалу казалось, опровергали эту картину — почти идеальный поиск на 100K, 200K, даже 1M токенов. Более аккуратные последующие работы показали, что бенчмарки были слишком простыми. Заметная иголка в однородном стоге — другая задача, чем поиск релевантного факта, погребённого среди двадцати тематически близких отвлекающих. MCP-Universe и BIG-Bench-Long, выпущенные в конце 2025 года, встроили эту адверсариальную структуру, и цифры отрезвляют: на 100K фронтирные модели теряют 10–20 пунктов по сравнению с той же задачей на 8K, а на 500K разрыв может достигать сорока.

Есть второй вид rot, специфичный для MCP-агентов. По мере накопления инструментов в системном промпте точность модели в выборе правильного инструмента деградирует. MCP-Universe показал падение точности выбора инструмента с примерно 90% при пяти инструментах до ниже 60% при сорока. Практики теперь называют это tool-loadout rot, и это самая частая причина «агент поглупел после того, как мы добавили больше возможностей». Механизм в обоих случаях один: внимание конечно, и по мере роста промпта доля, которая достаётся каждому токену, сжимается.

9.2 Три ответа на один и тот же вопрос: MCP, RAG, дообучение

Когда у модели не хватает нужного знания, есть три архитектурных ответа, и путание одного с другим — причина значительной доли неправильно вложенных усилий. MCP подходит, когда знание операционное — текущий запас на складе, сегодняшний календарь, статус сборки. У них есть авторитетный источник, они непрерывно меняются, и никакой предварительно загруженный контекст не удержит их свежими. Выигрыш не только в свежести, но и в подотчётности: когда модель говорит «сборка зелёная», пользователь может спросить «по чьим данным» — и ответ будет «сборочного сервера, опрошенного в такой-то момент времени».

RAG подходит, когда знание документарное — корпус, слишком большой для окна, но достаточно стабильный, чтобы был выполним поисковый индекс. Внутренние документы, статьи поддержки, контракты, большие кодовые базы. Том III этой серии целиком об инженерии RAG и остаётся канонической ссылкой. Дообучение подходит, когда пробел в поведении — последовательный формат, особый голос, надёжный отказ для класса запросов. Повторяющаяся в индустрии неверная аллокация — использовать дообучение для впрыска фактического знания, которое меняется, что даёт модель, кратко впечатляющую и затем всё более ошибочную по мере дрейфа мира от её замороженного слепка.

Три не исключают друг друга. Зрелый агент обычно сочетает их: дообучение для поведения, RAG для документарного знания, MCP для операционного. Помогающий фрейм — правильная подложка под правильное требование свежести. Поведение стабильно на масштабе поколений моделей; вложите его в веса. Документарное знание меняется в масштабе дней; индексируйте его. Операционное меняется в масштабе секунд; тянитесь к нему через инструменты. Архитектуры, не совпадающие с подложкой — замороженные веса для быстро меняющихся фактов, поисковые индексы для живого состояния, — платят корректностью, латентностью или и тем и другим.

9.3 Зона Златовласки: достаточно контекста, не слишком много

Каждодневный вопрос — сколько контекста передавать на каждый вызов. Зона посередине у́же, чем большинство команд изначально предполагают. Самый влиятельный рычаг — системный промпт. Хороший — короткий, конкретный, стабильный. Плохой — оборонительный промпт, растущий накоплением, с пунктом, добавленным каждый раз, когда модель сделала что-то не так, пока он не становится документом правил на тысячу слов, которому модель больше не может надёжно следовать. Команды, аудирующие квартально с явной целью удаления, заканчивают с промптами короче, чем годом раньше, и с лучшим поведением.

Второй рычаг — состав инструментов. Исправление tool-loadout rot — прогрессивное раскрытие: зарегистрируйте небольшое число высокоуровневых инструментов и позвольте модели опускаться в специфику через инструмент обнаружения. Сорок узких инструментов становятся четырьмя широкими с внутренним диспетчингом, и точность выбора восстанавливает большую часть потерянного. Третий рычаг — история разговора: сжимайте с первого хода, а не при 90% заполнения окна. Четвёртый — результаты инструментов: возвращайте те поля, которые нужны модели, а не всю строку. Дисциплина — осознанное включение: для каждого элемента команда должна уметь ответить «что произошло бы, если бы этого не было». Если ответ «агент вёл бы себя так же», — следует удалить.

Стоит запомнить: контекст больше не место, куда складывают, — это место, где тратят. Измеряйте токены, потраченные по ролям, бюджетируйте на этапе проектирования, а не дебага, прогоняйте регрессии качества по длинам контекста, относитесь к стабильности префикса как к требованию дисциплины кэша и ставьте стабильное содержимое первым, а переменное — последним. Дисциплины, делающие успешным один вызов инференса, — те же, что делают устойчивой длинную сессию.

Что подготавливает глава 9

Эта глава фреймировала контекст как конечный бюджет внутри единственного вызова инференса. Чего она не покрыла — вопроса времени. Агент, работающий тридцать секунд, имеет бюджетную проблему, помещающуюся в одно окно. Агент, работающий тридцать минут, три часа, три дня, имеет проблему памяти, которую никакое окно никакого практического размера не удержит. Стратегии для такого масштаба работы отличаются по виду, а не только по степени.

Дальше — Глава 10: Память для долгих задач. Краткосрочные механизмы через скользящие окна и ReAct-черновики, долгосрочные — через эпизодические векторы и семантические хранилища, и техники сжатия, позволяющие агенту работать часами и днями.

Хочется всю картину? Книга подробно проходит цифры MCP-Universe и BIG-Bench-Long, разворачивает сигнатуры стоимости и латентности каждой подложки и включает семь операционных практик — от пер-ролевой токен-телеметрии до позиционно-осознанной сборки промпта до пер-вызовной аллокации бюджета по агентному циклу, — к которым пришли продакшен-команды. LLM Primer IV на Amazon →