Глава 10 — Память для долгих задач

Десятый пост поглавного разбора LLM Primer IV: Designing AI Cognition with MCP. В котором вопрос перестаёт быть «сколько помещается» и становится «что помнить и что забывать», а выпускаемые сегодня семизначные окна контекста оказываются откладывающими стену на час, а не убирающими её.

Почему существует эта глава

Агент, работающий тридцать секунд, может нести всё нужное в своём промпте. Агент, работающий три часа, — нет. Работа, которую он сделает в первый час, не поместится рядом с работой, которую он сделает в третий, и вопрос, что помнить и что забывать, становится центральной инженерной задачей. Окно контекста больше не бюджет, которым управляют; это рабочая поверхность, которую нужно непрерывно обновлять против более глубокого хранилища. Эта глава об архитектуре запоминания — краткосрочная память для непосредственного рассуждения, долгосрочная для устойчивости через сессии, и техники сжатия и вынесения наружу, связывающие их.

Если коротко: краткосрочная память — это не память модели, а память агентного цикла, материализованная как текст и вставляемая на каждом вызове — что означает, что каждое решение о том, что модель помнит, — это решение, которое цикл принимает явно, кодом, без скрытого состояния для дебага.

10.1 Краткосрочная память: окна, черновики, ReAct

Краткосрочная память — это всё, что сидит в текущем окне контекста и доступно без внешнего поиска. Простейшая политика — скользящее окно: держите системный промпт и описания инструментов наверху, держите N последних ходов внизу, выбрасывайте всё между. Это работает, пока релевантный контекст недавний — правда для коротких разговоров и ложь почти для всего остального. Режим отказа чист: как только ход выкинут, его нет — и агент будет видимо забывать инструкции пользователя в предсказуемой точке, где окно впервые заполняется.

Следующий слой — черновик (scratchpad), структурированная область контекста, в которую модель сознательно пишет. Внутренние черновики переносят промежуточное рассуждение вперёд внутри цикла; внешние пишут заметки через вызов инструмента в сохранённый буфер, который будущие контексты вставляют. Паттерн, давший черновикам каноническую форму, — ReAct (Reason and Act), введённый Yao и др. в 2022 году. Цикл чередует мысль, действие, наблюдение, пока модель не решит, что у неё есть ответ. Структура выносит рассуждение в явные текстовые артефакты, к которым модель может обращаться, и даёт агентному циклу видимый каркас для операций с памятью: мысли можно резюмировать, действия дедуплицировать, наблюдения сжимать. Агенты, построенные без ReAct или близкого варианта, обычно сплетают рассуждение и действие способами, делающими их состояние непрозрачным.

Практическое дополнение — Reflexion, добавляющий явный шаг рефлексии, в котором модель оценивает свои недавние действия и пишет критику в черновик для следующей попытки. Современные агентные фреймворки смешивают оба в один конфигурируемый цикл, с рефлексией, запускаемой сигналом отказа, а не на каждом цикле.

10.2 Долгосрочная память: эпизодическая и семантическая

Когда краткосрочная память заканчивается, начинается долгосрочная. Когнитивно-научное различие между эпизодической (конкретные события) и семантической (общие факты) памятью оказалось полезным для агентов. Эпизодическая память — это запись конкретных прошлых взаимодействий; семантическая — дистиллированное знание, которое выжило: что этот пользователь предпочитает метрические единицы, что команда деплоя этого проекта — make ship, что этот API возвращает ошибки, выглядящие как успех.

Эпизодическая память на текущей практике почти всегда векторная БД. Каждое прошлое взаимодействие эмбеддится, хранится с метаданными и достаётся во время запроса по семантическому сходству. Паттерн — RAG, применённый к собственному прошлому агента, а не к корпусу документов, и инженерия — чанкинг, выбор эмбеддера, оценка retrieval — по большей части идентична тому, что покрывает том III.

Семантическая память менее стандартизирована. Две доминирующие подложки — структурированные key-value-хранилища и графы знаний. Key-value просты, быстры, легко инспектируются; графы поддерживают многошаговые запросы вроде «какая команда деплоя для проекта, над которым пользователь сейчас работает», но требуют поддержки и языка запросов. Большинство продакшен-агентов стартует с key-value и переходит на граф, только когда запросы реально требуют джойнов. Многие так и не переходят.

Политика обновления — место, где большинство команд попадают в проблемы. Факт, извлечённый из одного разговора, не обязательно верен в общем. Наивная политика, продвигающая каждое утверждение в семантическую память, произведёт повреждённое хранилище, противоречащее самому себе. Появившаяся дисциплина — взвешивать утверждения по контексту, версионировать факты по таймштампам и провенансу и — для высоких ставок — пропускать обновления через явное подтверждение пользователем. Появившийся паттерн под именами вроде MemGPT — дать агенту явные инструменты управления памятью, чтобы модель сама решала, что сохранять, доставать и забывать. Выигрыш в том, что модель часто знает о значимости воспоминаний то, чего не уловил бы экстрактор на правилах. Цена — модель тоже ошибается, и хранилищу памяти, курируемому моделью, нужны защиты против неконтролируемого роста.

10.3 Переживание предела контекста: сжатие и структурированные заметки

Даже с эпизодической и семантической памятью на месте текущая сессия агента всё равно упирается в своё окно. Самое частое лекарство — summarisation-based compaction: когда контекст приближается к 60–80% окна, фоновый шаг резюмирует старые ходы и заменяет их. Режимы отказа — summary drift (общая суть выживает, но конкретные факты, оказавшиеся важными, теряются) и recursive smoothing (каждый проход резюмирует резюме, и накопительная потеря сурова). Лекарства — структурированные промпты резюмирования, сохраняющие именованные сущности, решения и открытые вопросы, и резюмирование от оригиналов, когда возможно, а не от более ранних резюме.

Очистка результатов инструментов вытесняет основную массу возвратов через несколько промежуточных ходов, заменяя их короткими заметками вроде «опросил таблицу users, вернулось 47 строк, нашёл пользователя 12345». Структурированное ведение заметок требует от агента поддерживать авторитетный файл заметок, фиксирующий текущую цель, завершённые шаги, оставшиеся шаги и открытые вопросы, — относящийся к нему как к источнику истины, а не как к стенограмме. Вынесение наружу переносит произведённые артефакты в файловую систему или БД, а контекст держит лишь ссылки. Объединяющий принцип в том, что окно контекста — для активной работы, а не для архива. Большие окна делают внешнее хранение важнее, а не менее, потому что они позволяют более длинные сессии, в которых у архитектуры вынесения наружу больше времени либо сработать, либо отказать.

Стоит запомнить: агенты с долгим горизонтом — это не просто более длинные коротко-горизонтные. Это другая инженерная задача с другими режимами отказа — паттерны исследователя, инжиниринга, операций и фона по-разному компонуют примитивы. Сделайте состояние памяти проверяемым в человеко-читаемой форме, логируйте каждое чтение и запись и тестируйте возобновление сессии и высокую нагрузку на память как рутинные случаи, а не пограничные.

Что подготавливает глава 10

Главы 9 и 10 вместе закрывают часть IV двумя комплементарными ментальными моделями: контекст как конечный бюджет внутри одного вызова и память как архитектура выборочного запоминания через сессии. Ни одна из глав не сталкивалась с адверсариальным давлением. Каждая запись в память — место, которое атакующий может отравить. Каждый вызов инструмента — место, которое атакующий может перехватить. Каждое извлечённое воспоминание — место, которое атакующий может проинжектить инструкциями, которые агент примет за свои мысли. Архитектуры последних двух глав проектировались под корректность и эффективность, а не под выживание под атакой.

Дальше — Глава 11: Поверхности атак и уязвимости протокола. Confused Deputy, Token Passthrough, Session Hijacking, Capability Escalation, Unauthenticated Sampling и неявное распространение доверия, делающее отравление контекста столь трудным к исправлению.

Хочется всю картину? Книга проходит четыре канонических паттерна — исследователь, инжиниринг, операции, фоновые агенты — с их характерными режимами отказа, дисциплину контрольных точек, к которой пришли долгие кодовые агенты, и архитектуру удаления, отделяющую систему памяти, растущую мудрее с использованием, от той, что растёт громче. LLM Primer IV на Amazon →