Capítulo 10 — Memória de Tarefa de Horizonte Longo

Décima postagem do passeio capítulo a capítulo pelo LLM Primer IV: Projetando a Cognição da IA com MCP. Em que a pergunta deixa de ser "quanto cabe" e vira "o que lembrar e o que esquecer", e as janelas de contexto de sete dígitos saindo hoje acabam adiando a parede em uma hora em vez de removê-la.

Por que este capítulo existe

Um agente que roda trinta segundos pode carregar tudo de que precisa no prompt. Um agente que roda três horas não. O trabalho que fizer na primeira hora não vai caber junto com o que fizer na terceira, e a pergunta de o que lembrar e o que esquecer vira o problema central de engenharia. A janela de contexto deixa de ser orçamento a gerenciar; vira superfície de trabalho que precisa ser continuamente refrescada contra uma store mais profunda. Este capítulo é sobre a arquitetura de lembrar — memória de curto prazo para raciocínio imediato, memória de longo prazo para persistência entre sessões, e as técnicas de compactação e externalização que conectam as duas.

Em uma linha: memória de curto prazo não é a memória do modelo mas a memória do loop de agente, materializada como texto e injetada em cada chamada — o que significa que toda decisão sobre o que o modelo lembra é decisão que o loop toma explicitamente, em código, sem estado escondido para debugar.

10.1 Memória de curto prazo: janelas, scratchpads, ReAct

Memória de curto prazo é o que se senta dentro da janela de contexto atual e está disponível sem lookup externo. A política mais simples é a janela deslizante: mantenha o prompt de sistema e descrições de tool no topo, mantenha os N turnos mais recentes embaixo, descarte tudo no meio. Funciona enquanto o contexto relevante for recente, o que é verdade para conversas curtas e falso para quase tudo mais. O modo de falha é limpo — uma vez descartado o turno, foi — e o agente visivelmente esquecerá as instruções do usuário no ponto previsível onde a janela primeiro enche.

A próxima camada é o scratchpad, uma região estruturada de contexto que o modelo escreve deliberadamente. Scratchpads internos carregam raciocínio intermediário adiante dentro do loop; scratchpads externos escrevem notas via uma chamada de tool num buffer guardado que contextos futuros injetam. O padrão que deu aos scratchpads sua forma canônica é ReAct — Reason and Act — introduzido por Yao e colegas em 2022. O loop intercala pensamento, ação, observação, até o modelo decidir que tem a resposta. A estrutura externaliza raciocínio em artefatos textuais explícitos aos quais o modelo pode se referir, e dá ao loop de agente andaime visível para operações de memória: pensamentos podem ser resumidos, ações deduplicadas, observações compactadas. Agentes construídos sem ReAct ou variante próxima tendem a emaranhar raciocínio e ação de modos que tornam seu estado opaco.

Um complemento prático é Reflexion, que adiciona passo explícito de reflexão em que o modelo avalia suas ações recentes e escreve uma crítica no scratchpad para a próxima tentativa. Frameworks modernos de agente misturam os dois num único loop configurável, com reflexão disparada por sinal de falha em vez de em cada ciclo.

10.2 Memória de longo prazo: episódica e semântica

Quando memória de curto prazo termina, memória de longo prazo começa. A distinção da ciência cognitiva entre memória episódica (eventos específicos) e semântica (fatos gerais) acabou sendo útil para agentes. Memória episódica é o registro de interações passadas específicas; memória semântica é o conhecimento destilado que sobreviveu — que este usuário prefere unidades métricas, que o comando de deploy deste projeto é make ship, que esta API retorna erros que parecem sucesso.

Memória episódica é, na prática atual, quase sempre um banco vetorial. Cada interação passada é embedada, armazenada com metadados, e recuperada em tempo de query por similaridade semântica. O padrão é RAG aplicado ao próprio passado do agente em vez de a um corpus de documentos, e a engenharia — chunking, escolha de embedding, avaliação de recuperação — é amplamente idêntica ao que o Volume III cobre.

Memória semântica é menos padronizada. Os dois substratos dominantes são stores chave-valor estruturados e grafos de conhecimento. Stores chave-valor são simples, rápidos, fáceis de inspecionar; grafos suportam queries multi-hop como "qual é o comando de deploy do projeto em que o usuário está trabalhando agora" mas exigem manutenção e linguagem de query. A maioria dos agentes em produção começa com chave-valor e formula-se para um grafo só quando as queries de fato exigem joins. Muitos nunca exigem.

A política de atualização é onde a maioria dos times se mete em encrenca. Um fato extraído de uma única conversa não é necessariamente verdade em geral. Uma política ingênua que promove toda asserção a memória semântica vai produzir um store corrompido que contradiz a si próprio. A disciplina que emergiu é pesar asserções por contexto, versionar fatos com timestamps e proveniência, e — para domínios de alta aposta — gatear atualizações por confirmação explícita do usuário. Um padrão que emergiu sob nomes como MemGPT é dar ao agente tools explícitas de gestão de memória para que o próprio modelo decida o que salvar, recuperar e esquecer. A vitória é que o modelo frequentemente sabe coisas sobre quais memórias importam que nenhum extrator baseado em regras pegaria. O custo é que o modelo também erra, e um store de memória curado pelo modelo precisa de cercas contra crescimento desbocado.

10.3 Sobrevivendo ao limite de contexto: compactação e notas estruturadas

Mesmo com memória episódica e semântica no lugar, a sessão atual do agente ainda bate na sua janela. O remédio mais comum é compactação baseada em sumarização: quando o contexto se aproxima de sessenta a oitenta por cento da janela, um passo em segundo plano resume turnos antigos e os substitui. Os modos de falha são deriva de sumário (a essência sobrevive mas fatos específicos que vieram a importar se perdem) e suavização recursiva (cada passada resume um sumário, e a perda cumulativa é severa). Os remédios são prompts de sumarização estruturados que preservam entidades nomeadas, decisões e perguntas abertas, e sumarizar dos originais quando possível em vez de de sumários anteriores.

Limpeza de resultado de tool despeja a maior parte dos retornos de tool depois de alguns turnos intervenientes, substituindo-os por notas breves como "consultei tabela users, 47 linhas retornadas, encontrei usuário 12345". Anotação estruturada exige que o agente mantenha um arquivo de notas autoritativo capturando a meta atual, passos completos, passos restantes e perguntas abertas — tratado como fonte de verdade, não como transcript. Externalização move artefatos produzidos para o filesystem ou banco com o contexto mantendo apenas referências. O princípio unificador é que a janela de contexto é para trabalho ativo, não para arquivo. Janelas maiores tornam armazenamento externo mais importante, não menos, porque habilitam sessões mais longas em que a arquitetura de externalização tem mais tempo para funcionar ou falhar.

Vale a pena guardar: agentes de horizonte longo não são apenas agentes de horizonte curto mais longos. São problema de engenharia diferente, com modos de falha diferentes — padrões de pesquisador, engenharia, operações e segundo plano cada um compõe as primitivas diferente. Faça o estado de memória inspecionável em forma legível, registre cada leitura e escrita, e teste retomada de sessão e carga alta de memória como casos rotineiros, não casos de borda.

O que o Capítulo 10 prepara

Os Capítulos 9 e 10 juntos fecham a Parte IV com dois modelos mentais complementares: contexto como orçamento finito dentro de uma única chamada, e memória como arquitetura para lembrança seletiva entre sessões. O que nenhum capítulo enfrentou é pressão adversária. Toda escrita de memória é lugar que um atacante pode envenenar. Toda chamada de tool é lugar que um atacante pode interceptar. Toda memória recuperada é lugar que um atacante pode injetar instruções que o agente vai tratar como pensamentos próprios. As arquiteturas dos últimos dois capítulos foram projetadas para correção e eficiência, não para sobrevivência sob ataque.

Próximo — Capítulo 11: Superfícies de Ataque e Vulnerabilidades de Protocolo. Confused Deputy, Token Passthrough, Session Hijacking, Capability Escalation, Sampling Não-Autenticado, e a propagação implícita de confiança que torna envenenamento de contexto tão difícil de consertar.

Quer o panorama completo? O livro percorre os quatro padrões canônicos — pesquisador, engenharia, operações, agentes em segundo plano — com seus modos de falha característicos, a disciplina de checkpoint em que agentes de codificação de longa duração convergiram, e a arquitetura de deleção que separa um sistema de memória que envelhece com sabedoria de um que envelhece com barulho. LLM Primer IV na Amazon →