Capítulo 9 — Gerenciando o Orçamento de Atenção

Nona postagem do passeio capítulo a capítulo pelo LLM Primer IV: Projetando a Cognição da IA com MCP. Em que uma janela de contexto de um milhão de tokens acaba sendo um valor de teto em vez de um ponto de operação, e uma fatia notável de "o modelo piorou" acaba sendo "o modelo foi enterrado".

Por que este capítulo existe

Uma janela de contexto parece espaço livre. Não é. Cada token que um agente lê custa latência, dinheiro, e — menos óbvio mas mais importante — qualidade. A ilusão de que uma janela de um milhão de tokens significa "cabe tudo" é uma das leituras erradas mais caras na prática atual, e responde por boa parte das falhas de produção diagnosticadas como regressão de modelo. O modelo não piorou. Ele foi enterrado. Este capítulo é sobre tratar contexto como orçamento finito em vez de recurso livre: o que come o orçamento, que alternativas existem quando o orçamento é a ferramenta errada, e como aterrissar na zona produtiva onde o agente tem exatamente o que precisa e nada mais.

Em uma linha: contexto é centro de custo, não entrada livre — e um time que adiciona ferramentas sem removê-las, acumula histórico sem compactação, e empurra cada chunk recuperado para a janela na esperança de que mais só pode ajudar está operando no trecho da curva onde cada adição está piorando as coisas.

9.1 Context rot e o precipício não-linear

A relação entre comprimento de contexto e qualidade não é linear. Dobrar o prompt não corta a qualidade pela metade; depois de certo ponto corta mais. O nome técnico que ficou — context rot — é informal mas preciso. O estudo clássico de Stanford de Liu e colegas mostrou que modelos pedidos para achar informação numa lista de documentos se saíram dramaticamente pior quando o documento relevante ficava no meio do que quando ficava em qualquer das pontas. A curva em U foi reproduzida em famílias de modelo e comprimentos de contexto. O meio de um prompt longo é, num sentido significativo, atencionalmente mais barato que as bordas, mesmo que a arquitetura trate cada posição identicamente.

Os benchmarks "needle in a haystack" que viraram padrão em 2023 e 2024 inicialmente pareciam refutar essa fotografia — recuperação quase perfeita em 100K, 200K, até 1M tokens. O trabalho de follow-up mais cuidadoso mostrou que os benchmarks eram fáceis demais. Uma agulha conspícua num palheiro homogêneo é problema diferente de achar um fato relevante enterrado entre vinte distratores topicamente relacionados. MCP-Universe e BIG-Bench-Long, lançados no final de 2025, embutiram essa estrutura adversária, e os números são sóbrios: a 100K tokens, modelos de fronteira perdem dez a vinte pontos comparado à mesma tarefa em 8K, e a 500K o gap pode chegar a quarenta.

Há uma segunda forma de rot específica de agentes MCP. Conforme tools se acumulam no prompt de sistema, a acurácia do modelo em selecionar a tool certa degrada. MCP-Universe mostrou acurácia de seleção de tool caindo de aproximadamente noventa por cento com cinco tools para abaixo de sessenta com quarenta. Praticantes agora chamam isto de tool-loadout rot, e é a causa única mais comum de "o agente ficou mais burro depois que adicionamos mais capacidades". O mecanismo é o mesmo em ambos os casos: atenção é finita, e conforme o prompt cresce, a fatia que cada token recebe encolhe.

9.2 Três respostas para a mesma pergunta: MCP, RAG, fine-tuning

Quando um modelo carece do conhecimento de que precisa, há três respostas arquiteturais, e confundir uma com outra é causa de uma fatia notável de esforço mal alocado. O MCP encaixa quando o conhecimento é operacional — inventário atual, agenda de hoje, o status de um build. Estes têm fonte autoritativa, mudam continuamente, e nenhum contexto pré-carregado consegue mantê-los atuais. A vitória não é só frescor mas accountability: quando o modelo diz "o build está verde", o usuário pode perguntar "segundo o quê" e a resposta é "o servidor de build, consultado nesse timestamp".

RAG encaixa quando o conhecimento é documental — um corpus grande demais para a janela mas estável o suficiente para que um índice de recuperação seja viável. Docs internas, artigos de suporte, contratos, bases de código grandes. O Volume III desta série foi inteiramente sobre a engenharia de RAG e segue como referência canônica. Fine-tuning encaixa quando a lacuna é comportamento — formato consistente, voz particular, recusa confiável de uma classe de pedido. A má alocação que recorre na indústria é usar fine-tuning para injetar conhecimento factual que muda, o que produz um modelo brevemente impressionante e então progressivamente errado conforme o mundo se afasta do seu snapshot congelado.

Os três não são exclusivos. Um agente maduro tipicamente combina os três: fine-tuning para comportamento, RAG para conhecimento documental, MCP para conhecimento operacional. O enquadramento que ajuda é o substrato certo para o requisito de frescor certo. Comportamento é estável na escala de gerações de modelo; cozinhe nos pesos. Conhecimento documental muda na escala de dias; indexe. Conhecimento operacional muda na escala de segundos; alcance via tools. Arquiteturas que casam mal o substrato — pesos congelados para fatos que mudam rápido, índices de recuperação para estado ao vivo — pagam custo em correção, latência, ou ambos.

9.3 A Zona Cachinhos Dourados: contexto suficiente, não em excesso

A pergunta do dia a dia é quanto contexto passar em cada chamada. A zona do meio é mais estreita do que a maioria dos times inicialmente assume. A alavanca mais consequente é o prompt de sistema. Um bom é curto, específico, estável. Um ruim é o prompt defensivo que cresce por acúmulo, com uma cláusula adicionada toda vez que o modelo se comporta mal, até ser um documento de regras de mil palavras que o modelo já não consegue seguir confiavelmente. Times que auditam trimestralmente com remoção explícita como meta acabam com prompts menores do que um ano antes e produzindo comportamento melhor.

A segunda alavanca é o roster de tools. O corretivo para tool-loadout rot é divulgação progressiva: registre um pequeno número de tools de alto nível e deixe o modelo perfurar para especificidades por meio de uma tool de descoberta. Quarenta tools estreitas viram quatro amplas com despacho interno, e a acurácia de seleção de tool recupera a maior parte do que foi perdido. A terceira alavanca é histórico de conversa — compacte do turno um, não em noventa por cento da capacidade de janela. A quarta são resultados de tool: retorne os campos que o modelo precisa, não a linha inteira. A disciplina é inclusão deliberada: para cada elemento, o time deveria saber responder "o que aconteceria se isto não estivesse aí?". Se a resposta é "o agente se comportaria igual", deveria ser removido.

Vale a pena guardar: contexto não é mais um lugar para colocar coisas; é um lugar para gastar coisas. Meça tokens gastos por papel, faça orçamento em tempo de design em vez de em tempo de debug, rode regressões de qualidade entre comprimentos de contexto, trate estabilidade de prefixo como requisito de disciplina de cache, e ponha conteúdo estável primeiro e conteúdo variável por último. As disciplinas que fazem uma única chamada de inferência ter sucesso são as mesmas que fazem uma sessão de longa duração ser sustentável.

O que o Capítulo 9 prepara

Este capítulo enquadrou contexto como orçamento finito dentro de uma única chamada de inferência. O que não cobriu é a pergunta do tempo. Um agente que roda trinta segundos tem problema de orçamento que cabe numa única janela. Um agente que roda trinta minutos, três horas, três dias tem problema de memória que nenhuma janela de tamanho prático sustenta. As estratégias para essa escala de trabalho são diferentes em tipo, não só em grau.

Próximo — Capítulo 10: Memória de Tarefa de Horizonte Longo. Mecanismos de curto prazo via janelas deslizantes e scratchpads ReAct, mecanismos de longo prazo via vetores episódicos e stores semânticos, e as técnicas de compactação que permitem a um agente operar ao longo de horas e dias.

Quer o panorama completo? O livro percorre os números de MCP-Universe e BIG-Bench-Long em detalhe, desenvolve as assinaturas de custo e latência de cada substrato, e inclui sete práticas operacionais — de telemetria de token por papel a construção de prompt consciente de posição a alocação de orçamento por chamada ao longo do loop de agente — em que times de produção convergiram. LLM Primer IV na Amazon →