Kapitel 9 — Das Aufmerksamkeitsbudget verwalten

Neunter Beitrag der kapitelweisen Tour durch LLM Primer IV: Designing AI Cognition with MCP. Darin: ein Millionen-Token-Kontextfenster erweist sich als Deckenwert und nicht als Betriebspunkt, und ein erstaunlich großer Anteil von „das Modell wurde schlechter" entpuppt sich als „das Modell wurde begraben".

Warum dieses Kapitel existiert

Ein Kontextfenster sieht aus wie freier Platz. Es ist keiner. Jedes Token, das ein Agent liest, kostet Latenz, Geld und — weniger offensichtlich, aber wichtiger — Qualität. Die Illusion, dass ein Millionen-Token-Fenster „alles reinpasst" bedeutet, ist eine der teuersten Fehleinschätzungen in aktueller Praxis und erklärt einen großen Anteil der Produktionsfehler, die als Modellregressionen diagnostiziert werden. Das Modell wurde nicht schlechter. Es wurde begraben. Dieses Kapitel handelt davon, Kontext als endliches Budget zu behandeln statt als freie Ressource: was das Budget frisst, welche Alternativen es gibt, wenn das Budget das falsche Werkzeug ist, und wie man in der produktiven Zone landet, in der der Agent genau das hat, was er braucht, und nichts mehr.

In einem Satz: Kontext ist ein Kostenpunkt, kein freier Input — und ein Team, das Werkzeuge hinzufügt, ohne welche zu entfernen, Historie akkumuliert, ohne zu komprimieren, und jeden abgerufenen Chunk in der Hoffnung ins Fenster stopft, dass mehr nur helfen kann, operiert im Teil der Kurve, in dem jede Ergänzung die Lage verschlechtert.

9.1 Context Rot und die nichtlineare Klippe

Die Beziehung zwischen Kontextlänge und Qualität ist nicht linear. Den Prompt zu verdoppeln, halbiert die Qualität nicht; jenseits eines Punktes mehr als das. Der hängengebliebene technische Name — Context Rot — ist informell, aber treffend. Die klassische Stanford-Studie von Liu und Kollegen zeigte, dass Modelle, die Informationen in einer Dokumentenliste finden sollten, dramatisch schlechter abschnitten, wenn das relevante Dokument in der Mitte saß als an einem der Ränder. Die U-förmige Kurve wurde über Modellfamilien und Kontextlängen reproduziert. Die Mitte eines langen Prompts ist in einem sinnvollen Sinn aufmerksamkeitsgünstiger als die Ränder, obwohl die Architektur jede Position identisch behandelt.

Die „Nadel-im-Heuhaufen"-Benchmarks, die 2023 und 2024 zum Standard wurden, schienen das Bild zunächst zu widerlegen — nahezu perfekter Retrieval bei 100K, 200K, sogar 1M Tokens. Die sorgfältigere Folgearbeit zeigte, dass die Benchmarks zu leicht waren. Eine auffällige Nadel in einem homogenen Haufen ist ein anderes Problem als das Finden einer relevanten Tatsache, begraben unter zwanzig thematisch verwandten Ablenkungen. MCP-Universe und BIG-Bench-Long, Ende 2025 veröffentlicht, bauten diese adversarielle Struktur ein, und die Zahlen sind ernüchternd: bei 100K Tokens verlieren Frontier-Modelle zehn bis zwanzig Punkte gegenüber 8K, und bei 500K kann die Lücke vierzig erreichen.

Es gibt eine zweite Rotform speziell für MCP-Agenten. Akkumulieren sich Tools im System-Prompt, degradiert die Trefferquote bei der Auswahl des Modells. MCP-Universe zeigte einen Abfall der Tool-Selection-Accuracy von rund neunzig Prozent bei fünf Tools auf unter sechzig bei vierzig. Praktiker nennen das nun Tool-Loadout-Rot, und es ist die häufigste Ursache von „der Agent wurde dümmer, nachdem wir mehr Fähigkeiten hinzufügten". Der Mechanismus ist in beiden Fällen derselbe: Aufmerksamkeit ist endlich, und wenn der Prompt wächst, schrumpft der Anteil, den jedes Token erhält.

9.2 Drei Antworten auf dieselbe Frage: MCP, RAG, Fine-Tuning

Fehlt einem Modell das Wissen, das es braucht, gibt es drei architektonische Antworten, und eine für eine andere zu halten, verursacht einen großen Anteil falsch verteilten Aufwands. MCP passt, wenn das Wissen operativ ist — aktueller Bestand, der heutige Kalender, der Status eines Builds. Diese haben eine autoritative Quelle, ändern sich fortlaufend, und kein vorab geladener Kontext kann sie aktuell halten. Der Gewinn ist nicht nur Frische, sondern Rechenschaft: sagt das Modell „der Build ist grün", kann die Nutzerin „laut was" fragen und die Antwort lautet „dem Build-Server, abgefragt zu diesem Zeitstempel".

RAG passt, wenn das Wissen dokumentarisch ist — ein Korpus, zu groß fürs Fenster, aber stabil genug, dass ein Retrieval-Index machbar ist. Interne Docs, Support-Artikel, Verträge, große Codebasen. Band III dieser Reihe ging genau die Ingenieurkunst von RAG durch und bleibt die kanonische Referenz. Fine-Tuning passt, wenn die Lücke Verhalten ist — konsistentes Format, bestimmte Stimme, verlässliches Ablehnen einer Anfrageklasse. Die wiederkehrende Fehlallokation in der Industrie ist, Fine-Tuning zum Injizieren von Faktenwissen zu nutzen, das sich ändert — das produziert ein Modell, das kurz beeindruckend und dann zunehmend falsch ist, je weiter die Welt von seinem eingefrorenen Snapshot abdriftet.

Die drei schließen sich nicht aus. Ein reifer Agent kombiniert sie typisch: Fine-Tuning fürs Verhalten, RAG fürs dokumentarische Wissen, MCP fürs operative. Der Rahmen, der hilft, ist das richtige Substrat für die richtige Frischeanforderung. Verhalten ist auf der Skala von Modellgenerationen stabil; bake es in Gewichte. Dokumentarisches Wissen ändert sich auf der Skala von Tagen; indexiere es. Operatives Wissen ändert sich auf der Skala von Sekunden; greif es über Tools. Architekturen, die das Substrat verfehlen — eingefrorene Gewichte für schnellebige Fakten, Retrieval-Indizes für Live-Zustand — zahlen in Korrektheit, Latenz oder beidem.

9.3 Die Goldilocks-Zone: genug Kontext, nicht zu viel

Die alltägliche Frage ist, wie viel Kontext pro Aufruf zu übergeben. Die Zone in der Mitte ist schmaler, als die meisten Teams initial annehmen. Der folgenreichste Hebel ist der System-Prompt. Ein guter ist kurz, spezifisch, stabil. Ein schlechter ist der defensive Prompt, der durch Akkretion wächst, mit einer Klausel hinzugefügt, sobald das Modell sich danebenbenahm, bis er ein tausend Wörter langes Regelwerk ist, dem das Modell nicht mehr verlässlich folgen kann. Teams, die quartalsweise mit Entfernen als explizitem Ziel auditieren, enden mit Prompts, die kürzer sind als ein Jahr zuvor und besseres Verhalten produzieren.

Der zweite Hebel ist das Tool-Roster. Die Korrektur gegen Tool-Loadout-Rot ist progressive Disclosure: registriere eine kleine Anzahl hochstufiger Tools und lass das Modell über ein Discovery-Tool in Spezifika abtauchen. Vierzig schmale Tools werden zu vier breiten mit internem Dispatch, und die Tool-Selection-Accuracy erholt sich meist. Der dritte Hebel ist die Konversationshistorie — verdichten ab Turn eins, nicht bei neunzig Prozent Fensterkapazität. Der vierte sind Tool-Ergebnisse: liefere die Felder, die das Modell braucht, nicht die ganze Zeile. Die Disziplin ist bewusste Aufnahme: für jedes Element sollte das Team beantworten können „was passierte, wenn das nicht da wäre". Lautet die Antwort „der Agent verhielte sich gleich", weg damit.

Wert, das festzuhalten: Kontext ist nicht mehr ein Ort, an dem man Dinge ablegt; er ist ein Ort, an dem man Dinge ausgibt. Miss Tokens pro Rolle, budgetier zur Designzeit statt zur Debug-Zeit, fahr Qualitätsregressionen über Kontextlängen, behandle Präfixstabilität als Cache-Disziplin-Anforderung und setz stabile Inhalte vorn, variable hinten. Die Disziplinen, die einen einzelnen Inferenzaufruf gelingen lassen, sind dieselben, die eine langlaufende Session tragfähig machen.

Was Kapitel 9 vorbereitet

Dieses Kapitel rahmte Kontext als endliches Budget innerhalb eines einzelnen Inferenzaufrufs. Was es nicht abdeckte, ist die Frage der Zeit. Ein Agent, der dreißig Sekunden läuft, hat ein Budgetproblem, das in ein einziges Fenster passt. Ein Agent, der dreißig Minuten, drei Stunden, drei Tage läuft, hat ein Speicherproblem, das kein praktisch dimensioniertes Fenster halten kann. Die Strategien für diesen Arbeitsmaßstab sind nicht graduell, sondern artverschieden.

Als Nächstes — Kapitel 10: Langzeit-Gedächtnis. Kurzfristmechanismen über Sliding Windows und ReAct-Scratchpads, Langfristmechanismen über episodische Vektoren und semantische Stores und die Verdichtungstechniken, mit denen ein Agent über Stunden und Tage operiert.

Möchtest du das ganze Bild? Das Buch geht die MCP-Universe- und BIG-Bench-Long-Zahlen im Detail durch, entwickelt die Kosten- und Latenzsignaturen jedes Substrats und enthält sieben operative Praktiken — von Pro-Rolle-Tokentelemetrie über positionsbewusste Prompt-Konstruktion bis zur Pro-Aufruf-Budgetzuordnung über die Agentenschleife — auf die Produktionsteams konvergiert sind. LLM Primer IV auf Amazon →