Kapitel 10 — Langzeit-Gedächtnis

Zehnter Beitrag der kapitelweisen Tour durch LLM Primer IV: Designing AI Cognition with MCP. Darin: die Frage ist nicht mehr „wie viel passt", sondern „was erinnern und was vergessen", und die siebenstelligen Kontextfenster, die heute ausgeliefert werden, verschieben die Wand um eine Stunde, statt sie zu entfernen.

Warum dieses Kapitel existiert

Ein Agent, der dreißig Sekunden läuft, kann alles, was er braucht, in seinem Prompt tragen. Ein Agent, der drei Stunden läuft, nicht. Die Arbeit, die er in der ersten Stunde tut, passt nicht neben die der dritten, und die Frage, was zu erinnern und was zu vergessen, wird zum zentralen Engineering-Problem. Das Kontextfenster ist kein zu verwaltendes Budget mehr; es ist eine Arbeitsfläche, die kontinuierlich gegen einen tieferen Speicher aufgefrischt werden muss. Dieses Kapitel handelt von der Architektur des Erinnerns — Kurzfristgedächtnis für unmittelbares Reasoning, Langfristgedächtnis für Persistenz über Sessions hinweg und die Verdichtungs- und Externalisierungstechniken, die beide verbinden.

In einem Satz: Kurzfristgedächtnis ist nicht das Gedächtnis des Modells, sondern das Gedächtnis der Agentenschleife, als Text materialisiert und bei jedem Aufruf eingespeist — das heißt, jede Entscheidung darüber, woran das Modell sich erinnert, trifft die Schleife explizit, in Code, ohne verborgenen Zustand zum Debuggen.

10.1 Kurzfristgedächtnis: Fenster, Scratchpads, ReAct

Kurzfristgedächtnis ist, was im aktuellen Kontextfenster sitzt und ohne externes Lookup verfügbar ist. Die einfachste Strategie ist das Sliding Window: halte den System-Prompt und die Tool-Beschreibungen oben, die letzten N Turns unten, lass alles dazwischen fallen. Es funktioniert, solange der relevante Kontext jüngst ist, was für kurze Konversationen stimmt und für fast alles andere nicht. Der Fehlermodus ist sauber — sobald ein Turn fallen gelassen wurde, ist er weg — und der Agent vergisst die Anweisungen der Nutzerin sichtbar an dem vorhersehbaren Punkt, an dem das Fenster erstmals voll ist.

Die nächste Schicht ist der Scratchpad, eine strukturierte Kontextregion, in die das Modell bewusst schreibt. Interne Scratchpads tragen Zwischen-Reasoning innerhalb der Schleife weiter; externe schreiben Notizen per Tool-Call in einen gespeicherten Puffer, den zukünftige Kontexte einspeisen. Das Muster, das Scratchpads ihre kanonische Form gab, ist ReAct — Reason and Act — eingeführt 2022 von Yao und Kollegen. Die Schleife verschränkt Gedanke, Aktion, Beobachtung, bis das Modell entscheidet, eine Antwort zu haben. Die Struktur externalisiert Reasoning in explizite Textartefakte, auf die das Modell zurückgreifen kann, und gibt der Agentenschleife sichtbares Gerüst für Speicheroperationen: Gedanken lassen sich zusammenfassen, Aktionen deduplizieren, Beobachtungen verdichten. Agenten ohne ReAct oder eine nahe Variante verflechten Reasoning und Aktion in Weisen, die ihren Zustand opak machen.

Eine praktische Ergänzung ist Reflexion, das einen expliziten Reflexionsschritt hinzufügt, in dem das Modell seine jüngsten Aktionen bewertet und eine Kritik in den Scratchpad für den nächsten Versuch schreibt. Moderne Agenten-Frameworks mischen beide in eine einzelne konfigurierbare Schleife, mit Reflexion ausgelöst durch ein Fehlersignal statt bei jedem Zyklus.

10.2 Langzeit-Gedächtnis: episodisch und semantisch

Wo das Kurzfristgedächtnis endet, beginnt das Langzeit-Gedächtnis. Die kognitionswissenschaftliche Unterscheidung zwischen episodischem (spezifische Ereignisse) und semantischem (allgemeine Fakten) Gedächtnis hat sich für Agenten als nützlich erwiesen. Episodisches Gedächtnis ist das Protokoll spezifischer vergangener Interaktionen; semantisches Gedächtnis ist das destillierte Wissen, das überlebt hat — dass diese Nutzerin metrische Einheiten bevorzugt, dass das Deploy-Kommando dieses Projekts make ship heißt, dass diese API Fehler liefert, die wie Erfolg aussehen.

Episodisches Gedächtnis ist in aktueller Praxis fast immer eine Vektordatenbank. Jede vergangene Interaktion wird eingebettet, mit Metadaten gespeichert und zur Anfragezeit per semantischer Ähnlichkeit abgerufen. Das Muster ist RAG, angewendet auf die eigene Vergangenheit des Agenten statt auf ein Dokumentenkorpus, und die Ingenieurkunst — Chunking, Embedding-Wahl, Retrieval-Evaluation — ist weitgehend identisch mit dem, was Band III abdeckt.

Semantisches Gedächtnis ist weniger standardisiert. Die zwei dominanten Substrate sind strukturierte Key-Value-Stores und Knowledge Graphs. Key-Value-Stores sind einfach, schnell, leicht zu inspizieren; Graphen unterstützen Multi-Hop-Anfragen wie „was ist das Deploy-Kommando des Projekts, an dem die Nutzerin gerade arbeitet", brauchen aber Pflege und eine Anfragesprache. Die meisten produktiven Agenten starten mit Key-Value und steigen erst auf einen Graphen um, wenn die Anfragen tatsächlich Joins brauchen. Viele tun das nie.

Die Update-Strategie ist, wo die meisten Teams in Schwierigkeiten geraten. Eine aus einer einzigen Konversation extrahierte Tatsache ist nicht notwendig allgemein wahr. Eine naive Strategie, die jede Behauptung ins semantische Gedächtnis hochstuft, erzeugt einen korrupten Store, der sich selbst widerspricht. Die entstandene Disziplin: Behauptungen nach Kontext gewichten, Fakten mit Zeitstempel und Provenienz versionieren und — für hochsensible Domänen — Updates über explizite Nutzerbestätigung gaten. Ein Muster, das unter Namen wie MemGPT entstanden ist, gibt dem Agenten explizite Speichermanagement-Tools, sodass das Modell selbst entscheidet, was speichern, abrufen und vergessen. Der Gewinn: das Modell weiß oft Dinge darüber, welche Erinnerungen zählen, die kein regelbasierter Extraktor abfangen würde. Der Preis: das Modell macht auch Fehler, und ein vom Modell kuratierter Speicher braucht Leitplanken gegen unkontrolliertes Wachstum.

10.3 Das Kontextlimit überleben: Verdichtung und strukturierte Notizen

Selbst mit episodischem und semantischem Gedächtnis trifft die aktuelle Session des Agenten ihre Fenstergrenze. Das häufigste Mittel ist summarisierende Verdichtung: nähert sich der Kontext sechzig bis achtzig Prozent des Fensters, fasst ein Hintergrundschritt ältere Turns zusammen und ersetzt sie. Die Fehlermodi sind Zusammenfassungsdrift (der Tenor überlebt, aber spezifische Fakten, die sich als wichtig erweisen, gehen verloren) und rekursive Glättung (jeder Durchgang fasst eine Zusammenfassung zusammen, und kumulativer Verlust ist groß). Die Gegenmittel sind strukturierte Summarisierungsprompts, die benannte Entitäten, Entscheidungen und offene Fragen erhalten, und das Zusammenfassen aus Originalen, wenn möglich, statt aus früheren Zusammenfassungen.

Tool-Result-Clearing entfernt die Masse der Tool-Returns nach einigen dazwischenliegenden Turns und ersetzt sie durch kurze Notizen wie „Nutzertabelle abgefragt, 47 Zeilen, Nutzer 12345 gefunden." Strukturierte Notizen verlangen vom Agenten, eine autoritative Notizdatei zu führen, die das aktuelle Ziel, erledigte Schritte, ausstehende Schritte und offene Fragen erfasst — als Quelle der Wahrheit behandelt, nicht als Transkript. Externalisierung verschiebt produzierte Artefakte ins Dateisystem oder die Datenbank, und der Kontext hält nur Referenzen. Das einigende Prinzip: das Kontextfenster ist für aktive Arbeit, nicht für Archiv. Größere Fenster machen externen Speicher wichtiger, nicht unwichtiger, weil sie längere Sessions ermöglichen, in denen die Externalisierungsarchitektur mehr Zeit hat, entweder zu funktionieren oder zu scheitern.

Wert, das festzuhalten: Langzeit-Agenten sind nicht einfach längere Kurzhorizont-Agenten. Sie sind ein anderes Engineering-Problem, mit anderen Fehlermodi — Researcher-, Engineering-, Operations- und Background-Muster komponieren die Primitiven jeweils anders. Mach Speicherzustand in lesbarer Form inspizierbar, logge jedes Lesen und Schreiben und teste Session-Wiederaufnahme und hohe Speicherlast als Routine, nicht als Sonderfall.

Was Kapitel 10 vorbereitet

Die Kapitel 9 und 10 zusammen schließen Teil IV mit zwei komplementären mentalen Modellen: Kontext als endliches Budget innerhalb eines einzelnen Aufrufs und Gedächtnis als Architektur für selektives Erinnern über Sessions hinweg. Womit keines der Kapitel gerungen hat, ist adversarieller Druck. Jeder Speicherwrite ist ein Ort, den ein Angreifer vergiften kann. Jeder Tool-Call ist ein Ort, den ein Angreifer abfangen kann. Jede abgerufene Erinnerung ist ein Ort, an dem ein Angreifer Anweisungen einschleusen kann, die der Agent als eigene Gedanken behandelt. Die Architekturen der letzten beiden Kapitel waren auf Korrektheit und Effizienz ausgelegt, nicht auf Überleben unter Angriff.

Als Nächstes — Kapitel 11: Angriffsflächen und Protokoll-Schwachstellen. Confused Deputy, Token-Passthrough, Session-Hijacking, Capability-Eskalation, unauthentifiziertes Sampling und die implizite Vertrauenspropagation, die Kontextvergiftung so schwer behebbar macht.

Möchtest du das ganze Bild? Das Buch geht die vier kanonischen Muster — Researcher, Engineering, Operations, Background-Agenten — mit ihren charakteristischen Fehlermodi durch, die Checkpoint-Disziplin, auf die langlaufende Coding-Agenten konvergiert sind, und die Lösch-Architektur, die ein Speichersystem trennt, das mit der Nutzung weiser wird, von einem, das lauter wird. LLM Primer IV auf Amazon →