Kapitel 7 — Jenseits der Vorhersage des nächsten Tokens

Dies ist Teil 7 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir den vollständigen Adaptionsstack abgedeckt — von Prompts bis Alignment. Heute erweitern wir das LLM über reine Generierung hinaus. Embeddings, Retrieval, hybride Memory und der Übergang zu multimodalen Eingaben.

Embeddings: Bedeutung als Geometrie

Wenn die Stärke eines Transformers darin liegt, dass er reichhaltige interne Repräsentationen für jeden Token produziert, ist die naheliegende nächste Frage: Was wäre, wenn wir diese Repräsentationen direkt nutzen würden, statt als Schritt zur Texterzeugung?

Das ist die Idee hinter Embeddings. Ein Embedding-Modell nimmt ein Stück Text — ein Wort, einen Satz, einen Absatz, ein Dokument — und produziert eine Liste von Zahlen (typischerweise einige Hundert bis einige Tausend), die seine Bedeutung erfasst. Zwei Textstücke mit ähnlichen Bedeutungen erzeugen ähnliche Zahlenlisten. Zwei mit unterschiedlichen Bedeutungen erzeugen unterschiedliche.

Sobald du Embeddings hast, kannst du bemerkenswerte Dinge damit machen. Du kannst Dokumente nach Bedeutung statt nach Schlüsselwörtern suchen: Frag "Wie kündige ich mein Abo?" und finde Seiten, die von "meinen Plan beenden" oder "Service einstellen" sprechen, obwohl kein Wort übereinstimmt. Du kannst Dokumente nach Thema clustern, ohne Labels. Du kannst Duplikate erkennen, Beinahe-Treffer finden und Anfragen an das richtige System routen.

Kernidee: Embeddings sind die Brücke zwischen Sprachmodellen und Suche. Sie verwandeln Bedeutung in Geometrie, und sobald Bedeutung Geometrie ist, wird jeder standardmäßige Such- und Cluster-Algorithmus verfügbar.

Generierung versus Retrieval

Generierung und Retrieval werden oft als konkurrierende Ansätze dargestellt, sind sie aber nicht. Generierung erfindet Text aus internalisierten Mustern. Retrieval wählt existierenden Text aus einem gespeicherten Korpus aus. Jedes hat seine Stärken.

Generierung ist kreativ, flexibel und in der Lage, Antworten auf Fragen zu produzieren, die noch niemand gestellt hat. Sie kann auch selbstbewusst falsche Antworten produzieren — das Modell hat keine Möglichkeit zu verifizieren, was es sagt. Retrieval ist das Gegenteil: begrenzt auf das, was in der Bibliothek ist, aber verankert in echtem, verifizierbarem Quellmaterial.

Der interessante Zug ist, beide zu kombinieren. Ein Modell, das zuerst abruft und dann generiert, kann flüssigen, themenbezogenen, maßgeschneiderten Text produzieren und dabei in echten Dokumenten verankert bleiben. Das ist das zentrale Designmuster, das sich für produktive LLM-Systeme herauskristallisiert hat.

Hybride Memory: das Modell plus eine Bibliothek

Das Buch behandelt das als ein größeres architektonisches Konzept und nicht als einzelne Technik. Die Idee ist, dem Modell zwei Arten von Memory zu geben. Sein parametrisches Gedächtnis lebt in seinen trainierten Gewichten — breit, dicht, aber zur Trainingszeit fixiert. Sein nicht-parametrisches Gedächtnis lebt in einem externen Speicher — schmal, spezifisch und in Echtzeit aktualisierbar.

Wenn eine Anfrage kommt, embeddet das System sie, durchsucht den externen Speicher nach relevantem Material und übergibt sowohl die ursprüngliche Anfrage als auch das abgerufene Material dem Modell. Das Modell komponiert dann eine Antwort, die beides nutzt — sein breites Sprachverständnis und die spezifische, aktuelle Information, die es gerade erhalten hat.

Dieses Muster hat praktische Konsequenzen. Das Aktualisieren des Wissens, über das ein System antworten kann, erfordert kein Retraining mehr; du aktualisierst den externen Speicher. Zitate werden möglich, weil das System weiß, aus welchem Dokument es geschöpft hat. Die Konfidenzkalibrierung verbessert sich, weil das Modell wissen kann, ob es relevanten Kontext hatte oder nicht.

RAG, etwas sorgfältiger

Die häufigste Implementierung dieses hybriden Musters heißt Retrieval-Augmented Generation, oder RAG. Es lohnt sich, die tatsächlichen Schritte zu verstehen, weil die meisten produktiven KI-Assistenten, mit denen du arbeitest, unter der Haube RAG-Systeme sind.

Der Ablauf ist direkt. Zuerst embeddest du deine Wissensbasis — Dokumentation, Kundennachrichten, interne Wikis — und speicherst die Embeddings in einer Vektordatenbank. Zweitens, wenn eine Anfrage eintrifft, embeddest du sie auf die gleiche Weise und findest die Top-k ähnlichsten Stücke aus deiner Wissensbasis. Drittens setzt du einen Prompt zusammen, der die Frage des Nutzers und die abgerufenen Stücke enthält, und schickst ihn an das Modell. Viertens generiert das Modell eine Antwort und nutzt das abgerufene Material als verankerten Kontext.

Jeder Schritt hat Feinheiten, die bestimmen, ob das System gut oder schlecht funktioniert. Chunking — wie du deine Quelldokumente aufteilst — ist enorm wichtig. Reranking — wie du auswählst, welche abgerufenen Kandidaten tatsächlich in den Prompt kommen — ist wichtiger, als die Leute realisieren. Das Buch geht durch, was funktioniert und was nicht, basierend auf echten Deployments.

Wichtig: Die meisten gescheiterten Enterprise-KI-Deployments scheitern nicht an der Modellschicht. Sie scheitern an der Retrieval-Schicht. Das Modell produziert eine korrekt aussehende Ausgabe, aber der abgerufene Kontext enthielt nicht wirklich die richtige Information, und das Modell — flüssig wie immer — hat trotzdem eine plausibel klingende Antwort fabuliert.

Multimodale Erweiterungen

Kapitel 7 schließt damit, den Rahmen über Text hinaus zu erweitern. Bilder, Audio und Video können alle tokenisiert werden — in Sequenzen kleiner Stücke umgewandelt, die dieselbe Transformer-Maschinerie verarbeiten kann. Ein Vision-Encoder verwandelt ein Bild in eine Sequenz von Patches. Ein Audio-Encoder verwandelt Schall in eine Sequenz von Feature-Vektoren. Beide können mit Text-Embeddings ausgerichtet werden, sodass das Modell über Modalitäten hinweg argumentieren kann.

Die erste Generation multimodaler Systeme nutzte separate Encoder für jede Modalität und nähte die Ausgaben in einer Fusion-Schicht zusammen. Die aktuelle Generation ist eleganter: Sie behandelt alle Modalitäten als nur weitere Arten von Tokens, die in einen einzigen geteilten Transformer gefüttert werden. Deshalb können moderne Frontier-Modelle Text, Bilder und Sprache in einer einzigen Konversation reibungslos mischen.

Was Kapitel 7 vorbereitet

Am Ende von Kapitel 7 verstehst du, wie LLMs in der Praxis nützlich werden. Du kannst über die Embeddings → Retrieval → Generierungs-Pipeline argumentieren, die die meiste Enterprise-KI antreibt. Du kannst Ankündigungen multimodaler Modelle lesen und sie korrekt in der architektonischen Entwicklung einordnen. Und du hast die konzeptionellen Werkzeuge, um ein RAG-System für deine eigene Arbeit zu entwerfen oder zu bewerten.

Als Nächstes — Kapitel 8: LLMs in Anwendungen einsetzen. Morgen gehen wir in die Praxis. Chatbots, Zusammenfassung, Codegenerierung, Wissensextraktion, Evaluation und der Aufstieg agentischer Systeme, in denen das Modell der Controller ist und nicht das Kontrollierte.

Möchtest du das ganze Bild? Das Buch geht die Embeddings/Retrieval/Generierungs-Pipeline detailliert mit Diagrammen des RAG-Flusses, den Trade-offs an jeder Schicht und dem multimodalen architektonischen Wechsel klar visualisiert durch. Hol dir LLM Primer I auf Amazon →

Kapitel 7 — Jenseits der Vorhersage des nächsten Tokens: Embeddings, Retrieval und Multimodalität