Kapitel 4 — Die Transformer-Architektur

Dies ist Teil 4 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir gesehen, warum Self-Attention die Rekurrenz als dominante neuronale Architektur für Sprache ablöste. Heute öffnen wir den Transformer selbst — das spezifische Design, das Attention von einer cleveren Idee zur Grundlage jedes modernen LLMs machte.

Ein Transformer ist ein Stack

Das Erste, was du über den Transformer wissen solltest, ist, dass er modular ist. Die eigentliche Architektur besteht aus einem einzigen Baustein — einer Transformer-Schicht oder einem Transformer-Block — viele Male in einem Stack wiederholt. Moderne LLMs haben zwischen 32 und über 100 dieser Schichten übereinander gestapelt. Jede Schicht hat exakt dieselbe interne Struktur; was sich ändert, ist, was jede gelernt hat zu tun, während der Input hindurchgeht.

Du kannst dir den Stack als Veredelungspipeline vorstellen. Die ersten Schichten neigen dazu, Low-Level-Muster zu behandeln — Token-Identität, grundlegende syntaktische Beziehungen. Mittlere Schichten behandeln abstraktere Strukturen — phrasenweise Bedeutung, Referenzen, grundlegende Inferenz. Höhere Schichten behandeln sehr abstrakte Beziehungen — Gesamtthema, Ton, Aufgabenrahmen. Wenn der Text den ganzen Stack durchlaufen hat, wurde jeder Token mit Kontext aus dem gesamten Input angereichert.

Kernidee: Ein Transformer ist ein Block, dutzendfach wiederholt. Die Architektur ist viel einfacher, als die Modellausgaben vermuten lassen. Die Tiefe — und das, was jede Schicht durch Training lernt — produziert die Fähigkeit.

Innerhalb des Blocks: Attention und ein Feedforward-Netz

Jeder Transformer-Block hat zwei Hauptteile. Der erste ist Multi-Head Self-Attention — mehrere Attention-Berechnungen, die parallel laufen und jeweils lernen, auf eine andere Art von Beziehung zu achten. Ein Head kann lernen, Subjekt-Verb-Kongruenz zu verfolgen; ein anderer kann verfolgen, welches Pronomen sich auf welches Substantiv bezieht; ein dritter kann thematische Kohärenz verfolgen. Keines davon ist programmiert; sie entstehen als Nebenwirkung des Trainings.

Der zweite Teil ist ein Feedforward-Netz — ein kleines neuronales Standardnetz, das auf jeden Token unabhängig wirkt. Nachdem Attention Information über Tokens hinweg vermischt hat, lässt der Feedforward-Schritt das Modell Per-Token-Verarbeitung machen und auf jede angereicherte Token-Repräsentation eine gelernte Transformation anwenden.

Beide Teile sind in zwei technische Details eingewickelt, die für Stabilität wichtig sind: Residualverbindungen (die Information jeden Teil überspringen und direkt nach vorne weitergehen lassen) und Layer-Normalisierung (die Zahlen über die Tiefe des Stacks in einem stabilen Bereich hält). Ohne diese Tricks funktioniert das Training eines so tiefen Stacks wie eines modernen LLMs nicht.

Self-Attention, etwas präziser

Kapitel 4 gibt Self-Attention die sorgfältige Behandlung, die es verdient — einschließlich der Mathematik — aber der Mechanismus lässt sich intuitiv beschreiben. Jeder Token produziert drei Vektoren — Query, Key und Value genannt. Der Query sagt: "Das suche ich." Der Key sagt: "Das repräsentiere ich." Der Value sagt: "Das werde ich beitragen, wenn du mich nützlich findest."

Attention funktioniert, indem sie den Query jedes Tokens gegen den Key jedes anderen Tokens vergleicht und so eine Matrix von Ähnlichkeitswerten erzeugt. Diese Werte werden in Gewichte normalisiert, die sich zu eins summieren (mit Softmax), und dann wird die neue Repräsentation jedes Tokens zu einer gewichteten Summe der Values aller anderen Tokens. Die ganze Operation sind ein paar Zeilen Matrixalgebra.

Das Buch enthält eine Sechs-Zeilen-Codeskizze dieser Berechnung, weil sie kompakt im Code zu sehen für viele Leser einrastet, wo es die Gleichungen allein nicht tun. Das Buch erklärt auch, warum jedes Teil da ist — warum die Skalierung mit der Quadratwurzel der Dimension wichtig ist, warum Softmax, warum drei separate Vektoren statt einem.

Wie das Modell die Wortreihenfolge kennt

Self-Attention hat eine Eigenschaft, die harmlos klingt, es aber nicht ist: Sie codiert von sich aus keine Reihenfolge. Für die Mathematik ist ein Satz eine ungeordnete Menge von Tokens. Ohne Eingriff würden "Hund beißt Mann" und "Mann beißt Hund" identisch aussehen.

Positional Encoding behebt das, indem es jeden Token mit Information markiert, wo er in der Sequenz sitzt. Der ursprüngliche Transformer benutzte einen klugen Trick mit Sinus- und Kosinuswellen unterschiedlicher Frequenzen. Moderne Varianten verwenden gelernte Position-Embeddings oder rotatorische Position-Encodings (RoPE), die lange Kontextlängen eleganter handhaben. Die Details variieren; das Prinzip nicht.

Wichtig: Die Wahl des Positional Encodings begrenzt direkt, wie weit ein Modell zuverlässig aufmerksam sein kann. Ein Modell zu strecken, sodass es längere Kontexte handhabt als die, auf denen es trainiert wurde, ist nicht trivial — deshalb hat jedes Modell ein angegebenes Kontextfenster, und deshalb sind manche 4.000 Tokens groß, während andere über eine Million unterstützen.

Encoder, Decoder oder nur Decoder?

Frühe Transformer-Forschung brachte drei Varianten hervor. Encoder-only-Modelle wie BERT sind dafür ausgelegt, Text zu lesen und eine tiefe Repräsentation zu produzieren; sie sind hervorragend für Klassifikation, Embedding-Generierung und Suche. Decoder-only-Modelle wie GPT sind dafür ausgelegt, Text Token für Token zu erzeugen; sie sind das, was die meisten Chat-LLMs antreibt. Encoder-Decoder-Modelle kombinieren beide, wobei der Encoder den Input verdaut und der Decoder die Ausgabe erzeugt; sie sind nützlich für Übersetzung und strukturierte Aufgaben.

Heute dominieren Decoder-only-Modelle den konsumentenseitigen KI-Markt, weil dieselbe Maschinerie sowohl das Lesen des Prompts als auch das Schreiben der Antwort übernimmt. Die Unterscheidung ist trotzdem wichtig, wenn du ein Modell für einen konkreten Job auswählst, und das Buch geht durch, wann jeder Typ das richtige Werkzeug ist.

Die Skalierungs-Geschichte und warum sie funktioniert

Kapitel 4 schließt damit zu erklären, wie Transformer skalieren. Wenn du Parameter, Trainingsdaten und Rechenleistung erhöhst — zusammen, in koordinierten Verhältnissen — verbessert sich die Modellleistung bemerkenswert vorhersagbar. Dieser empirische Befund, bekannt als Skalierungsgesetze, rechtfertigte die massiven Investitionen der letzten Jahre. Eine Verdoppelung der Parameter eines Transformers halbiert grob die Loss, innerhalb bestimmter Bereiche. Die Beziehung ist so konsistent, dass Forscher die Leistung eines Modells vor dem Training vorhersagen können.

Das Buch erklärt sorgfältig, was Skalierungsgesetze dir nicht sagen — über emergente Fähigkeiten, über den marginalen Wert zusätzlicher Skala und über die Weisen, in denen die einfache "größer ist besser"-Erzählung bricht. Moderne Frontier-Entwicklung dreht sich viel weniger um rohe Skala und viel mehr um Datenqualität, architektonische Tricks wie Mixture-of-Experts und clevere Trainingsmethoden. Diese Geschichte geht in späteren Kapiteln weiter.

Was Kapitel 4 vorbereitet

Am Ende von Kapitel 4 kannst du jede moderne LLM-Arbeit oder technische Ankündigung lesen und ihre Behauptungen korrekt einordnen. Du weißt, was ein Transformer-Block enthält, warum diese Komponenten da sind und wie das Design Ausdrucksstärke gegen Effizienz abwägt. Der Rest des Buches baut darauf auf, ohne es neu zu erklären.

Als Nächstes — Kapitel 5: Große Modelle trainieren. Morgen sehen wir, wie diese Architekturen tatsächlich trainiert werden: Woher die Daten kommen, welche Hardware die Arbeit macht, wie der Optimierungsprozess in der Praxis aussieht und warum das Training eines Frontier-Modells heute Monate dauert und Hunderte Millionen Dollar kostet.

Möchtest du das ganze Bild? Das Buch behandelt den Transformer mit dem visuellen Detail, das er verdient: Blockdiagramme, Attention-Flow-Charts, Vergleiche von Encoder/Decoder-Topologien und die Mathematik in einfacher Sprache neben den Gleichungen erklärt. Hol dir LLM Primer I auf Amazon →

Kapitel 4 — Die Transformer-Architektur: Im Motor moderner KI