Kapitel 3 — Neuronale Netze für Sprache: Von RNNs zu Self-Attention

Veröffentlicht am: 2026-02-20 Zuletzt aktualisiert am: 2026-06-04 Version: 1

Kapitel 3 — Neuronale Netze für Sprache

Dies ist Teil 3 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir Sprachmodellierung als Wahrscheinlichkeitsproblem eingeordnet und gesehen, warum alte zählbasierte Ansätze nicht skalieren konnten. Heute schauen wir auf die Rechenmaschinerie, die sie ersetzte — und wie sie sich zum Design entwickelte, das jedes moderne LLM antreibt.


Was ein neuronales Netz wirklich ist

Lass die Bilder von Gehirnen und Synapsen für einen Moment beiseite. Ein neuronales Netz ist ein langes mathematisches Rezept mit Millionen oder Milliarden interner Regler, jeder Regler eine Zahl. Du fütterst etwas hinein (eine Liste von Zahlen, die deinen Input repräsentiert), das Rezept transformiert es in einer Reihe von Schritten, und am anderen Ende kommt eine Liste von Zahlen heraus.

Das Netz zu trainieren bedeutet, ihm viele Beispiele zu zeigen und alle Regler sanft anzupassen — automatisch, mit einem Prozess namens Gradientenabstieg — sodass die Ausgabe für jedes Beispiel ein bisschen näher an die gewünschte Antwort heranrückt. Wiederhole diesen Prozess über Milliarden Beispiele, und du hast schließlich ein Netz, dessen Reglerstellungen eine bemerkenswerte Menge an Struktur über das codieren, worauf du es trainiert hast.

Kernidee: Ein trainiertes neuronales Netz ist nur die finale Einstellung all seiner Regler. Die "Intelligenz" lebt in diesen Zahlen. Sonst ist nichts am Netz konzeptionell mysteriös.

Kapitel 3 widmet Zeit der Mechanik — Embeddings, versteckten Schichten, nichtlinearen Aktivierungsfunktionen und dem Optimierungsprozess, der die Regler aktualisiert. Das Buch scheut sich nicht vor den Ideen, erklärt aber jeden Schritt so, dass ein Leser ohne mathematischen Hintergrund folgen kann. Wenn du ein Rezept lesen kannst, kannst du dieses Kapitel lesen.

Drei Formen, und nur eine hat gewonnen

Die Geschichte neuronaler Netze für Sprache ist im Großen und Ganzen die Geschichte dreier architektonischer Ideen. Jede war ein echter Fortschritt gegenüber ihrer Vorgängerin. Jede hatte eine fatale Limitierung. Die dritte — Self-Attention — knackte das Problem schließlich im großen Maßstab.

Die erste Form ist das Feedforward-Netz. Du übergibst ihm ein Stück Input fester Größe, es transformiert das Stück und produziert eine Ausgabe. Feedforward-Netze sind ausgezeichnet für viele Aufgaben, haben aber ein strukturelles Problem mit Sprache: Sprache kommt nicht in Stücken fester Größe. Ein Satz kann drei Wörter haben oder dreihundert. Ein Feedforward-Netz hat keine elegante Möglichkeit, diese Variation zu handhaben.

Die zweite Form ist das Recurrent Neural Network, oder RNN. RNNs lesen Text einen Token nach dem anderen und tragen eine kleine Zusammenfassung — den Hidden State — von jedem Schritt zum nächsten weiter. Das imitiert, wie ein Mensch liest, und löste das Problem variabler Länge. Aber RNNs hatten zwei neue Probleme. Die weitergetragene Zusammenfassung verliert über lange Passagen schrittweise Details, sodass das Modell Dinge aus dem früheren Text "vergisst". Und weil jeder Schritt auf den vorherigen warten muss, lässt sich RNN-Training auf moderner Hardware nicht parallelisieren, was das Hochskalieren unmöglich langsam machte.

Die dritte Form ist Self-Attention, die den sequenziellen Ansatz komplett aufgab. Statt eine Zusammenfassung weiterzutragen, sieht jeder Token in der Sequenz direkt auf jeden anderen Token in der Sequenz — alle auf einmal — und entscheidet, welche wichtig sind. Das löste das Vergessensproblem (jeder Token hat direkten Zugriff auf jeden anderen Token) und das Parallelisierungsproblem (die ganze Sequenz kann gleichzeitig auf einer GPU verarbeitet werden). Und es ist die Grundlage jedes Transformer-basierten LLMs.

Wichtig: Der Wechsel von RNNs zu Attention ist keine geringfügige Verfeinerung. Es ist ein architektonischer Bruch. Recurrent-Modelle hätten die Skala, in der moderne LLMs operieren, nicht erreichen können. Self-Attention machte den Rest des Feldes möglich.

Warum Attention "alles veränderte"

Dieser Satz wird viel verwendet, einschließlich im Titel der berühmten Arbeit von 2017, die die Transformer-Architektur einführte. Kapitel 3 erklärt sorgfältig, was sich konkret änderte.

Attention ist im Kern ein Routing-Mechanismus. Jeder Token sendet aus, wonach er sucht ("welcher andere Token hat Information über mein Subjekt?") und was er anbietet ("hier ist, was ich repräsentiere"). Die Mathematik berechnet einen gewichteten Durchschnitt über alle anderen Tokens, wobei die Gewichte dadurch bestimmt werden, wie gut jeder zur Anfrage des fragenden Tokens passt. Das Ergebnis ist, dass jeder Token nach Durchlaufen einer Attention-Schicht mit relevanter Information von überall sonst in der Sequenz angereichert wurde.

Der tiefe Grund, warum das funktioniert, ist, dass es sowohl ausdrucksstark als auch parallelisierbar ist. Ausdrucksstark, weil es weitreichende Abhängigkeiten modellieren kann — ein Token an Position 1 kann einen Token an Position 1000 direkt informieren. Parallelisierbar, weil alle gewichteten Durchschnitte auf einmal berechnet werden können, als eine Matrixoperation, in der sich moderne Hardware auszeichnet. Die Kombination ist, was die Skalierungs-Ära entfesselte.

Was Kapitel 3 vorbereitet

Am Ende von Kapitel 3 hast du ein funktionierendes Verständnis davon, warum frühere neuronale Netzdesigns bei Sprache an eine Mauer stießen und warum Attention durchbrach. Du weißt, was Training eines Netzes mechanisch bedeutet. Und du hast das konzeptionelle Gerüst, um zu verstehen, warum die Architektur im nächsten Kapitel — der Transformer — so aufgebaut ist, wie sie ist.

Dies ist das Kapitel, in dem die meisten Leser aufhören, LLMs als geheimnisvolle Black Box zu sehen, und anfangen, sie als eine spezifische Art von Engineering zu sehen. Dieser Wandel ist der ganze Sinn des Buches.


Als Nächstes — Kapitel 4: Die Transformer-Architektur. Morgen öffnen wir die Box. Self-Attention, Multi-Head-Attention, Positional Encoding, Layer-Stacks und die Designentscheidungen, die bestimmen, ob du auf GPT, BERT oder etwas dazwischen blickst.

Möchtest du das ganze Bild? Das Buch geht jede Komponente eines Transformer-Blocks mit Diagrammen und einem kurzen Codebeispiel durch, das in jeder Programmiersprache lesbar ist. Hol dir LLM Primer I auf Amazon →

SHO
SHO