Kapitel 5 — Große Modelle trainieren

Dies ist Teil 5 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir den Transformer geöffnet. Heute sehen wir, was es braucht, um die Milliarden numerischer Regler in ihm tatsächlich zu füllen — den Prozess, der eine zufällig initialisierte Architektur in ein benutzbares Sprachmodell verwandelt.

Was "Training" wirklich bedeutet

Es ist leicht, das Wort "Training" zu überfliegen und nicht zu erfassen, worauf es sich bezieht. Ein großes Sprachmodell zu trainieren ist der Prozess, jeden seiner Parameter — Milliarden Zahlen — langsam so anzupassen, dass die Next-Token-Vorhersagen des Modells auf den Trainingsdaten immer besser werden.

Die Arithmetik jeder einzelnen Anpassung ist klein. Du fütterst etwas Text ein. Das Modell sagt den nächsten Token voraus. Du vergleichst die Vorhersage mit dem tatsächlichen nächsten Token. Du berechnest eine Zahl, die festhält, wie falsch die Vorhersage war (das ist die Loss). Du berechnest, wie jeder Parameter zu dieser Falschheit beigetragen hat (das ist der Gradient). Du stupst jeden Parameter um einen winzigen Betrag in die Richtung, die eine etwas bessere Vorhersage produziert hätte.

Wiederhole diese Schleife milliardenfach, über Billionen Tokens, auf zehntausenden Beschleuniger-Chips, die parallel arbeiten, über mehrere Monate — und du hast ein Frontier-Modell. Konzeptionell gibt es keinen Trick. Die Schwierigkeit liegt im Engineering.

Kernidee: Training ist ein kleines Update, unfassbar oft wiederholt. Jedes beeindruckende Ding, das ein Modell tun kann, ist das kumulierte Ergebnis dieser Updates. Es gibt keinen magischen Schritt.

Die Datenpipeline ist die Hälfte des Modells

Eine der unterschätztesten Tatsachen über moderne LLMs ist, wie viel Arbeit in die Daten fließt. Kapitel 5 widmet dem echte Zeit, denn dort leben oder sterben viele Produktionsmodelle.

Pretraining-Text wird aus dem Web, Büchern, Code-Repositories und anderen Quellen gesammelt — insgesamt Hunderte Milliarden bis ein paar Billionen Tokens für ein modernes Modell. Die Rohsammlung wird dann aggressiv bereinigt: Duplikate entfernt, offensichtlich minderwertiges Material gefiltert, schädliches oder urheberrechtlich geschütztes Material gescreent und das Ergebnis ausbalanciert, sodass keine einzelne Quelle dominiert. Jeder dieser Schritte erfordert eigenes Engineering und Policy-Arbeit.

Die Mischung und Qualität der Daten formen das resultierende Modell weit mehr, als Leute realisieren. Ein Modell, das auf einem kuratierten, gut ausbalancierten Korpus trainiert wurde, kann ein Modell mit der doppelten Parameterzahl übertreffen, das auf rohen Scrape-Daten trainiert wurde. Das ist ein Grund, warum Open-Weights-Modelle von gut ausgestatteten Laboren weiter besser werden, selbst während die Parameterzahlen ein Plateau erreichen — die Datenarbeit verbessert sich.

Verlustfunktionen, in einfacher Sprache

Die Verlustfunktion ist die mathematische Punktekarte, die dem Trainingsprozess sagt, wie gut das Modell ist. Für Sprachmodelle ist die Standardwahl Cross-Entropy-Loss — ein Maß, das selbstbewusst-falsche Vorhersagen viel stärker bestraft als unsicher-falsche Vorhersagen.

Du musst der Mathematik nicht folgen, um die Intuition zu nutzen. Ein Modell, das überwiegend richtig liegt mit niedriger Konfidenz, hat einen moderaten Loss. Ein Modell, das überwiegend richtig liegt mit hoher Konfidenz, hat einen niedrigen Loss. Ein Modell, das selbstbewusst falsch liegt, hat einen sehr hohen Loss. Der Trainingsprozess ist darauf ausgelegt, den Loss nach unten zu treiben, was dem Modell im Effekt beibringt, nur dann selbstbewusst zu sein, wenn es das sein sollte.

Kapitel 5 erklärt, warum Cross-Entropy die richtige Wahl ist, welche Alternativen existieren und wie die Loss-Kurve während eines Trainingslaufs tatsächlich aussieht (Spoiler: Sie fällt am Anfang steil und dann lange Zeit langsam, mit periodischen Stößen, wenn sich die Lernrate ändert).

Warum Training Monate dauert und Millionen kostet

Die numerischen Operationen, aus denen ein Trainingsschritt besteht — Matrixmultiplikationen, Additionen, Normalisierungen — sind einzeln auf einer einzelnen GPU schnell. Der Haken ist, dass eine GPU nicht ausreicht, um ein Frontier-Modell im Speicher zu halten, geschweige denn in vernünftiger Zeit zu trainieren. Also wird das Training auf Tausende von Beschleunigern verteilt, die mit Hochbandbreiten-Interconnects verkabelt sind.

Drei Geschmacksrichtungen von Parallelismus werden typischerweise kombiniert. Datenparallelismus legt eine volle Kopie des Modells auf jedes Gerät und füttert verschiedenen Geräten verschiedene Daten-Batches, wobei die Gradienten über die Geräte gemittelt werden. Modellparallelismus teilt das Modell selbst über Geräte auf, sodass jedes nur einige der Schichten hält. Pipeline-Parallelismus staffelt die Arbeit über Geräte, sodass sie nicht untätig aufeinander warten.

Jedes davon ist eine eigene Engineering-Disziplin mit eigenen Fehlermodi. Geräte fallen mitten im Training aus und müssen heiß ausgetauscht werden. Netzwerküberlastung zeigt sich als Trainings-Stalls. Numerische Instabilitäten lassen Läufe divergieren. Frontier-Training dreht sich mehr um industrielle Zuverlässigkeit als um algorithmische Cleverness.

Wichtig: Die Kosten eines Frontier-Trainingslaufs werden heute von Strom, Hardware-Abschreibung und Personal dominiert, ungefähr in dieser Reihenfolge. Die eigentliche mathematische Arbeit ist der billige Teil der Rechnung.

Overfitting und das Gleichgewicht, das du halten musst

Das Kapitel schließt mit zwei Fehlermodi, die jeder Trainingslauf navigieren muss. Overfitting bedeutet, dass das Modell seine Trainingsbeispiele auswendig lernt, statt die zugrundeliegenden Muster zu lernen; es produziert ein Modell, das auf den Trainingsdaten gut performt, aber bei allem Neuen schlecht. Underfitting bedeutet, dass das Modell nicht genug trainiert wurde, um die Struktur in den Daten einzufangen; es produziert ein Modell, das bei allem schlecht ist.

Der Raum zwischen ihnen ist schmal, und mehrere Standardwerkzeuge — zusammenfassend Regularisierung genannt — werden eingesetzt, um das Training darin zu halten. Dropout, Weight Decay, sorgfältige Lernratenpläne, Early Stopping. Keine davon ist exotisch. Alle davon sind essentiell.

Was Kapitel 5 vorbereitet

Am Ende von Kapitel 5 hast du ein klares Bild davon, was ein Frontier-Modell materiell ist. Du kannst eine Pressemitteilung über einen neuen Trainingslauf lesen und ihre Behauptungen präzise einordnen. Du verstehst, warum das Engineering dieser Systeme in einigen Ländern jetzt eine Sorge im Maßstab nationaler Sicherheit ist, und warum die öffentliche Diskussion über KI zunehmend eine Diskussion über Daten, Energie und Infrastruktur ist.

Als Nächstes — Kapitel 6: Feinabstimmung und Adaption. Morgen schauen wir, wie ein vortrainiertes Modell nützlich wird. Feinabstimmung, Instruction Tuning, parametereffiziente Methoden wie LoRA und die Alignment-Techniken (RLHF und seine Nachfolger), die rohe Next-Token-Predictoren in hilfreiche Assistenten verwandeln.

Möchtest du das ganze Bild? Das Buch zerlegt die vollständige Trainingspipeline, einschließlich der Datenkurationsschritte, die die meisten Einführungen überspringen, mit Diagrammen der Parallelismus-Strategien aus echten Frontier-Läufen. Hol dir LLM Primer I auf Amazon →

Kapitel 5 — Große Modelle trainieren: Was wirklich in ein Frontier-Modell fließt