Kapitel 10 — Mathematik des Post-Trainings und der Ausrichtung

Zehnter Beitrag der Kapitel-für-Kapitel-Tour durch LLM Primer II: Sprachmodelle durch Mathematik. In diesem Kapitel wird ein brillanter, aber wilder Next-Token-Predictor zu einem hilfreichen Assistenten gezähmt — und eine ganze Reinforcement-Learning-Pipeline kollabiert durch eine einzige elegante Herleitung zu etwas, das du wie einen gewöhnlichen Klassifikator trainieren kannst.

Warum es dieses Kapitel gibt

Die Kapitel 8 und 9 haben ein vortrainiertes Modell produziert. Es hat einen großen Teil des Internets gelesen und kann jeden Text mit unheimlicher Fließigkeit fortsetzen. Es hat aber keine besondere Neigung, hilfreich zu sein. Stell ihm eine Frage, und es generiert vielleicht weitere Fragen — es ist brillant und wild zugleich.

Kapitel 10 ist die Brücke zwischen diesem Wesen und dem Assistenten, mit dem du tatsächlich interagierst. Es ist auch eines der mathematisch schönsten Kapitel des Buches — das Engineering der Ausrichtung beruht auf drei sauberen Ideen in Folge, und die dritte ist unverschämt elegant.

In einem Satz: Post-Training in drei Sätzen — Supervised Fine-Tuning bringt dem Modell bei, gute Antworten zu imitieren, ein Reward-Modell lernt menschliche Präferenzen, und Präferenzoptimierung stimmt das Modell darauf ab, sie zu erfüllen, mit einer KL-Leine, die es nahe am Original hält.

10.1 Supervised Fine-Tuning

Der erste und sanfteste Schritt. Mathematisch nichts Neues — sammle (Prompt, ideale Antwort)-Paare von Menschen und trainiere mit demselben Cross-Entropy-Verlust aus Kapitel 1. Indem es Tausende Beispiele eines hilfreichen Assistenten imitiert, lernt das Modell, sich wie dieser Assistent zu verhalten statt wie eine durchschnittliche Internetseite. Die Decke: Imitation kann die Demonstratoren nicht übertreffen, und die perfekte Antwort zu schreiben ist weit schwieriger, als eine zu erkennen.

10.2 Reward-Modelle und die Mathematik der Präferenz

Wenn die perfekte Antwort zu schreiben schwer ist, aber zwei Antworten zu vergleichen leicht, dann sammle Vergleiche. Die Brücke von verrauschten menschlichen Vergleichen zu einer glatten Bewertungsfunktion: das Bradley–Terry-Modell (Statistik, 1950er). Es ordnet jedem Element eine versteckte Stärke zu, und die Wahrscheinlichkeit, dass eines das andere schlägt, wird durch die Differenz ihrer Stärken über eine logistische Funktion bestimmt. Das Reward-Modell wird trainiert, damit diese Wahrscheinlichkeit zu den menschlichen Labels passt. Lies das noch einmal und erkenne: Das ist logistische Regression auf Differenzen von Rewards.

10.3 RLHF an der Leine

Naives RL — maximiere den erwarteten Reward — ist eine Falle. Das Reward-Modell ist ein Proxy mit blinden Flecken. Eine Policy, die hart genug optimiert wird, beutet diese blinden Flecken aus und produziert degenerierten Text, der absurd hoch scort, während er für Menschen Kauderwelsch ist. Reward Hacking — Specification Gaming in seiner konkretesten Form. Die Lösung: füge eine KL-Divergenz-Strafe hinzu, die die Policy zur vortrainierten Referenz zurückzieht. Die Kunst liegt in der Balance: zu wenig Leine, und das Modell hackt den Reward; zu viel, und es verbessert sich nie.

10.4 DPO: wenn das Reinforcement Learning dahinschmilzt

Eines der schönsten Ergebnisse des jüngeren ML. Das RLHF-Ziel sieht aus, als bräuchte es den ganzen Apparat — Reward-Modell, RL-Schleife, Sampling. Direct Preference Optimization (DPO) hat gezeigt, dass es das nicht tut. Die KL-eingeschränkte Reward-Maximierung hat eine geschlossene Form als optimale Lösung: die Referenz-Policy, umgewichtet mit exponentiierten Rewards. Lauf das rückwärts: löse den Reward in Termen der optimalen Policy auf, setze in die Bradley–Terry-Präferenzverlustfunktion ein, und schau zu, wie das Reward-Modell verschwindet. Was bleibt, ist ein Verlust, der vollständig in den Log-Wahrscheinlichkeiten der Policy selbst gegen die Referenz ausgedrückt ist. Kein separates Reward-Modell. Keine RL-Schleife. Nur überwachtes Lernen auf Präferenzpaaren.

Wert, das festzuhalten: DPO ist die Art von Ergebnis, das das Feld für einen Moment klein und elegant wirken lässt. Ein ganzer beweglicher Zoo von Komponenten faltet sich sauber in einen einzigen überwachten Verlust. Dieselbe Mathematik, weniger Maschinerie.

10.5 Best-of-n, Alignment-Steuer, ehrliche Vorbehalte

Eine einfachere Alternative: Rejection Sampling / Best-of-n. Generiere n Kandidaten, bewerte alle, behalte den besten. Kein Policy-Training, nur extra Inferenz. Eine starke, denkbar einfache Baseline.

Zwei Vorbehalte. Erstens, die Alignment-Steuer: ein Modell, das hart auf Hilfsbereitschaft und Sicherheit getunt ist, verliert manchmal rohe Fähigkeit. Zweitens, fundamentaler — jede Methode hier optimiert auf menschliche Zustimmung, was nicht dasselbe ist wie Wahrheit oder Güte. Ein Modell kann lernen, gemocht zu werden, ohne zu lernen, recht zu haben.

Das Kapitel behandelt außerdem RLAIF (das Urteil eines Modells nutzen, um ein anderes auszurichten) und Constitutional AI (Werte in einfacher Sprache aufgeschrieben). Beides deutet auf das tiefere Problem skalierbarer Aufsicht hin.

Worauf Kapitel 10 hinarbeitet

Du verlässt das Kapitel mit drei Sätzen und zwei schönen Stücken Statistik. Von hier wendet sich das Buch der verwandten und ebenso mathematischen Frage zu: Jetzt, da wir ein Modell gebaut und ausgerichtet haben, woher wissen wir, ob es etwas taugt?

Als Nächstes — Kapitel 11: Evaluation, Kalibrierung und Inferenz. Perplexity, Kalibrierung, die Fehlerbalken, die jeder Benchmark-Score eigentlich tragen sollte, und die Mathematik der Halluzinations-Messung.

Möchtest du das ganze Bild? Das Buch enthält die vollständige Bradley–Terry-Herleitung, die geschlossene DPO-Lösung mit ihrem Einsetzungsbeweis und die Drei-Modell-Choreographie von RLHF diagrammatisch ausgearbeitet. LLM Primer II auf Amazon ansehen →