Kapitel 11 — Evaluation, Kalibrierung und Inferenz

Elfter Beitrag der Kapitel-für-Kapitel-Tour durch LLM Primer II: Sprachmodelle durch Mathematik. Das Kapitel, in dem wir uns fragen, wie irgendjemand eine Maschine messen kann, die alles sagen kann — und entdecken, dass ein selbstsicheres Modell oft ein schlecht kalibriertes ist.

Die Frage, die sich als mathematisch entpuppt

Wir haben in Teil II ein Modell gebaut, es in Teil III trainiert und in Kapitel 10 ausgerichtet. Woher wissen wir, ob davon irgendetwas wirklich funktioniert hat? Es klingt nach einer weichen Frage. Es ist eine der härtesten und mathematischsten im Feld, denn ein Sprachmodell kann im Wesentlichen jeden Text produzieren, und "gut" widersetzt sich der Definition.

11.1 Perplexity

Das fundamentalste Maß braucht keinen Menschen — es fällt direkt aus dem Trainingsziel heraus. Miss die Wahrscheinlichkeit, die das Modell einem Holdout-Testset zuweist. Pro Token und exponentiiert ist das die Perplexity — die durchschnittliche Überraschung des Modells als effektiver Verzweigungsfaktor. Günstig, objektiv, automatisch. Blind für fast alles, was in der Praxis zählt: Nützlichkeit, Wahrheit, Sicherheit. Nicht vergleichbar über Tokenizer hinweg. Das Kapitel behandelt auch BLEU, ROUGE, Code-Ausführungsrate, Judge-Modell-Scores — jeweils mit bekannten Schwachstellen.

In einem Satz: Perplexity ist der günstige intrinsische Maßstab. Sie ist ehrlich zur Vorhersage und schweigt zu allem anderen.

11.2 Kalibrierung

Ein Modell ist gut kalibriert, wenn seine Konfidenz mit seiner Genauigkeit übereinstimmt — wenn es sagt, es sei zu 80% sicher, sollte es in etwa 80% der Fälle richtig liegen. Nicht dasselbe wie Genauigkeit. Ein Modell kann genau und gleichzeitig überzeugt sein, oder sogar ungenau und dabei ehrlich. Für jeden Einsatz mit hohen Einsätzen zählt Kalibrierung genauso viel wie Genauigkeit.

Mess sie mit einem Reliability-Diagramm: gruppiere Vorhersagen nach angegebener Konfidenz und prüfe die Genauigkeit in jedem Bin. Ein perfekt kalibriertes Modell zeichnet die Diagonale; der häufige Fall wölbt sich darunter (überzeugt). Zusammenfassende Metrik: Expected Calibration Error (ECE). Temperature-Scaling — Logits durch einen gelernten Skalar teilen — ist eine einfache, effektive Post-hoc-Korrektur. RLHF verschlechtert die Kalibrierung interessanterweise oft.

11.3 Benchmark-Unsicherheit

Wenn ein Modell "87% in einem Benchmark scort", fehlt die Frage: 87% plus oder minus was? Der Standardfehler der Genauigkeit nahe 50% bei n Fragen beträgt etwa 1/(2√n). Für n=1000 sind das rund 1,6 Prozentpunkte — ein Score von 87% und einer von 85% unterscheiden sich also nicht zwingend. Verstärkende Gefahren: multiple Vergleiche (teste genug Modelle auf genug Benchmarks, und einige sehen zufällig besser aus) und Kontamination (sind Benchmark-Fragen in die Trainingsdaten gelangt, misst der Score Auswendiglernen). Das ist der Abschnitt, den die KI-Presse am dringendsten lesen muss.

11.4 Halluzination und Retrieval-Geometrie

Halluzination — die selbstsichere Behauptung von Unwahrheit — ist der Fehlermodus, der die Grenzen eines LLMs am stärksten definiert, und der am schwersten zu messen ist, weil er Wahrheitsurteile verlangt. Faithfulness-Metriken testen, ob jede Aussage in einer Antwort durch den gelieferten Kontext gestützt ist.

Das führende Werkzeug zur Reduktion von Halluzinationen ist Retrieval-Augmented Generation: das Modell in echten Dokumenten zu erden. Seine zentrale Operation führt uns passenderweise zur Geometrie aus Teil I zurück — Maximum-Inner-Product-Suche über Embeddings (Kapitel 3) von Anfrage und Kandidatenpassagen. Die Geometrie aus Kapitel 3 wird plötzlich tragend für die Produktion.

Wert, das festzuhalten — Goodharts Gesetz: "Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein." Jede Metrik in diesem Kapitel wird zu einem korrumpierten Maß, sobald du auf sie optimierst. Es gibt kein Entkommen; es gibt nur Management — frische Benchmarks, Triangulation über viele Metriken hinweg, Menschen in der Schleife dort, wo Automatisierung nicht hinreicht.

Worauf Kapitel 11 hinarbeitet

Du verlässt das Kapitel mit dem Werkzeugkasten ehrlicher Messung: Perplexity als intrinsischer Maßstab, Kalibrierung als die Frage, die oft wichtiger ist als Genauigkeit, Fehlerbalken als Gegenmittel zum Benchmark-Theater, Retrieval-Geometrie als das Produktionswerkzeug gegen Halluzinationen. Teil III schließt hier. Von hier wendet sich das Buch dem zu, was wir mit diesen Modellen tatsächlich tun.

Als Nächstes — Kapitel 12: Reale Anwendungen von LLMs. Das erste Kapitel von Teil IV. Textgenerierung, Zusammenfassung, QA, Übersetzung, Reasoning — wie jedes davon durch die Mathematik aussieht, die wir nun haben.

Möchtest du das ganze Bild? Das Buch enthält die Herleitung des Reliability-Diagramms, die ECE-Formel, die Mathematik der Benchmark-Standardfehler und Faithfulness-Metriken für Halluzinationen — plus die Rückverbindung zur Embedding-Geometrie aus Kapitel 3. LLM Primer II auf Amazon ansehen →