Kapitel 11 — Evaluation, Kalibrierung und Inferenz
Elfter Beitrag der Kapitel-für-Kapitel-Tour durch LLM Primer II: Sprachmodelle durch Mathematik. Das Kapitel, in dem wir uns fragen, wie irgendjemand eine Maschine messen kann, die alles sagen kann — und entdecken, dass ein selbstsicheres Modell oft ein schlecht kalibriertes ist.
Die Frage, die sich als mathematisch entpuppt
Wir haben in Teil II ein Modell gebaut, es in Teil III trainiert und in Kapitel 10 ausgerichtet. Woher wissen wir, ob davon irgendetwas wirklich funktioniert hat? Es klingt nach einer weichen Frage. Es ist eine der härtesten und mathematischsten im Feld, denn ein Sprachmodell kann im Wesentlichen jeden Text produzieren, und "gut" widersetzt sich der Definition.
11.1 Perplexity
Das fundamentalste Maß braucht keinen Menschen — es fällt direkt aus dem Trainingsziel heraus. Miss die Wahrscheinlichkeit, die das Modell einem Holdout-Testset zuweist. Pro Token und exponentiiert ist das die Perplexity — die durchschnittliche Überraschung des Modells als effektiver Verzweigungsfaktor. Günstig, objektiv, automatisch. Blind für fast alles, was in der Praxis zählt: Nützlichkeit, Wahrheit, Sicherheit. Nicht vergleichbar über Tokenizer hinweg. Das Kapitel behandelt auch BLEU, ROUGE, Code-Ausführungsrate, Judge-Modell-Scores — jeweils mit bekannten Schwachstellen.
11.2 Kalibrierung
Ein Modell ist gut kalibriert, wenn seine Konfidenz mit seiner Genauigkeit übereinstimmt — wenn es sagt, es sei zu 80% sicher, sollte es in etwa 80% der Fälle richtig liegen. Nicht dasselbe wie Genauigkeit. Ein Modell kann genau und gleichzeitig überzeugt sein, oder sogar ungenau und dabei ehrlich. Für jeden Einsatz mit hohen Einsätzen zählt Kalibrierung genauso viel wie Genauigkeit.
Mess sie mit einem Reliability-Diagramm: gruppiere Vorhersagen nach angegebener Konfidenz und prüfe die Genauigkeit in jedem Bin. Ein perfekt kalibriertes Modell zeichnet die Diagonale; der häufige Fall wölbt sich darunter (überzeugt). Zusammenfassende Metrik: Expected Calibration Error (ECE). Temperature-Scaling — Logits durch einen gelernten Skalar teilen — ist eine einfache, effektive Post-hoc-Korrektur. RLHF verschlechtert die Kalibrierung interessanterweise oft.
11.3 Benchmark-Unsicherheit
Wenn ein Modell "87% in einem Benchmark scort", fehlt die Frage: 87% plus oder minus was? Der Standardfehler der Genauigkeit nahe 50% bei n Fragen beträgt etwa 1/(2√n). Für n=1000 sind das rund 1,6 Prozentpunkte — ein Score von 87% und einer von 85% unterscheiden sich also nicht zwingend. Verstärkende Gefahren: multiple Vergleiche (teste genug Modelle auf genug Benchmarks, und einige sehen zufällig besser aus) und Kontamination (sind Benchmark-Fragen in die Trainingsdaten gelangt, misst der Score Auswendiglernen). Das ist der Abschnitt, den die KI-Presse am dringendsten lesen muss.
11.4 Halluzination und Retrieval-Geometrie
Halluzination — die selbstsichere Behauptung von Unwahrheit — ist der Fehlermodus, der die Grenzen eines LLMs am stärksten definiert, und der am schwersten zu messen ist, weil er Wahrheitsurteile verlangt. Faithfulness-Metriken testen, ob jede Aussage in einer Antwort durch den gelieferten Kontext gestützt ist.
Das führende Werkzeug zur Reduktion von Halluzinationen ist Retrieval-Augmented Generation: das Modell in echten Dokumenten zu erden. Seine zentrale Operation führt uns passenderweise zur Geometrie aus Teil I zurück — Maximum-Inner-Product-Suche über Embeddings (Kapitel 3) von Anfrage und Kandidatenpassagen. Die Geometrie aus Kapitel 3 wird plötzlich tragend für die Produktion.
Worauf Kapitel 11 hinarbeitet
Du verlässt das Kapitel mit dem Werkzeugkasten ehrlicher Messung: Perplexity als intrinsischer Maßstab, Kalibrierung als die Frage, die oft wichtiger ist als Genauigkeit, Fehlerbalken als Gegenmittel zum Benchmark-Theater, Retrieval-Geometrie als das Produktionswerkzeug gegen Halluzinationen. Teil III schließt hier. Von hier wendet sich das Buch dem zu, was wir mit diesen Modellen tatsächlich tun.
Als Nächstes — Kapitel 12: Reale Anwendungen von LLMs. Das erste Kapitel von Teil IV. Textgenerierung, Zusammenfassung, QA, Übersetzung, Reasoning — wie jedes davon durch die Mathematik aussieht, die wir nun haben.