Kapitel 2 — Wahrscheinlichkeit, Tokens und Text

Dies ist Teil 2 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir im Beitrag zu Kapitel 1 festgelegt, was ein LLM tatsächlich ist: eine Rate-Maschine für Text. Heute werden wir konkret, was das bedeutet.

Bevor das Modell etwas sieht, sieht es Zahlen

Hier ist etwas, was die meisten Einführungen zu LLMs überspringen: Das Modell sieht nie deine Wörter. Bis dein Prompt die erste Schicht des Modells erreicht, wurde er in kleine Stücke zerlegt — sogenannte Tokens — und jeder Token wurde durch eine Zahl ersetzt.

Ein Token ist meist kürzer als ein Wort. Häufige Wörter wie "der" oder "Sprache" sind oft ein einzelner Token. Längere oder seltenere Wörter werden in Teile zerlegt — "Tokenisierung" könnte etwa "Token" + "isierung" werden. Deshalb wird die Bepreisung von LLM-APIs in Tokens statt in Wörtern gemessen — und deshalb kann derselbe Satz in einer anderen Sprache zwei- oder dreimal mehr kosten.

Kernidee: Tokens sind die LEGO-Steine der Sprachmodellierung. Häufige Stücke sind ein einzelner Stein; seltene Wörter werden aus kleineren Steinen zusammengesetzt. Das Modell arbeitet immer nur mit Sequenzen dieser Steine, codiert als Zahlen.

Wie die Zerlegung passiert — mit Methoden namens Byte Pair Encoding, WordPiece und einigen anderen — bekommt im Buch eine sorgfältige Behandlung. Verschiedene LLM-Familien nutzen verschiedene Schemata, was einer der Gründe ist, warum Modellausgaben manchmal an überraschenden Stellen brechen, wenn du mit Code, mathematischen Symbolen oder nichtlateinischen Schriften arbeitest.

Das ganze Ding ist ein Ratespiel

Sobald der Prompt tokenisiert ist, ist die Aufgabe des Modells erschreckend einfach zu beschreiben: eine Wahrscheinlichkeitsverteilung über jeden möglichen nächsten Token produzieren. Nicht "die Antwort", nicht "den richtigen Token" — eine Verteilung, die im Effekt sagt: "Angesichts von allem, was ich bisher gesehen habe, ist hier, wie wahrscheinlich jeder mögliche nächste Token ist."

Wenn du das Modell mit "Die Hauptstadt von Frankreich ist" fragst, wird die Wahrscheinlichkeit, dass der nächste Token "Paris" ist, sehr hoch sein, mit kleineren Wahrscheinlichkeitsanteilen für "die", "gelegen", "derzeit" und so weiter. Das Modell wählt dann einen dieser Kandidaten (mit der Wahl beeinflusst durch eine Einstellung namens Temperatur) und fügt ihn der Sequenz hinzu. Dann macht es das Ganze nochmal. Und nochmal. Ein Token nach dem anderen.

Das ist alles. Jeder Aufsatz, jede Übersetzung, jedes Code-Snippet, jedes Gedicht, das je von einem LLM produziert wurde, ist das Ergebnis dieser Schleife, die wiederholt läuft — ohne Plan, ohne übergeordnetes Design, ohne Ziel jenseits der Produktion des nächsten plausiblen Tokens.

Kapitel 2 widmet echte Zeit dem, warum das überhaupt funktioniert. Die Tatsache, dass reine Next-Token-Prediction bei genügend Skala etwas produziert, das nach Reasoning aussieht, ist nicht offensichtlich. Es ist eine der interessantesten empirischen Entdeckungen in moderner KI, und das Buch erklärt sorgfältig, warum.

Der alte Weg versus der neue

Bevor neuronale Netze dominierten, funktionierten Sprachmodelle durch Zählen. Wenn du das nächste Wort vorhersagen wolltest, sahst du dir die vorherigen zwei oder drei Wörter an, fandst sie überall in deinem Trainingskorpus und fragtest: Was kam danach, im Durchschnitt? Das funktionierte, irgendwie. Es produzierte grammatischen Text — manchmal. Aber es hatte zwei lähmende Probleme.

Das erste war Spärlichkeit. Die meisten Drei-Wort-Kombinationen erscheinen in keinem Trainingsdatensatz, egal wie groß. Das Modell hatte also überhaupt keine Meinung zu den meisten Sequenzen. Das zweite war Generalisierung. Der Satz "der Hund jagte die Katze" und "der Wolf jagte den Hasen" teilen eine Struktur, die Menschen sofort sehen, aber ein zählendes Modell behandelt sie als völlig unverwandt. Es lernt aus dem einen nichts, was für das andere gilt.

Neuronale Sprachmodelle beheben beide Probleme, indem sie Muster lernen statt Kombinationen zu memorisieren. Sie bilden jeden Token auf eine Liste von Zahlen ab — ein Embedding — und lernen dann, wie sich diese Zahlen über Sequenzen hinweg transformieren. Zwei Sätze mit ähnlicher Struktur enden mit ähnlichen internen Repräsentationen, selbst wenn das Modell keinen der spezifischen Sätze je gesehen hat.

Kernidee: Der Wechsel vom Zählen zum Lernen von Mustern ist die wichtigste konzeptionelle Bewegung in der Geschichte der natürlichen Sprachverarbeitung. Fast alles, was LLMs können und frühere Systeme nicht konnten, geht darauf zurück.

Wie gut die Schätzungen sind, messen

Kapitel 2 schließt mit zwei Metriken, von denen du ständig hören wirst: Entropie und Perplexity. Das Buch nimmt sich Zeit damit, weil sie leicht missverstanden werden. Die Kurzfassung — mit Entschuldigung an alle, die die Gleichungen gesehen haben:

Entropie ist Unsicherheit. Wenn das Modell sehr sicher ist, was als Nächstes kommt, ist die Entropie niedrig. Wenn das Modell wirklich unsicher ist, ist die Entropie hoch. Perplexity ist eine bequeme Art, diese Unsicherheit als Zahl auszudrücken, die du zwischen Modellen vergleichen kannst. Eine niedrigere Perplexity bedeutet ein Modell, das vom gesehenen Text im Durchschnitt weniger überrascht ist.

Du musst die Formeln nicht kennen, um diese Intuitionen zu nutzen. Wenn du liest, dass "Modell A bei diesem Benchmark eine Perplexity von 4,2 hat", kannst du mental übersetzen: "Modell As Schätzungen bei diesem Benchmark sind ziemlich sicher — es liegt im Durchschnitt bei etwa 4 plausiblen nächsten Tokens an Unsicherheit pro Position." Wenn die Perplexity 50 ist, ist das Modell viel unsicherer. Das reicht, um die meisten Forschungsarbeiten zu verstehen.

Was Kapitel 2 vorbereitet

Am Ende von Kapitel 2 hast du ein funktionierendes mentales Modell der Input-Output-Schleife, die jedes LLM definiert: Text rein, Tokens raus, Wahrscheinlichkeiten berechnet, nächster Token gesampelt, wiederholen. Du weißt, warum diese Schleife mathematisch handhabbar ist und wo ihre Grenzen liegen. Und du hast das Vokabular, um den Rest des Buches und die meiste LLM-Forschung zu lesen, ohne zu stolpern.

Das bereitet die zentrale Frage der nächsten Kapitel vor: Wie produziert das Modell diese Wahrscheinlichkeiten? Was geht da drinnen wirklich vor? Diese Geschichte beginnt morgen.

Als Nächstes — Kapitel 3: Neuronale Netze für Sprache. Wir zoomen auf die Rechenmaschinerie heran, die die eigentliche Arbeit macht. Wie ist ein neuronales Netz aufgebaut? Warum scheiterten frühere Designs an Sprache? Und was bedeutet es, Milliarden Parameter zu "trainieren"?

Möchtest du das ganze Bild? Das Buch behandelt jede Idee in diesem Beitrag sorgfältig und illustriert — einschließlich Tabellen, die Tokenisierungsschemata vergleichen, und durchgerechneter Beispiele der Next-Token-Schleife. Hol dir LLM Primer I auf Amazon →

Kapitel 2 — Wahrscheinlichkeit, Tokens und Text: Das Spiel der nächsten-Wort-Vorhersage