Kapitel 1 — Was ist ein großes Sprachmodell?

Dies ist Teil 1 einer Serie, die LLM Primer I: How Generative AI Works durchgeht — ein mechanismusorientierter Leitfaden zur Technologie hinter moderner KI. In den nächsten zwölf Beiträgen stelle ich jedes Kapitel des Buches vor, teile die Frameworks, die das Material organisieren, und erkläre, warum ich es so geschrieben habe.

Die Frage, die einfach klingt — aber es nicht ist

Wenn du hundert Leute fragst, was ein großes Sprachmodell ist, bekommst du hundert Antworten, und die meisten werden auf irgendeine interessante Weise falsch sein. "Es ist eine KI." "Es ist ein Chatbot." "Es ist eine Suchmaschine, die zurückspricht." "Es ist das Ding, das gestern Abend meinen Bericht geschrieben hat."

Keine davon ist genau genommen falsch. Aber sie beschreiben, was ein LLM tut, nicht was es ist. Kapitel 1 dreht sich um die zweite Frage — diejenige, die die meisten Einführungen überspringen und die Marketingsprache aktiv verschleiert. Denn wenn du diese Frage nicht präzise beantworten kannst, wird jede andere Behauptung über LLMs schwerer zu bewerten.

Kernidee: Ein großes Sprachmodell ist eine Rate-Maschine für Text. Das ist alles. Alles Beeindruckende, was es tut, kommt davon, dass es diese eine Sache extrem gut tut — milliardenfach hintereinander.

Die drei Wörter, ernst genommen

Das Buch beginnt damit, den Begriff LLM Wort für Wort zu zerlegen, denn jedes trägt Gewicht, das ignoriert wird, sobald "LLM" zur Kurzform wird.

Groß bedeutet nicht physisch groß. Es bedeutet, dass das System in der Größenordnung von Milliarden internen numerischen Einstellungen hat — Parameter genannt — die während des Trainings angepasst wurden. Es bedeutet auch, dass das Training selbst riesige Textmengen und riesige Rechenleistung verwendet hat. Jede dieser drei Zahlen — Parameter, Daten, Rechenleistung — muss zusammen wachsen, damit das Modell tatsächlich schlauer wird. Nur eine zu verdoppeln, enttäuscht meistens.

Sprache klingt offensichtlich, hat hier aber eine spezifische Bedeutung. Das Modell versteht weder Grammatik noch Bedeutung so, wie du es tust. Es arbeitet mit Sequenzen kleiner Textstücke, sogenannten Tokens — meist kürzer als Wörter. Aus der Perspektive des Modells ist jeder Prompt eine Folge von Zahlen, und jede Antwort ist einfach die nächste Zahl, und die nächste, und die nächste.

Modell ist das beladenste der drei Wörter. Ein Modell ist in diesem Sinne keine Datenbank, die Fakten speichert. Es ist keine Person, die Dinge weiß. Es ist eine trainierte mathematische Funktion — ein Mustererkenner — die wahrscheinliche Fortsetzungen des erhaltenen Texts produziert. Wenn das Modell "weiß", was die Hauptstadt Frankreichs ist, schlägt es den Fakt nicht nach. Es produziert "Paris", weil "Paris" angesichts des restlichen Prompts der wahrscheinlichste nächste Token ist — nach den Mustern, die es aus Trainingsdaten aufgenommen hat.

Diese Unterscheidung ist wichtiger, als sie klingt. Sie erklärt, warum LLMs halluzinieren. Sie erklärt, warum sie mit Überzeugung falsch liegen können. Sie erklärt, warum sie so gut darin sind, flüssigen Text zu erzeugen, und so unzuverlässig, wenn man von ihnen verlangt, autoritativ über Fakten zu sein. Das Buch kommt immer wieder auf diese Unterscheidung zurück, weil sie der nützlichste Rahmen ist, um vorherzusagen, wie sich irgendein LLM in irgendeiner Situation verhalten wird.

Wie wir hierher gekommen sind, in einem Absatz

Kapitel 1 geht auch durch, wie sich Sprachmodellierung tatsächlich entwickelt hat — denn das moderne LLM ist das jüngste Kapitel einer Geschichte, die Jahrzehnte zurückreicht. Lange Zeit verarbeiteten Computer Sprache entweder mit handgeschriebenen Grammatikregeln oder indem sie zählten, wie oft bestimmte Wortpaare in Büchern vorkamen. Beide Ansätze stießen an Grenzen. Der Durchbruch bestand darin, Muster direkt aus riesigen Textmengen zu lernen, statt sich die Regeln vorgeben zu lassen. Die Ideen unter den heutigen LLMs sind älter, als die Leute denken; neu ist die Skala, in der sie nun angewendet werden.

Ich werde den spezifischen architektonischen Durchbruch, der alles verändert hat, nicht vorwegnehmen — der kommt in Kapitel 3 und 4. Aber so viel sei gesagt: Der Übergang vom "Wortzählen nachschlagen" zum "Muster lernen" ist der wichtigste Wandel in der Geschichte der natürlichen Sprachverarbeitung, und ihn zu verstehen lässt alles Spätere Sinn ergeben.

Drei Mythen, die ich ernst genug nehme, um sie zu entkräften

Das Kapitel endet damit, dass es drei hartnäckige Missverständnisse darüber anspricht, was LLMs tun. Ich nehme sie ernst, weil jedes davon — wenn man es glaubt — dich zu schlechten Entscheidungen darüber führen wird, wann du einem LLM trauen kannst und wann nicht.

Der erste Mythos ist, dass LLMs auf menschliche Weise verstehen. Das tun sie nicht. Sie produzieren Ausgaben, die nach Verständnis aussehen, weil sie auf Texten trainiert wurden, die von Menschen geschrieben wurden, die wirklich verstehen. Der zweite ist, dass LLMs Faktendatenbanken sind. Sind sie nicht. Fakten sind über Milliarden Gewichte verteilt, weshalb Modelle plausibel klingende, aber falsche Aussagen mit Überzeugung produzieren können. Der dritte ist, dass größere Modelle immer schlauer sind. Sind sie nicht. Skala interagiert mit Datenqualität, Trainingsmethode und architektonischen Entscheidungen, und das größte verfügbare Modell ist nicht immer das richtige Werkzeug für den Job.

Wichtig zu merken: Ein LLM, das überzeugt klingt, ist nicht dasselbe wie ein LLM, das richtig liegt. Flüssigkeit und Korrektheit sind zwei verschiedene Eigenschaften, produziert vom gleichen zugrundeliegenden Mechanismus, aber regiert von unterschiedlichen Beschränkungen.

Was Kapitel 1 vorbereitet

Am Ende des Kapitels hast du eine funktionierende Definition davon, was ein LLM ist und nicht ist, ein Gefühl dafür, wie das Feld hierher gekommen ist, und einen klaren Blick auf die häufigsten Missverständnisse. Das ist kein kleiner Gewinn für ein einzelnes Kapitel. Es ist die Grundlage, die es möglich macht, den Rest des Buches zu lesen.

Wenn du nur Kapitel 1 liest und sonst nichts, wirst du in der Lage sein, präziser über LLMs nachzudenken als die meisten Schlagzeilen darüber. Das allein ist für viele Leser genug, um das Buch seinen Preis wert zu machen.

Als Nächstes — Kapitel 2: Wahrscheinlichkeit, Tokens und Text. Morgen werden wir konkret, was diese "Tokens" wirklich sind, warum das Modell im Kern eine Wahrscheinlichkeitsmaschine ist und wie Next-Token-Prediction — das Einzige, was das Modell wirklich tut — zu allem anderen wird, was es kann.

Möchtest du das ganze Bild? Das Buch behandelt jede Idee hier mit der Tiefe und Sorgfalt, die sie verdient — mit Diagrammen, Seitenleisten in einfacher Sprache und der technischen Präzision, die du brauchst, um tatsächlich mit diesen Systemen zu arbeiten. Hol dir LLM Primer I auf Amazon →

Kapitel 1 — Was ist ein großes Sprachmodell? (Jenseits der Schlagzeilen)