Kapitel 11 — Spitzenforschung: MoE, Reasoning-Modelle und die neue Skalierungsachse

Veröffentlicht am: 2026-02-28 Zuletzt aktualisiert am: 2026-06-04 Version: 1

Kapitel 11 — Spitzenforschung

Dies ist Teil 11 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir Sicherheit, Ethik und Vertrauen behandelt. Heute blicken wir nach vorn. Kapitel 11 behandelt die Forschungsrichtungen, die das Feld zwischen 2024 und 2026 am stärksten geprägt haben — und eine davon hat alles verändert.


Mixture of Experts: Produktion, nicht Forschung

Bis vor ein paar Jahren aktivierte jedes Transformer-basierte LLM jeden Parameter für jeden Input. Ein 70-Milliarden-Parameter-Modell verwendete alle 70 Milliarden Parameter, um jeden nächsten Token vorherzusagen. Das ist rechnerisch verschwenderisch — die meisten Parameter sind für die meisten Eingaben nicht relevant.

Mixture-of-Experts (MoE)-Architekturen beheben das. Das Modell enthält viele spezialisierte Sub-Netzwerke, sogenannte Experten, aber nur wenige werden für eine gegebene Eingabe aktiviert. Ein kleines Gating-Netzwerk entscheidet, welche Experten aufgerufen werden. Das Ergebnis ist ein Modell mit enormer Gesamt-Parameterzahl — was es leistungsfähig macht — aber mit begrenzter Berechnung pro Token — was es effizient macht.

Kernidee: MoE entkoppelt Kapazität von Berechnung. Ein Modell kann insgesamt 600 Milliarden Parameter haben, während pro Token nur 30 Milliarden aktiviert werden. Das ist einer der Hauptgründe, warum Frontier-Modelle weiter besser geworden sind, während die Inferenzkosten nicht proportional gewachsen sind.

Die Ausgabe 2026 behandelt MoE als Produktionsrealität statt als Forschung, denn das ist es jetzt. Mehrere große Frontier-Modellfamilien setzen MoE-Architekturen ein. Das Buch geht durch, wie das Routing funktioniert, was die Load-Balancing-Herausforderungen sind und warum dieses architektonische Muster wahrscheinlich auf absehbare Zeit dominieren wird.

Memory-Mechanismen

Standard-LLMs haben eine Art von Memory: Parameter. Sobald das Training fertig ist, ist das Wissen des Modells bis zum nächsten Trainingslauf festgelegt. Forschung zu Retrieval- und Memory-Mechanismen versucht, Modellen eine zweite Art von Memory zu geben — extern, aktualisierbar und zur Inferenzzeit abfragbar.

RAG, das wir in Kapitel 7 behandelt haben, ist die häufigste Implementierung, aber sie ist Teil einer größeren Familie. Differenzierbare Memory-Module erlauben Gradientenfluss durch Retrieval-Operationen, sodass das Modell lernen kann, wie es effektiv abruft. Long-Context-Memory-Mechanismen komprimieren frühere Teile der Konversation, damit das Modell effektiv mehr "erinnern" kann, als sein Kontextfenster erlaubt. Das Buch behandelt jede Richtung und diskutiert, was ausgereift ist gegenüber spekulativ.

Native Multimodalität

Die frühen multimodalen Modelle verwendeten separate Encoder für Vision und Sprache, die in einer Fusion-Schicht zusammengenäht wurden. Die aktuelle Generation hat sich zu etwas Eleganterem entwickelt: Bilder, Audio und Video direkt tokenisieren und sie durch denselben Transformer wie Text füttern. Die Architektur weiß nicht und kümmert sich nicht darum, welche Art von Token sie verarbeitet.

Deshalb können moderne Frontier-Modelle reibungslos Modalitäten in einer einzigen Konversation mischen, deshalb kann ein Modell ein Foto ansehen und beschreiben, während es die vorherige Textunterhaltung fortsetzt, und deshalb akzeptieren manche Modelle jetzt Video als First-Class-Input. Das Buch geht durch, was dieser architektonische Wechsel für Kontextbudget, Latenz und die Arten von Aufgaben bedeutet, die du diesen Systemen zuwerfen kannst.

Kontinuierliches Lernen, ehrlich

Fast jedes ausgelieferte LLM ist zur Trainingszeit eingefroren. Sein Wissen zu aktualisieren bedeutet einen vollen Retraining- oder Feinabstimmungszyklus. Kontinuierliches Lernen ist die Forschungsrichtung, die versucht, Modelle ihre Parameter inkrementell, in Produktion, zu aktualisieren — ohne zu vergessen, was sie bereits wussten.

Das ist schwerer, als es klingt. Das Haupthindernis heißt katastrophales Vergessen: Wenn du ein neuronales Netz auf neuen Daten trainierst, neigt es dazu, die Muster zu überschreiben, die es aus alten Daten gelernt hat. Das zuverlässig im großen Maßstab zu lösen, bleibt ein offenes Problem. Das Buch ist ehrlich darüber, was funktioniert und was nicht, und warum die meisten produktiven Systeme immer noch auf Retrieval statt auf kontinuierliches Lernen setzen, wenn sie aktuelle Informationen brauchen.

Die neue Skalierungsachse: Reasoning-Modelle

Das ist der Abschnitt, der mich in der Ausgabe 2026 am meisten begeistert. Zwischen 2024 und 2026 entstand eine neue Familie von Modellen — manchmal Reasoning-Modelle, Chain-of-Thought-Modelle oder Inference-Time-Scaling-Modelle genannt. Sie haben verändert, wie das Feld über Fähigkeit denkt.

Der Mechanismus ist im Umriss direkt. Ein Reasoning-Modell wird trainiert — typischerweise durch eine Kombination aus Präferenzoptimierung und Reinforcement Learning auf Aufgaben mit verifizierbaren Ergebnissen — lange interne Ketten von Zwischen-Tokens zu erzeugen, bevor es seine finale Antwort ausgibt. Diese Zwischen-Tokens funktionieren als Arbeitsgedächtnis. Sie erlauben dem Modell, Probleme zu zerlegen, Lösungsansätze zu erkunden, seine eigene Arithmetik oder Logik zu prüfen und Fehler zu korrigieren, wenn es welche entdeckt. Der Nutzer sieht nur die finale Antwort; das Modell hat die Zwischenspur benutzt, um dorthin zu kommen.

Was das vom einfachen "Chain-of-Thought"-Prompting unterscheidet, ist, wo die Fähigkeit lebt. Chain-of-Thought-Prompting überredet ein Allzweck-Modell zum externen Denken, indem es seinen Prompt formt. Reasoning-Modelle sind darauf trainiert zu denken — das Verhalten ist in die Policy eingebaut, nicht in den Prompt.

Wichtig: Inference-Time Scaling verändert die operative Form des Systems. Latenz und Kosten pro Anfrage sind nicht mehr fixiert — sie variieren um eine Größenordnung, je nachdem, wie viel Reasoning das Modell entscheidet zu tun. Das Anwendungsdesign muss diese Variabilität berücksichtigen, mit Streaming-, Cancel- und Timeout-Policies, die Modelle vor Reasoning selten benötigten.

Fähigkeit lässt sich jetzt entlang zweier weitgehend unabhängiger Achsen erhöhen. Die Trainingsachse bestimmt, was das Modell aus Daten gelernt hat. Die Inferenzachse bestimmt, wie viel Deliberation das Modell auf eine bestimmte Eingabe anwendet. Ein kleineres Modell, dem ausführliches Reasoning erlaubt wird, kann manchmal ein größeres Modell schlagen, das in einem einzigen Durchgang antwortet. Das stellt den gesamten Skalierungs-Kosten-Trade-off neu auf, der die Modellauswahl bisher regiert hat.

Zukünftige Richtungen

Das Buch schließt Kapitel 11 mit den offenen Forschungsfragen. Effizienz — mit weniger Rechenleistung mehr tun. Reasoning — das Modell zuverlässiger im mehrstufigen Denken machen. Alignment — gutes Verhalten erhalten, wenn die Fähigkeit wächst. Architektur — ob der Transformer dominant bleibt oder durch etwas fundamental anderes ersetzt wird.

Es wird nicht erwartet, dass ein einzelner Durchbruch die nächsten Jahre dominieren wird. Fortschritt wird wahrscheinlich aus der Integration vieler Techniken kommen, von denen jede ein Stück beiträgt. Das ist eine weniger befriedigende Erzählung als "das nächste große Ding", aber sie ist die ehrliche.

Was Kapitel 11 vorbereitet

Am Ende von Kapitel 11 verstehst du die wichtigsten Forschungsrichtungen, die das Feld heute formen. Du kannst Ankündigungen neuer Frontier-Modelle lesen und ihre architektonischen Behauptungen korrekt einordnen. Du hast einen Rahmen, um über das nachzudenken, was als Nächstes kommt — sowohl was wahrscheinlich ist als auch was unsicher ist.


Als Nächstes — Kapitel 12: Dein eigenes LLM-System bauen. Das Abschlusskapitel des Buches. Morgen schließen wir die Serie mit dem, was es braucht, um tatsächlich ein End-to-End-LLM-System zu konstruieren — Datensätze, Trainings-Pipelines, Evaluations-Frameworks, der integrierte Stack und die Fallstudien-Muster, die erfolgreiche Deployments teilen.

Möchtest du das ganze Bild? Kapitel 11 im Buch ist in der Ausgabe 2026 substanziell erweitert, mit eigenen Abschnitten zu Reasoning-Modellen und nativer Multimodalität, die in der ersten Ausgabe nicht existierten. Hol dir LLM Primer I auf Amazon →

SHO
SHO