Einführung in LLM
Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.
Kapitel 14 — Benchmarking, Testen und Performance
Fünfzehnter und letzter Beitrag der LLM-Primer-IV-Tour. Der MCP-Universe-Benchmark auf echten Servern, die zwei systemischen Fehlermodi, die er enthüllte, die Zehnfach-Durchsatzlücke zwischen Session-per-Request und geteilten Session-Pools und die Brücke zu Band V.
2026-04-12Kapitel 13 — Frameworks und Cloud-Integration
Dreizehnter Beitrag der LLM-Primer-IV-Tour. Strands mit Bedrock, das AWS-State-Layer-Muster, das Microsoft Agent Framework, LangChain, Semantic Kernel — und die drei produktiven Integrationsformen, auf die Teams unabhängig immer wieder kommen.
2026-04-11Kapitel 12 — Protokoll-Härtung und Verteidigungen
Zwölfter Beitrag der LLM-Primer-IV-Tour. Die vier Verteidigungs-Cluster — kryptographische Attestation, OAuth-Scope-Disziplin mit begrenzten Sessions, Laufzeit-Sandboxing und Human-in-the-Loop-Gates — komponieren zu einer Haltung, die nicht davon abhängt, dass sich das Modell unter adversariellen Bedingungen korrekt verhält.
2026-04-10Kapitel 11 — Angriffsflächen und Protokoll-Schwachstellen
Elfter Beitrag der LLM-Primer-IV-Tour. Die klassischen Angriffe an MCP angepasst — Confused Deputy, Token-Passthrough, Session-Hijacking — die Protokoll-Schwachstellen rund um Capability-Eskalation und unauthentifiziertes Sampling und die implizite Vertrauenspropagation, die Kontextvergiftung zu einem strukturellen Problem macht.
2026-04-09Kapitel 10 — Langzeit-Gedächtnis
Zehnter Beitrag der LLM-Primer-IV-Tour. Kurzfristgedächtnis über Fenster und ReAct-Scratchpads, Langfristgedächtnis über episodische Vektoren und semantische Stores und die Verdichtungstechniken, die einen Agenten über Stunden und Tage produktiv halten.
2026-04-08Kapitel 9 — Das Aufmerksamkeitsbudget verwalten
Neunter Beitrag der LLM-Primer-IV-Tour. Context Rot, die Lost-in-the-Middle-Klippe, Tool-Loadout-Rot und die drei architektonischen Antworten — MCP, RAG, Fine-Tuning — auf die Frage, wo das fehlende Wissen eines Modells tatsächlich hingehört.
2026-04-07Kapitel 8 — Architektonische Deployment-Layouts
Achter Beitrag der LLM-Primer-IV-Tour. Die drei Deployment-Layouts, die im MCP-Ökosystem entstanden sind — wiederverwendbarer Agent, strenge Reinheit, Hybrid — und die vier bindenden Beschränkungen, die entscheiden, welches zu welchem Projekt passt.
2026-04-06Kapitel 7 — Fortgeschrittene kollaborative und dynamische Muster
Siebter Beitrag der LLM-Primer-IV-Tour. Roundtable-Konsens, Handoff-Routing und magentische Orchestrierung — die Muster, die entstehen, wenn die Topologie pro Request gebaut werden muss, mit den Fehlermodi (Nicht-Terminierung, Fehlrouting, durchgegangenes Planen), die die einfacheren Muster vermeiden.
2026-04-05Kapitel 6 — Grundlegende Orchestrierungsstrategien
Sechster Beitrag der LLM-Primer-IV-Tour. Die zwei grundlegenden Orchestrierungsformen — sequenzielle Pipelines und nebenläufige Scatter-Gather — und die vorgelagerte Frage, die jedes Team stellen sollte: ist ein Multi-Agent-System überhaupt die richtige Antwort?
2026-04-04Kapitel 5 — Transportprotokolle und Discovery
Fünfter Beitrag der LLM-Primer-IV-Tour. Die drei Transports, die MCP unterstützt, die .well-known-Discovery-Schicht mit Server Cards und die langweiligen operativen Themen — CORS, Origin-Validierung, Caching — die darüber entscheiden, ob ein Server ein kooperativer Netzwerkbürger oder eine Haftung ist.
2026-04-03Kapitel 4 — Client-Primitives: Agentisches Verhalten und Kontrolle
Vierter Beitrag der LLM-Primer-IV-Tour. Sampling, Roots und Elicitation sind die drei kleinen, kontrollierten Öffnungen, die MCP in die Host-Server-Wand schneidet — jede eine geliehene Capability, jede ein im Namen der Nutzerin akzeptiertes Risiko.
2026-04-02Kapitel 3 — Server-Primitives: Kontext und Fähigkeiten freigeben
Dritter Beitrag der LLM-Primer-IV-Tour. Die drei Nomen, die ein MCP-Server anbieten kann — Resources (Lesezustand), Prompts (wiederverwendbares Gerüst), Tools (Schreibaktionen) — ihre Schemata, ihre Lebenszyklen, ihre Fehlermodelle und die Disziplin, das richtige Primitiv zu wählen.
2026-04-01Kapitel 2 — Das Model Context Protocol (MCP) enthüllt
Zweiter Beitrag der LLM-Primer-IV-Tour. Was MCP tatsächlich standardisiert, die Drei-Rollen-Aufteilung in Host, Client und Server, warum sich dynamische Discovery und bidirektionales Messaging in den entscheidenden Fällen von REST unterscheiden und der Session-Lebenszyklus, der mit Capability-Verhandlung beginnt.
2026-03-31Kapitel 1 — Die KI-Integrationskrise und der Aufstieg der agentischen Architektur
Erster Beitrag der LLM-Primer-IV-Tour. Warum monolithische Agenten ausfransen, je länger ihre System-Prompts werden, das darunterliegende N-mal-M-Integrationsproblem und der Übergang vom Prompt-Engineering zum Context-Engineering, den MCP ermöglichen soll.
2026-03-30LLM Primer IV — Serieneinführung & Index
Auftakt der kapitelweisen Tour durch Buch IV der LLM-Primer-Reihe — KI-Kognition mit MCP entwerfen. Warum Agenten eine Protokollschicht brauchen, um über Demoware hinauszuwachsen, für wen das Buch geschrieben ist und der Zeitplan der vierzehn Beiträge vom 30. März bis zum 12. April.
2026-03-29Kapitel 11 — Kontinuierliche Updates und Pipeline-Optimierung
Elfter und letzter Beitrag der LLM-Primer-III-Tour. CDC und inkrementelle Indizierung halten den Korpus frisch, semantisches Caching und Model-Tiering halten die Latenz unten, und eine vierstufige Feedback-Schleife schließt die Lücke zwischen dem, was die Produktion dem Team sagt, und dem, was das Team tatsächlich ändert — plus eine Brücke zu Band IV über das Model Context Protocol.
2026-03-28Kapitel 10 — Führende Evaluations-Frameworks
Zehnter Beitrag der LLM-Primer-III-Tour. Ein Feldführer zu den Frameworks, die die Evaluations-Triade in etwas verwandeln, das ein Team tatsächlich fahren kann — RAGAS, TruLens, DeepEval auf der einen Seite, Braintrust, LangSmith, Phoenix, Galileo, Opik auf der anderen, und die Evaluation Gap, die noch keiner geschlossen hat.
2026-03-27Kapitel 9 — Die RAG-Evaluations-Triade
Neunter Beitrag der LLM-Primer-III-Tour. Ein RAG-System kann an drei verschiedenen Stellen versagen, und die Versagen sehen von außen identisch aus — die Evaluations-Triade aus Context Relevance, Groundedness und Answer Relevance ist das kleine Vokabular, das verhindert, dass man einen Bug repariert, während man einen anderen misst.
2026-03-26Kapitel 8 — Datenanonymisierung in der RAG-Pipeline
Achter Beitrag der LLM-Primer-III-Tour. Pre-Generation gegen Post-Generation, die drei Technik-Familien — Masking, synthetischer Ersatz, differenzielle Privatsphäre — und der Utility-Privacy-Tradeoff, der bestimmt, ob das System überhaupt nützlich bleibt.
2026-03-25Kapitel 7 — Zugriffskontrolle umsetzen
Siebter Beitrag der LLM-Primer-III-Tour. Dokumentbezogene ACLs als Fundament, RBAC mit Microsoft Purview Sensitivity Labels, ReBAC mit Zanzibar und SpiceDB und die Pre-Filter-gegen-Post-Filter-Disziplin, die unter allen läuft.
2026-03-24Kapitel 6 — Bedrohungsmodelle und Schwachstellen von RAG
Sechster Beitrag der LLM-Primer-III-Tour. Die erweiterte Angriffsfläche von Retrieval — Korpus-Vergiftung, adversariale Chunks, indirekte Prompt Injection, Embedding-Inversion und das Confused-Deputy-Problem in agentischem RAG. Konkrete Angriffe, jeder demonstriert, jeder reproduzierbar.
2026-03-23Kapitel 5 — Die Retrieval-Pipeline architektonisch denken
Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.
2026-03-22Kapitel 4 — Die richtige Vektordatenbank wählen
Vierter Beitrag der LLM-Primer-III-Tour. Die architektonische Trennung zwischen purpose-built Vektordatenbanken und Postgres-artigen Erweiterungen, die Managed-Leader (Pinecone, Vertex), das Open-Source-Feld (Qdrant, Milvus, Weaviate), die Embedded-Optionen und die drei operativen Achsen — Residency, Betrieb, Kosten — die die echte Wahl treffen.
2026-03-21Kapitel 3 — Fortgeschrittene Chunking-Frameworks
Dritter Beitrag der LLM-Primer-III-Tour. Das Chunking-Spektrum von Fixgröße bis strukturbewusst, der Overlap-Mythos, die Kontextklippe, die Retrieval still zerstört, und die Techniken Contextual Retrieval und Late Chunking, die die Frontier neu geformt haben.
2026-03-20Kapitel 2 — Intelligentes Document-Parsing
Zweiter Beitrag der LLM-Primer-III-Tour. Warum eine PDF keine Textdatei ist, was layoutbewusste Parser tatsächlich erhalten, die aktuelle Werkzeuglandschaft (LlamaParse, Docling, Unstructured, Marker-PDF, Firecrawl, DeepSeek-OCR) und der multimodale Pfad, der direkt über Seitenbilder abruft.
2026-03-19Kapitel 1 — Die Evolution der RAG-Architektur
Erster Beitrag der LLM-Primer-III-Tour. Die vier architektonischen Haltungen von RAG — Naive, Advanced, Modular, Agentic — lesen sich als eine Geschichte darüber, wie man dem LLM Schritt für Schritt mehr Handlungsspielraum übergibt, und die ehrliche Antwort darauf, wann Fine-Tuning das bessere Werkzeug ist als Retrieval.
2026-03-18LLM Primer III — Serieneinführung und Übersicht
Auftakt der kapitelweisen Tour durch Band III der LLM-Primer-Reihe — Enterprise-KI mit RAG. Warum Retrieval-Augmented Generation von außen einfach aussieht und in Wahrheit ein Stapel von Disziplinen ist, für wen das Buch geschrieben ist, und der Fahrplan für die elf Beiträge vom 18. bis 28. März.
2026-03-17Kapitel 11 — Evaluation, Kalibrierung und Inferenz
Kapitel 11 der LLM Primer II Serie. Wie misst man eine Maschine, die alles sagen kann? Perplexity als günstiger intrinsischer Maßstab, Kalibrierung als die Frage, die oft wichtiger ist als Genauigkeit, Fehlerbalken als Gegenmittel zum Benchmark-Theater und Retrieval-Geometrie als das Produktionswerkzeug gegen Halluzinationen.
2026-03-13Kapitel 10 — Mathematik des Post-Trainings und der Ausrichtung
Kapitel 10 der LLM Primer II Serie. Wie ein brillanter, aber wilder Next-Token-Predictor zu einem hilfreichen Assistenten gezähmt wird — Supervised Fine-Tuning, Reward-Modellierung mit Bradley-Terry, RLHF an der KL-Leine und die elegante DPO-Herleitung, die die gesamte RL-Pipeline in einen einzigen überwachten Verlust zusammenfaltet.
2026-03-12Kapitel 12 — Dein eigenes LLM-System bauen: Von Datensätzen bis zur Produktion
Kapitel 12 der LLM Primer I Serie. Das Abschlusskapitel. Was es wirklich braucht, um ein LLM-getriebenes System End-to-End zu bauen — Datensatz-Lizenzierung, Trainings-Pipelines, Evaluations-Frameworks, der integrierte Anwendungs-Stack und die Fallstudien-Muster, die erfolgreiche Deployments von gescheiterten Piloten unterscheiden.
2026-03-01Kapitel 11 — Spitzenforschung: MoE, Reasoning-Modelle und die neue Skalierungsachse
Kapitel 11 der LLM Primer I Serie. Die Forschungsfronten, die jetzt Produktionsrealität sind — Mixture-of-Experts, Retrieval-Memory, native multimodale Tokenisierung, kontinuierliches Lernen und das Inference-Time-Scaling-Paradigma, das die heutigen Reasoning-Modelle hervorgebracht hat. Die größte inhaltliche Erweiterung der Ausgabe 2026.
2026-02-28Kapitel 10 — Sicherheit, Ethik und Vertrauen: Jenseits des Marketings
Kapitel 10 der LLM Primer I Serie. Das ehrliche Bild der LLM-Sicherheit — warum Halluzinationen mechanisch auftreten, wo Bias wirklich lebt, wie geschichtete Guardrails funktionieren und warum Governance die institutionelle Schicht ist, die technische Kontrollen nicht ersetzen können. Für Praktiker, die sicher ausliefern müssen.
2026-02-27Kapitel 9 — Leistung, Skalierung und Kosten: Die echten Engineering-Trade-offs
Kapitel 9 der LLM Primer I Serie. Die operativen Realitäten beim Betrieb von LLMs im großen Maßstab — Modellgröße versus Fähigkeit, der Trade-off zwischen Latenz und Throughput, Kostenökonomie, Quantisierung und Edge-Deployment. Warum Frontier-Modelle oft die falsche Wahl sind, selbst wenn du sie dir leisten kannst.
2026-02-26Kapitel 8 — LLMs in Anwendungen einsetzen: Chatbots, Code, Extraktion und Agenten
Kapitel 8 der LLM Primer I Serie. Die Anwendungsmuster, die wirklich in Produktion ausgeliefert werden — Chatbots, Zusammenfassung, Code-Assistenten, strukturierte Extraktion und der Aufstieg agentischer Systeme, in denen das Modell eine Tool-Use-Schleife steuert. Plus die Benchmarks, die jeder Ingenieur namentlich kennen sollte.
2026-02-25Kapitel 7 — Jenseits der Vorhersage des nächsten Tokens: Embeddings, Retrieval und Multimodalität
Kapitel 7 der LLM Primer I Serie. Die Fähigkeiten, die einen Next-Token-Predictor in viel mehr verwandeln — Embeddings, semantische Suche, Retrieval-Augmented Generation und der Übergang zu multimodalen Eingaben. Wie RAG ein LLM tatsächlich in echten Dokumenten geerdet hält, statt zu fabulieren.
2026-02-24Kapitel 6 — Feinabstimmung und Adaption: Vom rohen Modell zum hilfreichen Assistenten
Kapitel 6 der LLM Primer I Serie. Der vollständige Adaptionsstack — vom günstigen Prompt-basierten Steuern über parametereffiziente Feinabstimmung bis zum vollen Alignment mit RLHF und seinen modernen Nachfolgern wie DPO. Warum sich Closed-Model-APIs heute hauptsächlich beim Post-Training unterscheiden.
2026-02-23Kapitel 5 — Große Modelle trainieren: Was wirklich in ein Frontier-Modell fließt
Kapitel 5 der LLM Primer I Serie. Wie Frontier-LLMs tatsächlich trainiert werden — die Datenpipeline, die Verlustfunktion, die Monate GPU-Zeit und warum "Training" heute mehr ein industrielles Engineering-Problem ist als ein Forschungsproblem. Entmystifiziert, wofür diese Hundert-Millionen-Dollar-Trainingsläufe bezahlen.
2026-02-22Kapitel 4 — Die Transformer-Architektur: Im Motor moderner KI
Kapitel 4 der LLM Primer I Serie. Eine Tour durch den Transformer-Block — wie Self-Attention, Positional Encoding und gestapelte Schichten zusammenwirken, um die Architektur zu erzeugen, auf der jedes moderne LLM aufgebaut ist. Mit einer klaren Erklärung, warum das Skalieren von Transformern funktioniert und was es kostet.
2026-02-21Kapitel 3 — Neuronale Netze für Sprache: Von RNNs zu Self-Attention
Kapitel 3 der LLM Primer I Serie. Warum Feedforward-Netze keine Sprache verarbeiten konnten, wie RNNs an eine Mauer stießen und was Attention veränderte. Ein sauberer konzeptioneller Verlauf durch die drei neuronalen Netzformen, die modernes NLP definierten — ohne Mathe-Angst.
2026-02-20Kapitel 2 — Wahrscheinlichkeit, Tokens und Text: Das Spiel der nächsten-Wort-Vorhersage
Kapitel 2 der LLM Primer I Serie. Wie LLMs Text in Tokens umwandeln, warum Sprachmodellierung fundamental ein Wahrscheinlichkeitsproblem ist und wie der alte n-gramm-Ansatz neuronalen Modellen wich, die generalisieren können. Mit Erklärungen in einfacher Sprache zu Perplexity und dazu, warum Token-Grenzen wichtig sind.
2026-02-19Kapitel 1 — Was ist ein großes Sprachmodell? (Jenseits der Schlagzeilen)
Kapitel 1 der LLM Primer I Serie. Wir entwirren, was "groß", "Sprache" und "Modell" wirklich bedeuten, gehen den Weg von regelbasierten Systemen zu neuronalen Netzen durch und behandeln die drei größten Missverständnisse darüber, wie moderne LLMs funktionieren. Eine klare, zugängliche Grundlage für alles, was folgt.
2026-02-18Eine Kapitel-für-Kapitel-Tour durch LLM Primer I — Einführung in die Serie und Index
Einführung und Index der zwölfteiligen Kapitel-für-Kapitel-Tour durch LLM Primer I: Wie generative KI funktioniert. Ein Post pro Tag, vom 18. Februar bis zum 1. März 2026. Lies sie in Reihenfolge oder wähle das Kapitel, das dich am meisten interessiert. Alle zwölf sind hier aufgelistet und verlinkt.
2026-02-17Die LLM Primer Serie — Ein Feldhandbuch zur generativen KI, Band für Band aufgebaut
Die LLM Primer Serie — ein siebenbändiges Feldhandbuch zur generativen KI von Sho Shimoda. Jeder Band behandelt eine eigene Ebene der Arbeit mit großen Sprachmodellen, von den Grundlagen bis zur Sicherheit. Dies ist die Landingpage: ein Überblick über die gesamte Serie plus die laufende Kapitel-für-Kapitel-Tour durch die ersten Bände.
2026-02-15