Einführung in LLM
Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.
Kapitel 14 — Benchmarking, Testen und Performance
Fünfzehnter und letzter Beitrag der LLM-Primer-IV-Tour. Der MCP-Universe-Benchmark auf echten Servern, die zwei systemischen Fehlermodi, die er enthüllte, die Zehnfach-Durchsatzlücke zwischen Session-per-Request und geteilten Session-Pools und die Brücke zu Band V.
2026-04-12Kapitel 10 — Langzeit-Gedächtnis
Zehnter Beitrag der LLM-Primer-IV-Tour. Kurzfristgedächtnis über Fenster und ReAct-Scratchpads, Langfristgedächtnis über episodische Vektoren und semantische Stores und die Verdichtungstechniken, die einen Agenten über Stunden und Tage produktiv halten.
2026-04-08Kapitel 9 — Das Aufmerksamkeitsbudget verwalten
Neunter Beitrag der LLM-Primer-IV-Tour. Context Rot, die Lost-in-the-Middle-Klippe, Tool-Loadout-Rot und die drei architektonischen Antworten — MCP, RAG, Fine-Tuning — auf die Frage, wo das fehlende Wissen eines Modells tatsächlich hingehört.
2026-04-07Kapitel 2 — Das Model Context Protocol (MCP) enthüllt
Zweiter Beitrag der LLM-Primer-IV-Tour. Was MCP tatsächlich standardisiert, die Drei-Rollen-Aufteilung in Host, Client und Server, warum sich dynamische Discovery und bidirektionales Messaging in den entscheidenden Fällen von REST unterscheiden und der Session-Lebenszyklus, der mit Capability-Verhandlung beginnt.
2026-03-31Kapitel 5 — Die Retrieval-Pipeline architektonisch denken
Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.
2026-03-22Kapitel 4 — Die richtige Vektordatenbank wählen
Vierter Beitrag der LLM-Primer-III-Tour. Die architektonische Trennung zwischen purpose-built Vektordatenbanken und Postgres-artigen Erweiterungen, die Managed-Leader (Pinecone, Vertex), das Open-Source-Feld (Qdrant, Milvus, Weaviate), die Embedded-Optionen und die drei operativen Achsen — Residency, Betrieb, Kosten — die die echte Wahl treffen.
2026-03-21Kapitel 3 — Fortgeschrittene Chunking-Frameworks
Dritter Beitrag der LLM-Primer-III-Tour. Das Chunking-Spektrum von Fixgröße bis strukturbewusst, der Overlap-Mythos, die Kontextklippe, die Retrieval still zerstört, und die Techniken Contextual Retrieval und Late Chunking, die die Frontier neu geformt haben.
2026-03-20Kapitel 1 — Die Evolution der RAG-Architektur
Erster Beitrag der LLM-Primer-III-Tour. Die vier architektonischen Haltungen von RAG — Naive, Advanced, Modular, Agentic — lesen sich als eine Geschichte darüber, wie man dem LLM Schritt für Schritt mehr Handlungsspielraum übergibt, und die ehrliche Antwort darauf, wann Fine-Tuning das bessere Werkzeug ist als Retrieval.
2026-03-18LLM Primer III — Serieneinführung und Übersicht
Auftakt der kapitelweisen Tour durch Band III der LLM-Primer-Reihe — Enterprise-KI mit RAG. Warum Retrieval-Augmented Generation von außen einfach aussieht und in Wahrheit ein Stapel von Disziplinen ist, für wen das Buch geschrieben ist, und der Fahrplan für die elf Beiträge vom 18. bis 28. März.
2026-03-17Kapitel 11 — Evaluation, Kalibrierung und Inferenz
Kapitel 11 der LLM Primer II Serie. Wie misst man eine Maschine, die alles sagen kann? Perplexity als günstiger intrinsischer Maßstab, Kalibrierung als die Frage, die oft wichtiger ist als Genauigkeit, Fehlerbalken als Gegenmittel zum Benchmark-Theater und Retrieval-Geometrie als das Produktionswerkzeug gegen Halluzinationen.
2026-03-13Kapitel 8 — LLMs in Anwendungen einsetzen: Chatbots, Code, Extraktion und Agenten
Kapitel 8 der LLM Primer I Serie. Die Anwendungsmuster, die wirklich in Produktion ausgeliefert werden — Chatbots, Zusammenfassung, Code-Assistenten, strukturierte Extraktion und der Aufstieg agentischer Systeme, in denen das Modell eine Tool-Use-Schleife steuert. Plus die Benchmarks, die jeder Ingenieur namentlich kennen sollte.
2026-02-25Kapitel 7 — Jenseits der Vorhersage des nächsten Tokens: Embeddings, Retrieval und Multimodalität
Kapitel 7 der LLM Primer I Serie. Die Fähigkeiten, die einen Next-Token-Predictor in viel mehr verwandeln — Embeddings, semantische Suche, Retrieval-Augmented Generation und der Übergang zu multimodalen Eingaben. Wie RAG ein LLM tatsächlich in echten Dokumenten geerdet hält, statt zu fabulieren.
2026-02-24Kapitel 6 — Feinabstimmung und Adaption: Vom rohen Modell zum hilfreichen Assistenten
Kapitel 6 der LLM Primer I Serie. Der vollständige Adaptionsstack — vom günstigen Prompt-basierten Steuern über parametereffiziente Feinabstimmung bis zum vollen Alignment mit RLHF und seinen modernen Nachfolgern wie DPO. Warum sich Closed-Model-APIs heute hauptsächlich beim Post-Training unterscheiden.
2026-02-23Kapitel 4 — Die Transformer-Architektur: Im Motor moderner KI
Kapitel 4 der LLM Primer I Serie. Eine Tour durch den Transformer-Block — wie Self-Attention, Positional Encoding und gestapelte Schichten zusammenwirken, um die Architektur zu erzeugen, auf der jedes moderne LLM aufgebaut ist. Mit einer klaren Erklärung, warum das Skalieren von Transformern funktioniert und was es kostet.
2026-02-21Eine Kapitel-für-Kapitel-Tour durch LLM Primer I — Einführung in die Serie und Index
Einführung und Index der zwölfteiligen Kapitel-für-Kapitel-Tour durch LLM Primer I: Wie generative KI funktioniert. Ein Post pro Tag, vom 18. Februar bis zum 1. März 2026. Lies sie in Reihenfolge oder wähle das Kapitel, das dich am meisten interessiert. Alle zwölf sind hier aufgelistet und verlinkt.
2026-02-17