Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 19 Artikel verfügbar. | Aktuell auf Seite 1 von 1.

Kapitel 17 — Künftige Bedrohungen und aufkommende Abwehr

Der Blast Radius eines Agenten ist die Größe seines Werkzeugsets multipliziert mit der Zahl der Schritte, die er nehmen darf; die Eingabefläche eines multimodalen Modells ist Größenordnungen größer als bei rein textbasierten; und beide Seiten des Konflikts sind mittlerweile selbst Modelle.

2026-05-26

Kapitel 7 — Halluzinationen und Zuverlässigkeit

Ein LLM ist per Konstruktion überzeugter, als es sollte — sein Trainingsziel belohnt Wahrscheinlichkeit auf dem beobachteten Token, nicht Richtigkeit — und Zuverlässigkeits-Engineering ist die Disziplin, Kalibrierung, Verankerung und Verifikation nachzurüsten.

2026-05-16

Kapitel 12 — Disaggregiertes Serving und Kubernetes

Prefill und Decode auf separate GPU-Pools trennen, den KV-Cache über NVLink oder InfiniBand transportieren und die Topologie über LeaderWorkerSet, Grove und KAI Scheduler festhalten.

2026-05-04

Kapitel 9 — Spekulatives Dekodieren

Wie ein günstiger Entwurf und eine leicht breitere Verifikationspass den sequenziellen Engpass durchbrechen — EAGLE, Medusa, MTP und die Arithmetik, wann Spekulation sich lohnt.

2026-05-01

Kapitel 8 — KV-Cache-Management der nächsten Generation

PagedAttention als virtueller Speicher für den KV-Cache, H2O- und InfiniGen-Eviction sowie Präfix-Caching mit RadixAttention — der größte ROI-Hebel für System-Prompts, RAG und Agenten-Scaffolds.

2026-04-30

Kapitel 6 — Pruning und Knowledge Distillation

2:4-Sparsity auf Hopper und Blackwell, Knowledge Distillation über die Verteilung des Lehrers und die Reihenfolge, in der Distill, Prune und Quantisierung sich zu einer 20-fachen Bandbreitenreduktion aufschichten.

2026-04-28

Kapitel 5 — Quantisierung entmystifiziert

Warum große Modelle 4-Bit-Quantisierung überleben und kleine nicht, was AWQ, GPTQ, SmoothQuant und GGUF tatsächlich tun und die Sicherheitsleiter FP8 → INT4 mit Kalibrierungsdisziplin.

2026-04-27

Kapitel 2 — Die KV-Cache-Herausforderung

Der KV-Cache tauscht Arithmetik gegen Speicher und wird zum größten VRAM-Verbraucher. Die Formel, die MHA-/GQA-/MQA-Entscheidungen und die Fragmentierung, die naive Allokation ruiniert.

2026-04-24

Kapitel 14 — Benchmarking, Testen und Performance

Fünfzehnter und letzter Beitrag der LLM-Primer-IV-Tour. Der MCP-Universe-Benchmark auf echten Servern, die zwei systemischen Fehlermodi, die er enthüllte, die Zehnfach-Durchsatzlücke zwischen Session-per-Request und geteilten Session-Pools und die Brücke zu Band V.

2026-04-12

Kapitel 9 — Das Aufmerksamkeitsbudget verwalten

Neunter Beitrag der LLM-Primer-IV-Tour. Context Rot, die Lost-in-the-Middle-Klippe, Tool-Loadout-Rot und die drei architektonischen Antworten — MCP, RAG, Fine-Tuning — auf die Frage, wo das fehlende Wissen eines Modells tatsächlich hingehört.

2026-04-07

Kapitel 8 — Architektonische Deployment-Layouts

Achter Beitrag der LLM-Primer-IV-Tour. Die drei Deployment-Layouts, die im MCP-Ökosystem entstanden sind — wiederverwendbarer Agent, strenge Reinheit, Hybrid — und die vier bindenden Beschränkungen, die entscheiden, welches zu welchem Projekt passt.

2026-04-06

Kapitel 1 — Die KI-Integrationskrise und der Aufstieg der agentischen Architektur

Erster Beitrag der LLM-Primer-IV-Tour. Warum monolithische Agenten ausfransen, je länger ihre System-Prompts werden, das darunterliegende N-mal-M-Integrationsproblem und der Übergang vom Prompt-Engineering zum Context-Engineering, den MCP ermöglichen soll.

2026-03-30

LLM Primer IV — Serieneinführung & Index

Auftakt der kapitelweisen Tour durch Buch IV der LLM-Primer-Reihe — KI-Kognition mit MCP entwerfen. Warum Agenten eine Protokollschicht brauchen, um über Demoware hinauszuwachsen, für wen das Buch geschrieben ist und der Zeitplan der vierzehn Beiträge vom 30. März bis zum 12. April.

2026-03-29

Kapitel 5 — Die Retrieval-Pipeline architektonisch denken

Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.

2026-03-22

Kapitel 9 — Leistung, Skalierung und Kosten: Die echten Engineering-Trade-offs

Kapitel 9 der LLM Primer I Serie. Die operativen Realitäten beim Betrieb von LLMs im großen Maßstab — Modellgröße versus Fähigkeit, der Trade-off zwischen Latenz und Throughput, Kostenökonomie, Quantisierung und Edge-Deployment. Warum Frontier-Modelle oft die falsche Wahl sind, selbst wenn du sie dir leisten kannst.

2026-02-26

Kapitel 4 — Die Transformer-Architektur: Im Motor moderner KI

Kapitel 4 der LLM Primer I Serie. Eine Tour durch den Transformer-Block — wie Self-Attention, Positional Encoding und gestapelte Schichten zusammenwirken, um die Architektur zu erzeugen, auf der jedes moderne LLM aufgebaut ist. Mit einer klaren Erklärung, warum das Skalieren von Transformern funktioniert und was es kostet.

2026-02-21

Kapitel 3 — Neuronale Netze für Sprache: Von RNNs zu Self-Attention

Kapitel 3 der LLM Primer I Serie. Warum Feedforward-Netze keine Sprache verarbeiten konnten, wie RNNs an eine Mauer stießen und was Attention veränderte. Ein sauberer konzeptioneller Verlauf durch die drei neuronalen Netzformen, die modernes NLP definierten — ohne Mathe-Angst.

2026-02-20

Eine Kapitel-für-Kapitel-Tour durch LLM Primer I — Einführung in die Serie und Index

Einführung und Index der zwölfteiligen Kapitel-für-Kapitel-Tour durch LLM Primer I: Wie generative KI funktioniert. Ein Post pro Tag, vom 18. Februar bis zum 1. März 2026. Lies sie in Reihenfolge oder wähle das Kapitel, das dich am meisten interessiert. Alle zwölf sind hier aufgelistet und verlinkt.

2026-02-17

Die LLM Primer Serie — Ein Feldhandbuch zur generativen KI, Band für Band aufgebaut

Die LLM Primer Serie — ein vollständiger siebenbändiger Feldführer zu generativer KI von Sho Shimoda. Von Grundlagen bis Sicherheit. Enthält Physical AI als Schwesterband. Alle 7 Bände auf Amazon erhältlich.

2026-02-15