Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 38 Artikel verfügbar. | Aktuell auf Seite 1 von 1.

Kapitel 17 — Künftige Bedrohungen und aufkommende Abwehr

Der Blast Radius eines Agenten ist die Größe seines Werkzeugsets multipliziert mit der Zahl der Schritte, die er nehmen darf; die Eingabefläche eines multimodalen Modells ist Größenordnungen größer als bei rein textbasierten; und beide Seiten des Konflikts sind mittlerweile selbst Modelle.

2026-05-26

Kapitel 16 — Sicheres Fine-Tuning und Adaption

Ein feingetunter Checkpoint ist ein Kandidat, kein einsetzbares Modell — und der Unterschied zwischen Kandidat und einsetzbar wird durch Evaluations-Gates geschlossen, die eine CI-Pipeline erzwingt, nicht durch Benchmark-Reports, die Engineers hoffentlich lesen.

2026-05-25

Kapitel 15 — Eine sichere KI-Organisation aufbauen

Die Sicherheitsdisziplin ist nur so dauerhaft wie die Organisation, die sie trägt — Kultur, Red Teams, Vendor-Bewertung, Evaluation und Stewardship sind, was die Kontrollen der Teile I–IV in eine Praxis überführt, die Führungswechsel, Budgetkürzungen und die vierteljährlichen Modell-Updates überlebt.

2026-05-24

Kapitel 14 — Bias, Fairness und verantwortliche KI

Verantwortliche KI ist kein technisches Problem mit technischem Fix — die Fairness-Metriken sind gegenseitig inkonsistent, der Sicherheit-Nutzen-Kompromiss ist real, und die Erklärbarkeitsmethoden liefern weniger, als Regulierungen verlangen. Die Ingenieursarbeit ist, unter diesen Bedingungen sorgfältig zu wählen.

2026-05-23

Kapitel 12 — Zugriffssteuerung und Identität

Zugriffssteuerung in LLM-Systemen ist die klassische Disziplin plus eine Ergänzung — das Modell ist, wenn es über Werkzeuge handelt, selbst ein Principal, dessen Berechtigungen so eng geschnitten sein müssen, dass ein kompromittierter Prompt sie nicht einlösen kann.

2026-05-21

Kapitel 7 — Halluzinationen und Zuverlässigkeit

Ein LLM ist per Konstruktion überzeugter, als es sollte — sein Trainingsziel belohnt Wahrscheinlichkeit auf dem beobachteten Token, nicht Richtigkeit — und Zuverlässigkeits-Engineering ist die Disziplin, Kalibrierung, Verankerung und Verifikation nachzurüsten.

2026-05-16

Kapitel 6 — Risiken retrieval-augmentierter Generierung

Ein Retrieval-Index erbt das Vertrauensprofil jeder Quelle, die er aufnimmt, und die niedrigst-vertraute Quelle dominiert — deshalb lebt die Sicherheit von RAG-Systemen an den Aufnahme- und Retrieval-Grenzen, nicht am Modellaufruf.

2026-05-15

Kapitel 12 — Disaggregiertes Serving und Kubernetes

Prefill und Decode auf separate GPU-Pools trennen, den KV-Cache über NVLink oder InfiniBand transportieren und die Topologie über LeaderWorkerSet, Grove und KAI Scheduler festhalten.

2026-05-04

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 9 — Spekulatives Dekodieren

Wie ein günstiger Entwurf und eine leicht breitere Verifikationspass den sequenziellen Engpass durchbrechen — EAGLE, Medusa, MTP und die Arithmetik, wann Spekulation sich lohnt.

2026-05-01

Kapitel 8 — KV-Cache-Management der nächsten Generation

PagedAttention als virtueller Speicher für den KV-Cache, H2O- und InfiniGen-Eviction sowie Präfix-Caching mit RadixAttention — der größte ROI-Hebel für System-Prompts, RAG und Agenten-Scaffolds.

2026-04-30

Kapitel 6 — Pruning und Knowledge Distillation

2:4-Sparsity auf Hopper und Blackwell, Knowledge Distillation über die Verteilung des Lehrers und die Reihenfolge, in der Distill, Prune und Quantisierung sich zu einer 20-fachen Bandbreitenreduktion aufschichten.

2026-04-28

Kapitel 5 — Quantisierung entmystifiziert

Warum große Modelle 4-Bit-Quantisierung überleben und kleine nicht, was AWQ, GPTQ, SmoothQuant und GGUF tatsächlich tun und die Sicherheitsleiter FP8 → INT4 mit Kalibrierungsdisziplin.

2026-04-27

Kapitel 3 — Rechenzentrums-GPUs für generative KI

H100, H200, B200, L40S und MI300X gelesen als Bandbreiten- und VRAM-Profile: Blackwell verdoppelt die Bandbreite und liefert FP4, MI300X ist der Kostenhebel, wo ROCm-Kompetenz vorhanden ist.

2026-04-25

Kapitel 2 — Die KV-Cache-Herausforderung

Der KV-Cache tauscht Arithmetik gegen Speicher und wird zum größten VRAM-Verbraucher. Die Formel, die MHA-/GQA-/MQA-Entscheidungen und die Fragmentierung, die naive Allokation ruiniert.

2026-04-24

Kapitel 1 — Die Mechanik der Token-Erzeugung

Die autoregressive Schleife ist mathematisch sequenziell, Prefill und Dekodierung belasten den Chip gegensätzlich, und ein einzelner Nutzer lässt eine H100 zu 99,7 Prozent leerlaufen.

2026-04-23

LLM Primer VI — Serieneinführung und Index

Serieneinführung und Index zum Kapitel-für-Kapitel-Walkthrough von LLM Primer VI: LLM-Inferenz als Ingenieursdisziplin, in der Speicherbandbreite, Scheduling und Kosten aufeinandertreffen.

2026-04-22

Kapitel 8 — Performance, Serving und Kosten optimieren

Letzter Beitrag der LLM-Primer-V-Tour. Die geschichtete Disziplin produktiver LLM-Ökonomie — der günstigste Aufruf ist der, der nie gemacht wird.

2026-04-21

Kapitel 2 — Foundation Models und Prompt-Engineering

Zweiter Beitrag der LLM-Primer-V-Tour. Prompt-Engineering als Engineering: Modellwahl, Sampling-Parameter, Prompt-Anatomie und strukturierte Outputs als vier Steuerflächen.

2026-04-15

LLM Primer V — Serieneinführung und Übersicht

Kapitelweise Tour durch LLM Primer V — der Band, der KI-Engineering als eigenständige Disziplin behandelt und die acht Flächen abschreitet, an denen produktive LLM-Systeme leben.

2026-04-13

Kapitel 14 — Benchmarking, Testen und Performance

Fünfzehnter und letzter Beitrag der LLM-Primer-IV-Tour. Der MCP-Universe-Benchmark auf echten Servern, die zwei systemischen Fehlermodi, die er enthüllte, die Zehnfach-Durchsatzlücke zwischen Session-per-Request und geteilten Session-Pools und die Brücke zu Band V.

2026-04-12

Kapitel 12 — Protokoll-Härtung und Verteidigungen

Zwölfter Beitrag der LLM-Primer-IV-Tour. Die vier Verteidigungs-Cluster — kryptographische Attestation, OAuth-Scope-Disziplin mit begrenzten Sessions, Laufzeit-Sandboxing und Human-in-the-Loop-Gates — komponieren zu einer Haltung, die nicht davon abhängt, dass sich das Modell unter adversariellen Bedingungen korrekt verhält.

2026-04-10

Kapitel 11 — Angriffsflächen und Protokoll-Schwachstellen

Elfter Beitrag der LLM-Primer-IV-Tour. Die klassischen Angriffe an MCP angepasst — Confused Deputy, Token-Passthrough, Session-Hijacking — die Protokoll-Schwachstellen rund um Capability-Eskalation und unauthentifiziertes Sampling und die implizite Vertrauenspropagation, die Kontextvergiftung zu einem strukturellen Problem macht.

2026-04-09

Kapitel 9 — Das Aufmerksamkeitsbudget verwalten

Neunter Beitrag der LLM-Primer-IV-Tour. Context Rot, die Lost-in-the-Middle-Klippe, Tool-Loadout-Rot und die drei architektonischen Antworten — MCP, RAG, Fine-Tuning — auf die Frage, wo das fehlende Wissen eines Modells tatsächlich hingehört.

2026-04-07

Kapitel 8 — Architektonische Deployment-Layouts

Achter Beitrag der LLM-Primer-IV-Tour. Die drei Deployment-Layouts, die im MCP-Ökosystem entstanden sind — wiederverwendbarer Agent, strenge Reinheit, Hybrid — und die vier bindenden Beschränkungen, die entscheiden, welches zu welchem Projekt passt.

2026-04-06

Kapitel 1 — Die KI-Integrationskrise und der Aufstieg der agentischen Architektur

Erster Beitrag der LLM-Primer-IV-Tour. Warum monolithische Agenten ausfransen, je länger ihre System-Prompts werden, das darunterliegende N-mal-M-Integrationsproblem und der Übergang vom Prompt-Engineering zum Context-Engineering, den MCP ermöglichen soll.

2026-03-30

LLM Primer IV — Serieneinführung & Index

Auftakt der kapitelweisen Tour durch Buch IV der LLM-Primer-Reihe — KI-Kognition mit MCP entwerfen. Warum Agenten eine Protokollschicht brauchen, um über Demoware hinauszuwachsen, für wen das Buch geschrieben ist und der Zeitplan der vierzehn Beiträge vom 30. März bis zum 12. April.

2026-03-29

Kapitel 11 — Kontinuierliche Updates und Pipeline-Optimierung

Elfter und letzter Beitrag der LLM-Primer-III-Tour. CDC und inkrementelle Indizierung halten den Korpus frisch, semantisches Caching und Model-Tiering halten die Latenz unten, und eine vierstufige Feedback-Schleife schließt die Lücke zwischen dem, was die Produktion dem Team sagt, und dem, was das Team tatsächlich ändert — plus eine Brücke zu Band IV über das Model Context Protocol.

2026-03-28

Kapitel 8 — Datenanonymisierung in der RAG-Pipeline

Achter Beitrag der LLM-Primer-III-Tour. Pre-Generation gegen Post-Generation, die drei Technik-Familien — Masking, synthetischer Ersatz, differenzielle Privatsphäre — und der Utility-Privacy-Tradeoff, der bestimmt, ob das System überhaupt nützlich bleibt.

2026-03-25

Kapitel 5 — Die Retrieval-Pipeline architektonisch denken

Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.

2026-03-22

Kapitel 11 — Spitzenforschung: MoE, Reasoning-Modelle und die neue Skalierungsachse

Kapitel 11 der LLM Primer I Serie. Die Forschungsfronten, die jetzt Produktionsrealität sind — Mixture-of-Experts, Retrieval-Memory, native multimodale Tokenisierung, kontinuierliches Lernen und das Inference-Time-Scaling-Paradigma, das die heutigen Reasoning-Modelle hervorgebracht hat. Die größte inhaltliche Erweiterung der Ausgabe 2026.

2026-02-28

Kapitel 9 — Leistung, Skalierung und Kosten: Die echten Engineering-Trade-offs

Kapitel 9 der LLM Primer I Serie. Die operativen Realitäten beim Betrieb von LLMs im großen Maßstab — Modellgröße versus Fähigkeit, der Trade-off zwischen Latenz und Throughput, Kostenökonomie, Quantisierung und Edge-Deployment. Warum Frontier-Modelle oft die falsche Wahl sind, selbst wenn du sie dir leisten kannst.

2026-02-26

Kapitel 8 — LLMs in Anwendungen einsetzen: Chatbots, Code, Extraktion und Agenten

Kapitel 8 der LLM Primer I Serie. Die Anwendungsmuster, die wirklich in Produktion ausgeliefert werden — Chatbots, Zusammenfassung, Code-Assistenten, strukturierte Extraktion und der Aufstieg agentischer Systeme, in denen das Modell eine Tool-Use-Schleife steuert. Plus die Benchmarks, die jeder Ingenieur namentlich kennen sollte.

2026-02-25

Kapitel 4 — Die Transformer-Architektur: Im Motor moderner KI

Kapitel 4 der LLM Primer I Serie. Eine Tour durch den Transformer-Block — wie Self-Attention, Positional Encoding und gestapelte Schichten zusammenwirken, um die Architektur zu erzeugen, auf der jedes moderne LLM aufgebaut ist. Mit einer klaren Erklärung, warum das Skalieren von Transformern funktioniert und was es kostet.

2026-02-21

Kapitel 3 — Neuronale Netze für Sprache: Von RNNs zu Self-Attention

Kapitel 3 der LLM Primer I Serie. Warum Feedforward-Netze keine Sprache verarbeiten konnten, wie RNNs an eine Mauer stießen und was Attention veränderte. Ein sauberer konzeptioneller Verlauf durch die drei neuronalen Netzformen, die modernes NLP definierten — ohne Mathe-Angst.

2026-02-20

Kapitel 1 — Was ist ein großes Sprachmodell? (Jenseits der Schlagzeilen)

Kapitel 1 der LLM Primer I Serie. Wir entwirren, was "groß", "Sprache" und "Modell" wirklich bedeuten, gehen den Weg von regelbasierten Systemen zu neuronalen Netzen durch und behandeln die drei größten Missverständnisse darüber, wie moderne LLMs funktionieren. Eine klare, zugängliche Grundlage für alles, was folgt.

2026-02-18

Eine Kapitel-für-Kapitel-Tour durch LLM Primer I — Einführung in die Serie und Index

Einführung und Index der zwölfteiligen Kapitel-für-Kapitel-Tour durch LLM Primer I: Wie generative KI funktioniert. Ein Post pro Tag, vom 18. Februar bis zum 1. März 2026. Lies sie in Reihenfolge oder wähle das Kapitel, das dich am meisten interessiert. Alle zwölf sind hier aufgelistet und verlinkt.

2026-02-17

Die LLM Primer Serie — Ein Feldhandbuch zur generativen KI, Band für Band aufgebaut

Die LLM Primer Serie — ein vollständiger siebenbändiger Feldführer zu generativer KI von Sho Shimoda. Von Grundlagen bis Sicherheit. Enthält Physical AI als Schwesterband. Alle 7 Bände auf Amazon erhältlich.

2026-02-15