Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 26 Artikel verfügbar. | Aktuell auf Seite 1 von 1.

Kapitel 8 — Adversariale Angriffe auf Modelle

Adversariale Angriffe gegen LLMs sind keine Prompt-Folklore; sie sind die Fortsetzung eines Jahrzehnts Forschung an der Geometrie neuronaler Entscheidungsflächen, angepasst daran, dass Text diskret ist und viele Modelle nur per API zugänglich sind.

2026-05-17

Kapitel 15 — Serverlose APIs versus dedizierte Infrastruktur

Die Break-even-Rechnung ist sauber, aber der Posten Plattform-Engineering entscheidet die Frage — und die realistische Haltung ist hybrid, mit einem Router an der Anwendungsgrenze.

2026-05-07

Kapitel 14 — Token-Ökonomie und API-Preise

Warum Output-Tokens vier- bis achtmal teurer sind als Input, wie sich Kontextakkumulation und unsichtbare Reasoning-Tokens auf der Rechnung multiplizieren und wie das Nutzungsschema zu instrumentieren ist.

2026-05-06

Kapitel 13 — Autoscaling und Cold-Start-Minderung

Warum HPA für LLMs vier spezifische Fehlermodi hat, wie KEDA auf Queue-Tiefe, TTFT und KV-Belegung skaliert und wie CRIU einen 90-Sekunden-Cold-Start auf 3–6 Sekunden schrumpft.

2026-05-05

Kapitel 12 — Disaggregiertes Serving und Kubernetes

Prefill und Decode auf separate GPU-Pools trennen, den KV-Cache über NVLink oder InfiniBand transportieren und die Topologie über LeaderWorkerSet, Grove und KAI Scheduler festhalten.

2026-05-04

Kapitel 11 — Die Plattform- und Orchestrierungsschicht

Ray Serve, KServe, BentoML und Triton als vier Antworten auf Replicas, Tenants, Ketten und Quoten — die Wahl ist eine Frage der Ops-Kultur, keine Featureliste.

2026-05-03

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 9 — Spekulatives Dekodieren

Wie ein günstiger Entwurf und eine leicht breitere Verifikationspass den sequenziellen Engpass durchbrechen — EAGLE, Medusa, MTP und die Arithmetik, wann Spekulation sich lohnt.

2026-05-01

Kapitel 8 — KV-Cache-Management der nächsten Generation

PagedAttention als virtueller Speicher für den KV-Cache, H2O- und InfiniGen-Eviction sowie Präfix-Caching mit RadixAttention — der größte ROI-Hebel für System-Prompts, RAG und Agenten-Scaffolds.

2026-04-30

Kapitel 7 — Fortgeschrittene Batching-Strategien

Vom statischen Batching zum iterationsweisen Continuous Batching und Chunked Prefill: Warum Continuous Batching der zentrale Trick ist und den KV-Cache als neuen Engpass ausstellt.

2026-04-29

Kapitel 6 — Pruning und Knowledge Distillation

2:4-Sparsity auf Hopper und Blackwell, Knowledge Distillation über die Verteilung des Lehrers und die Reihenfolge, in der Distill, Prune und Quantisierung sich zu einer 20-fachen Bandbreitenreduktion aufschichten.

2026-04-28

Kapitel 4 — Spezialisiertes KI-Silizium und ASICs

Groq LPU, AWS Inferentia2, Google TPU und Intel Gaudi 3: wann ASICs GPUs bei Latenz oder Kosten pro Token schlagen und wann GPUs an der Modellvielfalt gewinnen.

2026-04-26

Kapitel 3 — Rechenzentrums-GPUs für generative KI

H100, H200, B200, L40S und MI300X gelesen als Bandbreiten- und VRAM-Profile: Blackwell verdoppelt die Bandbreite und liefert FP4, MI300X ist der Kostenhebel, wo ROCm-Kompetenz vorhanden ist.

2026-04-25

Kapitel 2 — Die KV-Cache-Herausforderung

Der KV-Cache tauscht Arithmetik gegen Speicher und wird zum größten VRAM-Verbraucher. Die Formel, die MHA-/GQA-/MQA-Entscheidungen und die Fragmentierung, die naive Allokation ruiniert.

2026-04-24

Kapitel 1 — Die Mechanik der Token-Erzeugung

Die autoregressive Schleife ist mathematisch sequenziell, Prefill und Dekodierung belasten den Chip gegensätzlich, und ein einzelner Nutzer lässt eine H100 zu 99,7 Prozent leerlaufen.

2026-04-23

LLM Primer VI — Serieneinführung und Index

Serieneinführung und Index zum Kapitel-für-Kapitel-Walkthrough von LLM Primer VI: LLM-Inferenz als Ingenieursdisziplin, in der Speicherbandbreite, Scheduling und Kosten aufeinandertreffen.

2026-04-22

Kapitel 8 — Performance, Serving und Kosten optimieren

Letzter Beitrag der LLM-Primer-V-Tour. Die geschichtete Disziplin produktiver LLM-Ökonomie — der günstigste Aufruf ist der, der nie gemacht wird.

2026-04-21

Kapitel 12 — Protokoll-Härtung und Verteidigungen

Zwölfter Beitrag der LLM-Primer-IV-Tour. Die vier Verteidigungs-Cluster — kryptographische Attestation, OAuth-Scope-Disziplin mit begrenzten Sessions, Laufzeit-Sandboxing und Human-in-the-Loop-Gates — komponieren zu einer Haltung, die nicht davon abhängt, dass sich das Modell unter adversariellen Bedingungen korrekt verhält.

2026-04-10

Kapitel 11 — Angriffsflächen und Protokoll-Schwachstellen

Elfter Beitrag der LLM-Primer-IV-Tour. Die klassischen Angriffe an MCP angepasst — Confused Deputy, Token-Passthrough, Session-Hijacking — die Protokoll-Schwachstellen rund um Capability-Eskalation und unauthentifiziertes Sampling und die implizite Vertrauenspropagation, die Kontextvergiftung zu einem strukturellen Problem macht.

2026-04-09

Kapitel 10 — Führende Evaluations-Frameworks

Zehnter Beitrag der LLM-Primer-III-Tour. Ein Feldführer zu den Frameworks, die die Evaluations-Triade in etwas verwandeln, das ein Team tatsächlich fahren kann — RAGAS, TruLens, DeepEval auf der einen Seite, Braintrust, LangSmith, Phoenix, Galileo, Opik auf der anderen, und die Evaluation Gap, die noch keiner geschlossen hat.

2026-03-27

Kapitel 4 — Die richtige Vektordatenbank wählen

Vierter Beitrag der LLM-Primer-III-Tour. Die architektonische Trennung zwischen purpose-built Vektordatenbanken und Postgres-artigen Erweiterungen, die Managed-Leader (Pinecone, Vertex), das Open-Source-Feld (Qdrant, Milvus, Weaviate), die Embedded-Optionen und die drei operativen Achsen — Residency, Betrieb, Kosten — die die echte Wahl treffen.

2026-03-21

Kapitel 9 — Leistung, Skalierung und Kosten: Die echten Engineering-Trade-offs

Kapitel 9 der LLM Primer I Serie. Die operativen Realitäten beim Betrieb von LLMs im großen Maßstab — Modellgröße versus Fähigkeit, der Trade-off zwischen Latenz und Throughput, Kostenökonomie, Quantisierung und Edge-Deployment. Warum Frontier-Modelle oft die falsche Wahl sind, selbst wenn du sie dir leisten kannst.

2026-02-26

Kapitel 7 — Jenseits der Vorhersage des nächsten Tokens: Embeddings, Retrieval und Multimodalität

Kapitel 7 der LLM Primer I Serie. Die Fähigkeiten, die einen Next-Token-Predictor in viel mehr verwandeln — Embeddings, semantische Suche, Retrieval-Augmented Generation und der Übergang zu multimodalen Eingaben. Wie RAG ein LLM tatsächlich in echten Dokumenten geerdet hält, statt zu fabulieren.

2026-02-24

Kapitel 6 — Feinabstimmung und Adaption: Vom rohen Modell zum hilfreichen Assistenten

Kapitel 6 der LLM Primer I Serie. Der vollständige Adaptionsstack — vom günstigen Prompt-basierten Steuern über parametereffiziente Feinabstimmung bis zum vollen Alignment mit RLHF und seinen modernen Nachfolgern wie DPO. Warum sich Closed-Model-APIs heute hauptsächlich beim Post-Training unterscheiden.

2026-02-23

Kapitel 5 — Große Modelle trainieren: Was wirklich in ein Frontier-Modell fließt

Kapitel 5 der LLM Primer I Serie. Wie Frontier-LLMs tatsächlich trainiert werden — die Datenpipeline, die Verlustfunktion, die Monate GPU-Zeit und warum "Training" heute mehr ein industrielles Engineering-Problem ist als ein Forschungsproblem. Entmystifiziert, wofür diese Hundert-Millionen-Dollar-Trainingsläufe bezahlen.

2026-02-22

Kapitel 3 — Neuronale Netze für Sprache: Von RNNs zu Self-Attention

Kapitel 3 der LLM Primer I Serie. Warum Feedforward-Netze keine Sprache verarbeiten konnten, wie RNNs an eine Mauer stießen und was Attention veränderte. Ein sauberer konzeptioneller Verlauf durch die drei neuronalen Netzformen, die modernes NLP definierten — ohne Mathe-Angst.

2026-02-20