Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 87 Artikel verfügbar. | Aktuell auf Seite 1 von 2.

Kapitel 17 — Künftige Bedrohungen und aufkommende Abwehr

Der Blast Radius eines Agenten ist die Größe seines Werkzeugsets multipliziert mit der Zahl der Schritte, die er nehmen darf; die Eingabefläche eines multimodalen Modells ist Größenordnungen größer als bei rein textbasierten; und beide Seiten des Konflikts sind mittlerweile selbst Modelle.

2026-05-26

Kapitel 16 — Sicheres Fine-Tuning und Adaption

Ein feingetunter Checkpoint ist ein Kandidat, kein einsetzbares Modell — und der Unterschied zwischen Kandidat und einsetzbar wird durch Evaluations-Gates geschlossen, die eine CI-Pipeline erzwingt, nicht durch Benchmark-Reports, die Engineers hoffentlich lesen.

2026-05-25

Kapitel 15 — Eine sichere KI-Organisation aufbauen

Die Sicherheitsdisziplin ist nur so dauerhaft wie die Organisation, die sie trägt — Kultur, Red Teams, Vendor-Bewertung, Evaluation und Stewardship sind, was die Kontrollen der Teile I–IV in eine Praxis überführt, die Führungswechsel, Budgetkürzungen und die vierteljährlichen Modell-Updates überlebt.

2026-05-24

Kapitel 14 — Bias, Fairness und verantwortliche KI

Verantwortliche KI ist kein technisches Problem mit technischem Fix — die Fairness-Metriken sind gegenseitig inkonsistent, der Sicherheit-Nutzen-Kompromiss ist real, und die Erklärbarkeitsmethoden liefern weniger, als Regulierungen verlangen. Die Ingenieursarbeit ist, unter diesen Bedingungen sorgfältig zu wählen.

2026-05-23

Kapitel 13 — Regulatorische Landschaft

Die Compliance-Position jeder Organisation, die über Jurisdiktionen hinweg operiert, muss eine Pluralität von Frameworks mit strukturell unterschiedlichen Entscheidungen zu Risikoklassifizierung, Pflichtenverteilung und Nachweis akkommodieren — nicht ein Framework als universelle Vorlage behandeln.

2026-05-22

Kapitel 12 — Zugriffssteuerung und Identität

Zugriffssteuerung in LLM-Systemen ist die klassische Disziplin plus eine Ergänzung — das Modell ist, wenn es über Werkzeuge handelt, selbst ein Principal, dessen Berechtigungen so eng geschnitten sein müssen, dass ein kompromittierter Prompt sie nicht einlösen kann.

2026-05-21

Kapitel 11 — Observability, Logging und Incident Response

In probabilistischen Systemen bedeutet das Fehlen eines vollständigen Logs das Fehlen eines forensischen Beleges — und das Log muss die exakte Modellversion, den Prompt, den abgerufenen Kontext, die Werkzeugausgaben und die Sampling-Parameter erfassen, mit denen sich die Interaktion reproduzieren ließe.

2026-05-20

Kapitel 10 — Sichere LLM-Architekturen entwerfen

Ein Modell, das von einem Angreifer über eine eingespeiste Eingabe angewiesen wurde, versucht diese Anweisungen mit den Fähigkeiten auszuführen, die das umgebende System bereitstellt — daher entscheidet die Architektur, nicht das Modell, über die Obergrenze jeder erfolgreichen Kompromittierung.

2026-05-19

Kapitel 9 — Modellintegrität und Lieferkettenrisiken

Ein aus einem öffentlichen Hub geladenes Modell ist eine Binärdatei von einem Dritten mit begrenzten Integritätsgarantien; sie bis zum Beweis des Gegenteils als vertrauenswürdig zu behandeln ist der Weg, wie Organisationen sich Hintertüren, Code-Ausführung beim Laden und unerklärliche Verhaltensweisen einhandeln.

2026-05-18

Kapitel 8 — Adversariale Angriffe auf Modelle

Adversariale Angriffe gegen LLMs sind keine Prompt-Folklore; sie sind die Fortsetzung eines Jahrzehnts Forschung an der Geometrie neuronaler Entscheidungsflächen, angepasst daran, dass Text diskret ist und viele Modelle nur per API zugänglich sind.

2026-05-17

Kapitel 7 — Halluzinationen und Zuverlässigkeit

Ein LLM ist per Konstruktion überzeugter, als es sollte — sein Trainingsziel belohnt Wahrscheinlichkeit auf dem beobachteten Token, nicht Richtigkeit — und Zuverlässigkeits-Engineering ist die Disziplin, Kalibrierung, Verankerung und Verifikation nachzurüsten.

2026-05-16

Kapitel 6 — Risiken retrieval-augmentierter Generierung

Ein Retrieval-Index erbt das Vertrauensprofil jeder Quelle, die er aufnimmt, und die niedrigst-vertraute Quelle dominiert — deshalb lebt die Sicherheit von RAG-Systemen an den Aufnahme- und Retrieval-Grenzen, nicht am Modellaufruf.

2026-05-15

Kapitel 5 — Input-Validierung und Output-Filterung

Input-Validierung und Output-Filterung komponieren zwei unabhängige Fehlerwahrscheinlichkeiten, deren Produkt kleiner ist als jede allein — und beide müssen gemessen, nicht behauptet werden, damit die Sicherheitsaussage echten Traffic überlebt.

2026-05-14

Kapitel 4 — Prompt-Injection und Jailbreaks

Prompt-Injection hat kein Äquivalent zu parametrisierten Abfragen, weil keine syntaktische Position für einen Transformer nachweislich inert ist; die verfügbaren Abwehrmaßnahmen sind statistisch, verhaltensbasiert und architektonisch — und nur ihre Komposition liefert Widerstand.

2026-05-13

Kapitel 3 — Datensicherheit und Datenschutz

Trainingskorpora tragen Copyright, PII und Lizenzdrift; ein trainiertes Modell ist eine verlustbehaftete Kompression seiner Daten, aus der Angreifer extrahieren; Nutzereingaben sind selbst eine Datenkategorie, die verwaltet werden will.

2026-05-12

Kapitel 2 — Bedrohungsmodellierung für LLM-Systeme

Shostacks vier Fragen, STRIDE, PASTA und MITRE ATLAS angewendet auf ein System, dessen mächtigste Komponente jede Eingabe als potenziell instruktiv liest — und warum ein Diagramm mit „einer Box namens LLM" den größten Teil der sicherheitsrelevanten Struktur verbirgt.

2026-05-11

Kapitel 1 — Warum KI-Sicherheit anders ist

KI-Sicherheit ist keine Code-Sicherheit mit neuer Angriffsliste — sie ist Verhaltenshüllen-Sicherheit für ein probabilistisches System, dessen Verhalten in ungelesenen Gewichten verteilt liegt und dessen Code und Daten im selben Token-Strom ankommen.

2026-05-10

LLM Primer VII — Einführung in die Reihe & Index

Reihenfinale des LLM Primer. Siebzehn Kapitel walken die KI-Sicherheit von der Bedrohungsmodellierung bis zur regulatorischen Peripherie — der Band, in dem die technischen Bögen der Bände I–VI dem Angreifer begegnen.

2026-05-09

Kapitel 16 — Kostenreduktion in der Produktion

Modell-Routing, Kontextverdichtung, Batch-APIs und semantisches Caching — die vier bis sechs unabhängigen Züge, die sich multiplikativ zu einer 80-Prozent-Reduktion aufschichten, ohne dass der Nutzer etwas merkt.

2026-05-08

Kapitel 15 — Serverlose APIs versus dedizierte Infrastruktur

Die Break-even-Rechnung ist sauber, aber der Posten Plattform-Engineering entscheidet die Frage — und die realistische Haltung ist hybrid, mit einem Router an der Anwendungsgrenze.

2026-05-07

Kapitel 14 — Token-Ökonomie und API-Preise

Warum Output-Tokens vier- bis achtmal teurer sind als Input, wie sich Kontextakkumulation und unsichtbare Reasoning-Tokens auf der Rechnung multiplizieren und wie das Nutzungsschema zu instrumentieren ist.

2026-05-06

Kapitel 13 — Autoscaling und Cold-Start-Minderung

Warum HPA für LLMs vier spezifische Fehlermodi hat, wie KEDA auf Queue-Tiefe, TTFT und KV-Belegung skaliert und wie CRIU einen 90-Sekunden-Cold-Start auf 3–6 Sekunden schrumpft.

2026-05-05

Kapitel 12 — Disaggregiertes Serving und Kubernetes

Prefill und Decode auf separate GPU-Pools trennen, den KV-Cache über NVLink oder InfiniBand transportieren und die Topologie über LeaderWorkerSet, Grove und KAI Scheduler festhalten.

2026-05-04

Kapitel 11 — Die Plattform- und Orchestrierungsschicht

Ray Serve, KServe, BentoML und Triton als vier Antworten auf Replicas, Tenants, Ketten und Quoten — die Wahl ist eine Frage der Ops-Kultur, keine Featureliste.

2026-05-03

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 9 — Spekulatives Dekodieren

Wie ein günstiger Entwurf und eine leicht breitere Verifikationspass den sequenziellen Engpass durchbrechen — EAGLE, Medusa, MTP und die Arithmetik, wann Spekulation sich lohnt.

2026-05-01

Kapitel 8 — KV-Cache-Management der nächsten Generation

PagedAttention als virtueller Speicher für den KV-Cache, H2O- und InfiniGen-Eviction sowie Präfix-Caching mit RadixAttention — der größte ROI-Hebel für System-Prompts, RAG und Agenten-Scaffolds.

2026-04-30

Kapitel 7 — Fortgeschrittene Batching-Strategien

Vom statischen Batching zum iterationsweisen Continuous Batching und Chunked Prefill: Warum Continuous Batching der zentrale Trick ist und den KV-Cache als neuen Engpass ausstellt.

2026-04-29

Kapitel 6 — Pruning und Knowledge Distillation

2:4-Sparsity auf Hopper und Blackwell, Knowledge Distillation über die Verteilung des Lehrers und die Reihenfolge, in der Distill, Prune und Quantisierung sich zu einer 20-fachen Bandbreitenreduktion aufschichten.

2026-04-28

Kapitel 5 — Quantisierung entmystifiziert

Warum große Modelle 4-Bit-Quantisierung überleben und kleine nicht, was AWQ, GPTQ, SmoothQuant und GGUF tatsächlich tun und die Sicherheitsleiter FP8 → INT4 mit Kalibrierungsdisziplin.

2026-04-27

Kapitel 4 — Spezialisiertes KI-Silizium und ASICs

Groq LPU, AWS Inferentia2, Google TPU und Intel Gaudi 3: wann ASICs GPUs bei Latenz oder Kosten pro Token schlagen und wann GPUs an der Modellvielfalt gewinnen.

2026-04-26

Kapitel 3 — Rechenzentrums-GPUs für generative KI

H100, H200, B200, L40S und MI300X gelesen als Bandbreiten- und VRAM-Profile: Blackwell verdoppelt die Bandbreite und liefert FP4, MI300X ist der Kostenhebel, wo ROCm-Kompetenz vorhanden ist.

2026-04-25

Kapitel 2 — Die KV-Cache-Herausforderung

Der KV-Cache tauscht Arithmetik gegen Speicher und wird zum größten VRAM-Verbraucher. Die Formel, die MHA-/GQA-/MQA-Entscheidungen und die Fragmentierung, die naive Allokation ruiniert.

2026-04-24

Kapitel 1 — Die Mechanik der Token-Erzeugung

Die autoregressive Schleife ist mathematisch sequenziell, Prefill und Dekodierung belasten den Chip gegensätzlich, und ein einzelner Nutzer lässt eine H100 zu 99,7 Prozent leerlaufen.

2026-04-23

LLM Primer VI — Serieneinführung und Index

Serieneinführung und Index zum Kapitel-für-Kapitel-Walkthrough von LLM Primer VI: LLM-Inferenz als Ingenieursdisziplin, in der Speicherbandbreite, Scheduling und Kosten aufeinandertreffen.

2026-04-22

Kapitel 8 — Performance, Serving und Kosten optimieren

Letzter Beitrag der LLM-Primer-V-Tour. Die geschichtete Disziplin produktiver LLM-Ökonomie — der günstigste Aufruf ist der, der nie gemacht wird.

2026-04-21

Kapitel 7 — LLM-Sicherheit und Guardrails

Siebter Beitrag der LLM-Primer-V-Tour. Die neue Sicherheitsachse, die LLM-Anwendungen einführen — welche Instruktionen erreichen das Modell, aus welcher Quelle, mit wie viel Autorität — und die Mitigationsmatrix darum.

2026-04-20

Kapitel 6 — KI-Observability und Tracing

Sechster Beitrag der LLM-Primer-V-Tour. Eine Nutzeranfrage als kausalen Baum behandeln, nicht als Request-Log — was getract werden muss, damit der Baum lesbar wird.

2026-04-19

Kapitel 5 — LLM-Anwendungen evaluieren

Fünfter Beitrag der LLM-Primer-V-Tour. Warum assertEqual für LLM-Outputs tot ist und wie die Testdisziplin um verankerte Judges, die RAG-Triade und Trajectory-Tests neu aufgebaut wird.

2026-04-18

Kapitel 4 — KI-Agenten und Tool-Calling

Vierter Beitrag der LLM-Primer-V-Tour. Die Agentenschleife ist generisch; die Werkzeuge sind die Persönlichkeit — Tool-Schemata, Fehlerverträge und Speicherdisziplin sind die höchsten Hebel.

2026-04-17

Kapitel 3 — Retrieval-Augmented Generation

Dritter Beitrag der LLM-Primer-V-Tour. Die RAG-Pipeline von Anfang bis Ende — und warum jede Qualitätsklage im Kern eine Chunking-Klage ist, die sich verkleidet hat.

2026-04-16

Kapitel 2 — Foundation Models und Prompt-Engineering

Zweiter Beitrag der LLM-Primer-V-Tour. Prompt-Engineering als Engineering: Modellwahl, Sampling-Parameter, Prompt-Anatomie und strukturierte Outputs als vier Steuerflächen.

2026-04-15

Kapitel 1 — Die Disziplin des KI-Engineerings

Erster Beitrag der LLM-Primer-V-Tour. Warum das Demo funktioniert und das Produktivsystem nicht — kein Modellproblem, sondern ein Ingenieurproblem mit einem Namen: KI-Engineering ist die deterministische Hülle um den probabilistischen Kern.

2026-04-14

LLM Primer V — Serieneinführung und Übersicht

Kapitelweise Tour durch LLM Primer V — der Band, der KI-Engineering als eigenständige Disziplin behandelt und die acht Flächen abschreitet, an denen produktive LLM-Systeme leben.

2026-04-13

Kapitel 14 — Benchmarking, Testen und Performance

Fünfzehnter und letzter Beitrag der LLM-Primer-IV-Tour. Der MCP-Universe-Benchmark auf echten Servern, die zwei systemischen Fehlermodi, die er enthüllte, die Zehnfach-Durchsatzlücke zwischen Session-per-Request und geteilten Session-Pools und die Brücke zu Band V.

2026-04-12

Kapitel 13 — Frameworks und Cloud-Integration

Dreizehnter Beitrag der LLM-Primer-IV-Tour. Strands mit Bedrock, das AWS-State-Layer-Muster, das Microsoft Agent Framework, LangChain, Semantic Kernel — und die drei produktiven Integrationsformen, auf die Teams unabhängig immer wieder kommen.

2026-04-11

Kapitel 12 — Protokoll-Härtung und Verteidigungen

Zwölfter Beitrag der LLM-Primer-IV-Tour. Die vier Verteidigungs-Cluster — kryptographische Attestation, OAuth-Scope-Disziplin mit begrenzten Sessions, Laufzeit-Sandboxing und Human-in-the-Loop-Gates — komponieren zu einer Haltung, die nicht davon abhängt, dass sich das Modell unter adversariellen Bedingungen korrekt verhält.

2026-04-10

Kapitel 11 — Angriffsflächen und Protokoll-Schwachstellen

Elfter Beitrag der LLM-Primer-IV-Tour. Die klassischen Angriffe an MCP angepasst — Confused Deputy, Token-Passthrough, Session-Hijacking — die Protokoll-Schwachstellen rund um Capability-Eskalation und unauthentifiziertes Sampling und die implizite Vertrauenspropagation, die Kontextvergiftung zu einem strukturellen Problem macht.

2026-04-09

Kapitel 10 — Langzeit-Gedächtnis

Zehnter Beitrag der LLM-Primer-IV-Tour. Kurzfristgedächtnis über Fenster und ReAct-Scratchpads, Langfristgedächtnis über episodische Vektoren und semantische Stores und die Verdichtungstechniken, die einen Agenten über Stunden und Tage produktiv halten.

2026-04-08

Kapitel 9 — Das Aufmerksamkeitsbudget verwalten

Neunter Beitrag der LLM-Primer-IV-Tour. Context Rot, die Lost-in-the-Middle-Klippe, Tool-Loadout-Rot und die drei architektonischen Antworten — MCP, RAG, Fine-Tuning — auf die Frage, wo das fehlende Wissen eines Modells tatsächlich hingehört.

2026-04-07

Seite 1 von 2