Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 61 Artikel verfügbar. | Aktuell auf Seite 1 von 2.

Kapitel 17 — Künftige Bedrohungen und aufkommende Abwehr

Der Blast Radius eines Agenten ist die Größe seines Werkzeugsets multipliziert mit der Zahl der Schritte, die er nehmen darf; die Eingabefläche eines multimodalen Modells ist Größenordnungen größer als bei rein textbasierten; und beide Seiten des Konflikts sind mittlerweile selbst Modelle.

2026-05-26

Kapitel 15 — Eine sichere KI-Organisation aufbauen

Die Sicherheitsdisziplin ist nur so dauerhaft wie die Organisation, die sie trägt — Kultur, Red Teams, Vendor-Bewertung, Evaluation und Stewardship sind, was die Kontrollen der Teile I–IV in eine Praxis überführt, die Führungswechsel, Budgetkürzungen und die vierteljährlichen Modell-Updates überlebt.

2026-05-24

Kapitel 12 — Zugriffssteuerung und Identität

Zugriffssteuerung in LLM-Systemen ist die klassische Disziplin plus eine Ergänzung — das Modell ist, wenn es über Werkzeuge handelt, selbst ein Principal, dessen Berechtigungen so eng geschnitten sein müssen, dass ein kompromittierter Prompt sie nicht einlösen kann.

2026-05-21

Kapitel 11 — Observability, Logging und Incident Response

In probabilistischen Systemen bedeutet das Fehlen eines vollständigen Logs das Fehlen eines forensischen Beleges — und das Log muss die exakte Modellversion, den Prompt, den abgerufenen Kontext, die Werkzeugausgaben und die Sampling-Parameter erfassen, mit denen sich die Interaktion reproduzieren ließe.

2026-05-20

Kapitel 10 — Sichere LLM-Architekturen entwerfen

Ein Modell, das von einem Angreifer über eine eingespeiste Eingabe angewiesen wurde, versucht diese Anweisungen mit den Fähigkeiten auszuführen, die das umgebende System bereitstellt — daher entscheidet die Architektur, nicht das Modell, über die Obergrenze jeder erfolgreichen Kompromittierung.

2026-05-19

Kapitel 8 — Adversariale Angriffe auf Modelle

Adversariale Angriffe gegen LLMs sind keine Prompt-Folklore; sie sind die Fortsetzung eines Jahrzehnts Forschung an der Geometrie neuronaler Entscheidungsflächen, angepasst daran, dass Text diskret ist und viele Modelle nur per API zugänglich sind.

2026-05-17

Kapitel 7 — Halluzinationen und Zuverlässigkeit

Ein LLM ist per Konstruktion überzeugter, als es sollte — sein Trainingsziel belohnt Wahrscheinlichkeit auf dem beobachteten Token, nicht Richtigkeit — und Zuverlässigkeits-Engineering ist die Disziplin, Kalibrierung, Verankerung und Verifikation nachzurüsten.

2026-05-16

Kapitel 6 — Risiken retrieval-augmentierter Generierung

Ein Retrieval-Index erbt das Vertrauensprofil jeder Quelle, die er aufnimmt, und die niedrigst-vertraute Quelle dominiert — deshalb lebt die Sicherheit von RAG-Systemen an den Aufnahme- und Retrieval-Grenzen, nicht am Modellaufruf.

2026-05-15

Kapitel 5 — Input-Validierung und Output-Filterung

Input-Validierung und Output-Filterung komponieren zwei unabhängige Fehlerwahrscheinlichkeiten, deren Produkt kleiner ist als jede allein — und beide müssen gemessen, nicht behauptet werden, damit die Sicherheitsaussage echten Traffic überlebt.

2026-05-14

Kapitel 4 — Prompt-Injection und Jailbreaks

Prompt-Injection hat kein Äquivalent zu parametrisierten Abfragen, weil keine syntaktische Position für einen Transformer nachweislich inert ist; die verfügbaren Abwehrmaßnahmen sind statistisch, verhaltensbasiert und architektonisch — und nur ihre Komposition liefert Widerstand.

2026-05-13

Kapitel 3 — Datensicherheit und Datenschutz

Trainingskorpora tragen Copyright, PII und Lizenzdrift; ein trainiertes Modell ist eine verlustbehaftete Kompression seiner Daten, aus der Angreifer extrahieren; Nutzereingaben sind selbst eine Datenkategorie, die verwaltet werden will.

2026-05-12

Kapitel 2 — Bedrohungsmodellierung für LLM-Systeme

Shostacks vier Fragen, STRIDE, PASTA und MITRE ATLAS angewendet auf ein System, dessen mächtigste Komponente jede Eingabe als potenziell instruktiv liest — und warum ein Diagramm mit „einer Box namens LLM" den größten Teil der sicherheitsrelevanten Struktur verbirgt.

2026-05-11

Kapitel 1 — Warum KI-Sicherheit anders ist

KI-Sicherheit ist keine Code-Sicherheit mit neuer Angriffsliste — sie ist Verhaltenshüllen-Sicherheit für ein probabilistisches System, dessen Verhalten in ungelesenen Gewichten verteilt liegt und dessen Code und Daten im selben Token-Strom ankommen.

2026-05-10

LLM Primer VII — Einführung in die Reihe & Index

Reihenfinale des LLM Primer. Siebzehn Kapitel walken die KI-Sicherheit von der Bedrohungsmodellierung bis zur regulatorischen Peripherie — der Band, in dem die technischen Bögen der Bände I–VI dem Angreifer begegnen.

2026-05-09

Kapitel 16 — Kostenreduktion in der Produktion

Modell-Routing, Kontextverdichtung, Batch-APIs und semantisches Caching — die vier bis sechs unabhängigen Züge, die sich multiplikativ zu einer 80-Prozent-Reduktion aufschichten, ohne dass der Nutzer etwas merkt.

2026-05-08

Kapitel 14 — Token-Ökonomie und API-Preise

Warum Output-Tokens vier- bis achtmal teurer sind als Input, wie sich Kontextakkumulation und unsichtbare Reasoning-Tokens auf der Rechnung multiplizieren und wie das Nutzungsschema zu instrumentieren ist.

2026-05-06

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 8 — KV-Cache-Management der nächsten Generation

PagedAttention als virtueller Speicher für den KV-Cache, H2O- und InfiniGen-Eviction sowie Präfix-Caching mit RadixAttention — der größte ROI-Hebel für System-Prompts, RAG und Agenten-Scaffolds.

2026-04-30

Kapitel 7 — Fortgeschrittene Batching-Strategien

Vom statischen Batching zum iterationsweisen Continuous Batching und Chunked Prefill: Warum Continuous Batching der zentrale Trick ist und den KV-Cache als neuen Engpass ausstellt.

2026-04-29

Kapitel 1 — Die Mechanik der Token-Erzeugung

Die autoregressive Schleife ist mathematisch sequenziell, Prefill und Dekodierung belasten den Chip gegensätzlich, und ein einzelner Nutzer lässt eine H100 zu 99,7 Prozent leerlaufen.

2026-04-23

Kapitel 8 — Performance, Serving und Kosten optimieren

Letzter Beitrag der LLM-Primer-V-Tour. Die geschichtete Disziplin produktiver LLM-Ökonomie — der günstigste Aufruf ist der, der nie gemacht wird.

2026-04-21

Kapitel 7 — LLM-Sicherheit und Guardrails

Siebter Beitrag der LLM-Primer-V-Tour. Die neue Sicherheitsachse, die LLM-Anwendungen einführen — welche Instruktionen erreichen das Modell, aus welcher Quelle, mit wie viel Autorität — und die Mitigationsmatrix darum.

2026-04-20

Kapitel 6 — KI-Observability und Tracing

Sechster Beitrag der LLM-Primer-V-Tour. Eine Nutzeranfrage als kausalen Baum behandeln, nicht als Request-Log — was getract werden muss, damit der Baum lesbar wird.

2026-04-19

Kapitel 5 — LLM-Anwendungen evaluieren

Fünfter Beitrag der LLM-Primer-V-Tour. Warum assertEqual für LLM-Outputs tot ist und wie die Testdisziplin um verankerte Judges, die RAG-Triade und Trajectory-Tests neu aufgebaut wird.

2026-04-18

Kapitel 4 — KI-Agenten und Tool-Calling

Vierter Beitrag der LLM-Primer-V-Tour. Die Agentenschleife ist generisch; die Werkzeuge sind die Persönlichkeit — Tool-Schemata, Fehlerverträge und Speicherdisziplin sind die höchsten Hebel.

2026-04-17

Kapitel 3 — Retrieval-Augmented Generation

Dritter Beitrag der LLM-Primer-V-Tour. Die RAG-Pipeline von Anfang bis Ende — und warum jede Qualitätsklage im Kern eine Chunking-Klage ist, die sich verkleidet hat.

2026-04-16

Kapitel 2 — Foundation Models und Prompt-Engineering

Zweiter Beitrag der LLM-Primer-V-Tour. Prompt-Engineering als Engineering: Modellwahl, Sampling-Parameter, Prompt-Anatomie und strukturierte Outputs als vier Steuerflächen.

2026-04-15

Kapitel 1 — Die Disziplin des KI-Engineerings

Erster Beitrag der LLM-Primer-V-Tour. Warum das Demo funktioniert und das Produktivsystem nicht — kein Modellproblem, sondern ein Ingenieurproblem mit einem Namen: KI-Engineering ist die deterministische Hülle um den probabilistischen Kern.

2026-04-14

LLM Primer V — Serieneinführung und Übersicht

Kapitelweise Tour durch LLM Primer V — der Band, der KI-Engineering als eigenständige Disziplin behandelt und die acht Flächen abschreitet, an denen produktive LLM-Systeme leben.

2026-04-13

Kapitel 13 — Frameworks und Cloud-Integration

Dreizehnter Beitrag der LLM-Primer-IV-Tour. Strands mit Bedrock, das AWS-State-Layer-Muster, das Microsoft Agent Framework, LangChain, Semantic Kernel — und die drei produktiven Integrationsformen, auf die Teams unabhängig immer wieder kommen.

2026-04-11

Kapitel 11 — Angriffsflächen und Protokoll-Schwachstellen

Elfter Beitrag der LLM-Primer-IV-Tour. Die klassischen Angriffe an MCP angepasst — Confused Deputy, Token-Passthrough, Session-Hijacking — die Protokoll-Schwachstellen rund um Capability-Eskalation und unauthentifiziertes Sampling und die implizite Vertrauenspropagation, die Kontextvergiftung zu einem strukturellen Problem macht.

2026-04-09

Kapitel 10 — Langzeit-Gedächtnis

Zehnter Beitrag der LLM-Primer-IV-Tour. Kurzfristgedächtnis über Fenster und ReAct-Scratchpads, Langfristgedächtnis über episodische Vektoren und semantische Stores und die Verdichtungstechniken, die einen Agenten über Stunden und Tage produktiv halten.

2026-04-08

Kapitel 9 — Das Aufmerksamkeitsbudget verwalten

Neunter Beitrag der LLM-Primer-IV-Tour. Context Rot, die Lost-in-the-Middle-Klippe, Tool-Loadout-Rot und die drei architektonischen Antworten — MCP, RAG, Fine-Tuning — auf die Frage, wo das fehlende Wissen eines Modells tatsächlich hingehört.

2026-04-07

Kapitel 7 — Fortgeschrittene kollaborative und dynamische Muster

Siebter Beitrag der LLM-Primer-IV-Tour. Roundtable-Konsens, Handoff-Routing und magentische Orchestrierung — die Muster, die entstehen, wenn die Topologie pro Request gebaut werden muss, mit den Fehlermodi (Nicht-Terminierung, Fehlrouting, durchgegangenes Planen), die die einfacheren Muster vermeiden.

2026-04-05

Kapitel 6 — Grundlegende Orchestrierungsstrategien

Sechster Beitrag der LLM-Primer-IV-Tour. Die zwei grundlegenden Orchestrierungsformen — sequenzielle Pipelines und nebenläufige Scatter-Gather — und die vorgelagerte Frage, die jedes Team stellen sollte: ist ein Multi-Agent-System überhaupt die richtige Antwort?

2026-04-04

Kapitel 4 — Client-Primitives: Agentisches Verhalten und Kontrolle

Vierter Beitrag der LLM-Primer-IV-Tour. Sampling, Roots und Elicitation sind die drei kleinen, kontrollierten Öffnungen, die MCP in die Host-Server-Wand schneidet — jede eine geliehene Capability, jede ein im Namen der Nutzerin akzeptiertes Risiko.

2026-04-02

Kapitel 3 — Server-Primitives: Kontext und Fähigkeiten freigeben

Dritter Beitrag der LLM-Primer-IV-Tour. Die drei Nomen, die ein MCP-Server anbieten kann — Resources (Lesezustand), Prompts (wiederverwendbares Gerüst), Tools (Schreibaktionen) — ihre Schemata, ihre Lebenszyklen, ihre Fehlermodelle und die Disziplin, das richtige Primitiv zu wählen.

2026-04-01

Kapitel 1 — Die KI-Integrationskrise und der Aufstieg der agentischen Architektur

Erster Beitrag der LLM-Primer-IV-Tour. Warum monolithische Agenten ausfransen, je länger ihre System-Prompts werden, das darunterliegende N-mal-M-Integrationsproblem und der Übergang vom Prompt-Engineering zum Context-Engineering, den MCP ermöglichen soll.

2026-03-30

LLM Primer IV — Serieneinführung & Index

Auftakt der kapitelweisen Tour durch Buch IV der LLM-Primer-Reihe — KI-Kognition mit MCP entwerfen. Warum Agenten eine Protokollschicht brauchen, um über Demoware hinauszuwachsen, für wen das Buch geschrieben ist und der Zeitplan der vierzehn Beiträge vom 30. März bis zum 12. April.

2026-03-29

Kapitel 10 — Führende Evaluations-Frameworks

Zehnter Beitrag der LLM-Primer-III-Tour. Ein Feldführer zu den Frameworks, die die Evaluations-Triade in etwas verwandeln, das ein Team tatsächlich fahren kann — RAGAS, TruLens, DeepEval auf der einen Seite, Braintrust, LangSmith, Phoenix, Galileo, Opik auf der anderen, und die Evaluation Gap, die noch keiner geschlossen hat.

2026-03-27

Kapitel 9 — Die RAG-Evaluations-Triade

Neunter Beitrag der LLM-Primer-III-Tour. Ein RAG-System kann an drei verschiedenen Stellen versagen, und die Versagen sehen von außen identisch aus — die Evaluations-Triade aus Context Relevance, Groundedness und Answer Relevance ist das kleine Vokabular, das verhindert, dass man einen Bug repariert, während man einen anderen misst.

2026-03-26

Kapitel 8 — Datenanonymisierung in der RAG-Pipeline

Achter Beitrag der LLM-Primer-III-Tour. Pre-Generation gegen Post-Generation, die drei Technik-Familien — Masking, synthetischer Ersatz, differenzielle Privatsphäre — und der Utility-Privacy-Tradeoff, der bestimmt, ob das System überhaupt nützlich bleibt.

2026-03-25

Kapitel 7 — Zugriffskontrolle umsetzen

Siebter Beitrag der LLM-Primer-III-Tour. Dokumentbezogene ACLs als Fundament, RBAC mit Microsoft Purview Sensitivity Labels, ReBAC mit Zanzibar und SpiceDB und die Pre-Filter-gegen-Post-Filter-Disziplin, die unter allen läuft.

2026-03-24

Kapitel 6 — Bedrohungsmodelle und Schwachstellen von RAG

Sechster Beitrag der LLM-Primer-III-Tour. Die erweiterte Angriffsfläche von Retrieval — Korpus-Vergiftung, adversariale Chunks, indirekte Prompt Injection, Embedding-Inversion und das Confused-Deputy-Problem in agentischem RAG. Konkrete Angriffe, jeder demonstriert, jeder reproduzierbar.

2026-03-23

Kapitel 5 — Die Retrieval-Pipeline architektonisch denken

Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.

2026-03-22

Kapitel 3 — Fortgeschrittene Chunking-Frameworks

Dritter Beitrag der LLM-Primer-III-Tour. Das Chunking-Spektrum von Fixgröße bis strukturbewusst, der Overlap-Mythos, die Kontextklippe, die Retrieval still zerstört, und die Techniken Contextual Retrieval und Late Chunking, die die Frontier neu geformt haben.

2026-03-20

Kapitel 2 — Intelligentes Document-Parsing

Zweiter Beitrag der LLM-Primer-III-Tour. Warum eine PDF keine Textdatei ist, was layoutbewusste Parser tatsächlich erhalten, die aktuelle Werkzeuglandschaft (LlamaParse, Docling, Unstructured, Marker-PDF, Firecrawl, DeepSeek-OCR) und der multimodale Pfad, der direkt über Seitenbilder abruft.

2026-03-19

Kapitel 1 — Die Evolution der RAG-Architektur

Erster Beitrag der LLM-Primer-III-Tour. Die vier architektonischen Haltungen von RAG — Naive, Advanced, Modular, Agentic — lesen sich als eine Geschichte darüber, wie man dem LLM Schritt für Schritt mehr Handlungsspielraum übergibt, und die ehrliche Antwort darauf, wann Fine-Tuning das bessere Werkzeug ist als Retrieval.

2026-03-18

LLM Primer III — Serieneinführung und Übersicht

Auftakt der kapitelweisen Tour durch Band III der LLM-Primer-Reihe — Enterprise-KI mit RAG. Warum Retrieval-Augmented Generation von außen einfach aussieht und in Wahrheit ein Stapel von Disziplinen ist, für wen das Buch geschrieben ist, und der Fahrplan für die elf Beiträge vom 18. bis 28. März.

2026-03-17

Kapitel 10 — Mathematik des Post-Trainings und der Ausrichtung

Kapitel 10 der LLM Primer II Serie. Wie ein brillanter, aber wilder Next-Token-Predictor zu einem hilfreichen Assistenten gezähmt wird — Supervised Fine-Tuning, Reward-Modellierung mit Bradley-Terry, RLHF an der KL-Leine und die elegante DPO-Herleitung, die die gesamte RL-Pipeline in einen einzigen überwachten Verlust zusammenfaltet.

2026-03-12

Seite 1 von 2