Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 32 Artikel verfügbar. | Aktuell auf Seite 1 von 1.

Kapitel 8 — Adversariale Angriffe auf Modelle

Adversariale Angriffe gegen LLMs sind keine Prompt-Folklore; sie sind die Fortsetzung eines Jahrzehnts Forschung an der Geometrie neuronaler Entscheidungsflächen, angepasst daran, dass Text diskret ist und viele Modelle nur per API zugänglich sind.

2026-05-17

Kapitel 16 — Kostenreduktion in der Produktion

Modell-Routing, Kontextverdichtung, Batch-APIs und semantisches Caching — die vier bis sechs unabhängigen Züge, die sich multiplikativ zu einer 80-Prozent-Reduktion aufschichten, ohne dass der Nutzer etwas merkt.

2026-05-08

Kapitel 14 — Token-Ökonomie und API-Preise

Warum Output-Tokens vier- bis achtmal teurer sind als Input, wie sich Kontextakkumulation und unsichtbare Reasoning-Tokens auf der Rechnung multiplizieren und wie das Nutzungsschema zu instrumentieren ist.

2026-05-06

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 9 — Spekulatives Dekodieren

Wie ein günstiger Entwurf und eine leicht breitere Verifikationspass den sequenziellen Engpass durchbrechen — EAGLE, Medusa, MTP und die Arithmetik, wann Spekulation sich lohnt.

2026-05-01

Kapitel 2 — Die KV-Cache-Herausforderung

Der KV-Cache tauscht Arithmetik gegen Speicher und wird zum größten VRAM-Verbraucher. Die Formel, die MHA-/GQA-/MQA-Entscheidungen und die Fragmentierung, die naive Allokation ruiniert.

2026-04-24

Kapitel 1 — Die Mechanik der Token-Erzeugung

Die autoregressive Schleife ist mathematisch sequenziell, Prefill und Dekodierung belasten den Chip gegensätzlich, und ein einzelner Nutzer lässt eine H100 zu 99,7 Prozent leerlaufen.

2026-04-23

Kapitel 8 — Performance, Serving und Kosten optimieren

Letzter Beitrag der LLM-Primer-V-Tour. Die geschichtete Disziplin produktiver LLM-Ökonomie — der günstigste Aufruf ist der, der nie gemacht wird.

2026-04-21

Kapitel 7 — LLM-Sicherheit und Guardrails

Siebter Beitrag der LLM-Primer-V-Tour. Die neue Sicherheitsachse, die LLM-Anwendungen einführen — welche Instruktionen erreichen das Modell, aus welcher Quelle, mit wie viel Autorität — und die Mitigationsmatrix darum.

2026-04-20

Kapitel 6 — KI-Observability und Tracing

Sechster Beitrag der LLM-Primer-V-Tour. Eine Nutzeranfrage als kausalen Baum behandeln, nicht als Request-Log — was getract werden muss, damit der Baum lesbar wird.

2026-04-19

Kapitel 5 — LLM-Anwendungen evaluieren

Fünfter Beitrag der LLM-Primer-V-Tour. Warum assertEqual für LLM-Outputs tot ist und wie die Testdisziplin um verankerte Judges, die RAG-Triade und Trajectory-Tests neu aufgebaut wird.

2026-04-18

Kapitel 4 — KI-Agenten und Tool-Calling

Vierter Beitrag der LLM-Primer-V-Tour. Die Agentenschleife ist generisch; die Werkzeuge sind die Persönlichkeit — Tool-Schemata, Fehlerverträge und Speicherdisziplin sind die höchsten Hebel.

2026-04-17

Kapitel 3 — Retrieval-Augmented Generation

Dritter Beitrag der LLM-Primer-V-Tour. Die RAG-Pipeline von Anfang bis Ende — und warum jede Qualitätsklage im Kern eine Chunking-Klage ist, die sich verkleidet hat.

2026-04-16

Kapitel 2 — Foundation Models und Prompt-Engineering

Zweiter Beitrag der LLM-Primer-V-Tour. Prompt-Engineering als Engineering: Modellwahl, Sampling-Parameter, Prompt-Anatomie und strukturierte Outputs als vier Steuerflächen.

2026-04-15

Kapitel 1 — Die Disziplin des KI-Engineerings

Erster Beitrag der LLM-Primer-V-Tour. Warum das Demo funktioniert und das Produktivsystem nicht — kein Modellproblem, sondern ein Ingenieurproblem mit einem Namen: KI-Engineering ist die deterministische Hülle um den probabilistischen Kern.

2026-04-14

LLM Primer V — Serieneinführung und Übersicht

Kapitelweise Tour durch LLM Primer V — der Band, der KI-Engineering als eigenständige Disziplin behandelt und die acht Flächen abschreitet, an denen produktive LLM-Systeme leben.

2026-04-13

Kapitel 13 — Frameworks und Cloud-Integration

Dreizehnter Beitrag der LLM-Primer-IV-Tour. Strands mit Bedrock, das AWS-State-Layer-Muster, das Microsoft Agent Framework, LangChain, Semantic Kernel — und die drei produktiven Integrationsformen, auf die Teams unabhängig immer wieder kommen.

2026-04-11

Kapitel 12 — Protokoll-Härtung und Verteidigungen

Zwölfter Beitrag der LLM-Primer-IV-Tour. Die vier Verteidigungs-Cluster — kryptographische Attestation, OAuth-Scope-Disziplin mit begrenzten Sessions, Laufzeit-Sandboxing und Human-in-the-Loop-Gates — komponieren zu einer Haltung, die nicht davon abhängt, dass sich das Modell unter adversariellen Bedingungen korrekt verhält.

2026-04-10

Kapitel 10 — Langzeit-Gedächtnis

Zehnter Beitrag der LLM-Primer-IV-Tour. Kurzfristgedächtnis über Fenster und ReAct-Scratchpads, Langfristgedächtnis über episodische Vektoren und semantische Stores und die Verdichtungstechniken, die einen Agenten über Stunden und Tage produktiv halten.

2026-04-08

Kapitel 8 — Architektonische Deployment-Layouts

Achter Beitrag der LLM-Primer-IV-Tour. Die drei Deployment-Layouts, die im MCP-Ökosystem entstanden sind — wiederverwendbarer Agent, strenge Reinheit, Hybrid — und die vier bindenden Beschränkungen, die entscheiden, welches zu welchem Projekt passt.

2026-04-06

Kapitel 6 — Grundlegende Orchestrierungsstrategien

Sechster Beitrag der LLM-Primer-IV-Tour. Die zwei grundlegenden Orchestrierungsformen — sequenzielle Pipelines und nebenläufige Scatter-Gather — und die vorgelagerte Frage, die jedes Team stellen sollte: ist ein Multi-Agent-System überhaupt die richtige Antwort?

2026-04-04

Kapitel 5 — Transportprotokolle und Discovery

Fünfter Beitrag der LLM-Primer-IV-Tour. Die drei Transports, die MCP unterstützt, die .well-known-Discovery-Schicht mit Server Cards und die langweiligen operativen Themen — CORS, Origin-Validierung, Caching — die darüber entscheiden, ob ein Server ein kooperativer Netzwerkbürger oder eine Haftung ist.

2026-04-03

Kapitel 4 — Client-Primitives: Agentisches Verhalten und Kontrolle

Vierter Beitrag der LLM-Primer-IV-Tour. Sampling, Roots und Elicitation sind die drei kleinen, kontrollierten Öffnungen, die MCP in die Host-Server-Wand schneidet — jede eine geliehene Capability, jede ein im Namen der Nutzerin akzeptiertes Risiko.

2026-04-02

Kapitel 1 — Die KI-Integrationskrise und der Aufstieg der agentischen Architektur

Erster Beitrag der LLM-Primer-IV-Tour. Warum monolithische Agenten ausfransen, je länger ihre System-Prompts werden, das darunterliegende N-mal-M-Integrationsproblem und der Übergang vom Prompt-Engineering zum Context-Engineering, den MCP ermöglichen soll.

2026-03-30

LLM Primer IV — Serieneinführung & Index

Auftakt der kapitelweisen Tour durch Buch IV der LLM-Primer-Reihe — KI-Kognition mit MCP entwerfen. Warum Agenten eine Protokollschicht brauchen, um über Demoware hinauszuwachsen, für wen das Buch geschrieben ist und der Zeitplan der vierzehn Beiträge vom 30. März bis zum 12. April.

2026-03-29

Kapitel 7 — Zugriffskontrolle umsetzen

Siebter Beitrag der LLM-Primer-III-Tour. Dokumentbezogene ACLs als Fundament, RBAC mit Microsoft Purview Sensitivity Labels, ReBAC mit Zanzibar und SpiceDB und die Pre-Filter-gegen-Post-Filter-Disziplin, die unter allen läuft.

2026-03-24

Kapitel 4 — Die richtige Vektordatenbank wählen

Vierter Beitrag der LLM-Primer-III-Tour. Die architektonische Trennung zwischen purpose-built Vektordatenbanken und Postgres-artigen Erweiterungen, die Managed-Leader (Pinecone, Vertex), das Open-Source-Feld (Qdrant, Milvus, Weaviate), die Embedded-Optionen und die drei operativen Achsen — Residency, Betrieb, Kosten — die die echte Wahl treffen.

2026-03-21

Kapitel 11 — Evaluation, Kalibrierung und Inferenz

Kapitel 11 der LLM Primer II Serie. Wie misst man eine Maschine, die alles sagen kann? Perplexity als günstiger intrinsischer Maßstab, Kalibrierung als die Frage, die oft wichtiger ist als Genauigkeit, Fehlerbalken als Gegenmittel zum Benchmark-Theater und Retrieval-Geometrie als das Produktionswerkzeug gegen Halluzinationen.

2026-03-13

Kapitel 10 — Mathematik des Post-Trainings und der Ausrichtung

Kapitel 10 der LLM Primer II Serie. Wie ein brillanter, aber wilder Next-Token-Predictor zu einem hilfreichen Assistenten gezähmt wird — Supervised Fine-Tuning, Reward-Modellierung mit Bradley-Terry, RLHF an der KL-Leine und die elegante DPO-Herleitung, die die gesamte RL-Pipeline in einen einzigen überwachten Verlust zusammenfaltet.

2026-03-12

Kapitel 11 — Spitzenforschung: MoE, Reasoning-Modelle und die neue Skalierungsachse

Kapitel 11 der LLM Primer I Serie. Die Forschungsfronten, die jetzt Produktionsrealität sind — Mixture-of-Experts, Retrieval-Memory, native multimodale Tokenisierung, kontinuierliches Lernen und das Inference-Time-Scaling-Paradigma, das die heutigen Reasoning-Modelle hervorgebracht hat. Die größte inhaltliche Erweiterung der Ausgabe 2026.

2026-02-28

Kapitel 2 — Wahrscheinlichkeit, Tokens und Text: Das Spiel der nächsten-Wort-Vorhersage

Kapitel 2 der LLM Primer I Serie. Wie LLMs Text in Tokens umwandeln, warum Sprachmodellierung fundamental ein Wahrscheinlichkeitsproblem ist und wie der alte n-gramm-Ansatz neuronalen Modellen wich, die generalisieren können. Mit Erklärungen in einfacher Sprache zu Perplexity und dazu, warum Token-Grenzen wichtig sind.

2026-02-19

Die LLM Primer Serie — Ein Feldhandbuch zur generativen KI, Band für Band aufgebaut

Die LLM Primer Serie — ein vollständiger siebenbändiger Feldführer zu generativer KI von Sho Shimoda. Von Grundlagen bis Sicherheit. Enthält Physical AI als Schwesterband. Alle 7 Bände auf Amazon erhältlich.

2026-02-15