Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 40 Artikel verfügbar. | Aktuell auf Seite 1 von 1.

Kapitel 16 — Sicheres Fine-Tuning und Adaption

Ein feingetunter Checkpoint ist ein Kandidat, kein einsetzbares Modell — und der Unterschied zwischen Kandidat und einsetzbar wird durch Evaluations-Gates geschlossen, die eine CI-Pipeline erzwingt, nicht durch Benchmark-Reports, die Engineers hoffentlich lesen.

2026-05-25

Kapitel 8 — Adversariale Angriffe auf Modelle

Adversariale Angriffe gegen LLMs sind keine Prompt-Folklore; sie sind die Fortsetzung eines Jahrzehnts Forschung an der Geometrie neuronaler Entscheidungsflächen, angepasst daran, dass Text diskret ist und viele Modelle nur per API zugänglich sind.

2026-05-17

Kapitel 6 — Risiken retrieval-augmentierter Generierung

Ein Retrieval-Index erbt das Vertrauensprofil jeder Quelle, die er aufnimmt, und die niedrigst-vertraute Quelle dominiert — deshalb lebt die Sicherheit von RAG-Systemen an den Aufnahme- und Retrieval-Grenzen, nicht am Modellaufruf.

2026-05-15

Kapitel 5 — Input-Validierung und Output-Filterung

Input-Validierung und Output-Filterung komponieren zwei unabhängige Fehlerwahrscheinlichkeiten, deren Produkt kleiner ist als jede allein — und beide müssen gemessen, nicht behauptet werden, damit die Sicherheitsaussage echten Traffic überlebt.

2026-05-14

Kapitel 3 — Datensicherheit und Datenschutz

Trainingskorpora tragen Copyright, PII und Lizenzdrift; ein trainiertes Modell ist eine verlustbehaftete Kompression seiner Daten, aus der Angreifer extrahieren; Nutzereingaben sind selbst eine Datenkategorie, die verwaltet werden will.

2026-05-12

Kapitel 2 — Bedrohungsmodellierung für LLM-Systeme

Shostacks vier Fragen, STRIDE, PASTA und MITRE ATLAS angewendet auf ein System, dessen mächtigste Komponente jede Eingabe als potenziell instruktiv liest — und warum ein Diagramm mit „einer Box namens LLM" den größten Teil der sicherheitsrelevanten Struktur verbirgt.

2026-05-11

Kapitel 1 — Warum KI-Sicherheit anders ist

KI-Sicherheit ist keine Code-Sicherheit mit neuer Angriffsliste — sie ist Verhaltenshüllen-Sicherheit für ein probabilistisches System, dessen Verhalten in ungelesenen Gewichten verteilt liegt und dessen Code und Daten im selben Token-Strom ankommen.

2026-05-10

LLM Primer VII — Einführung in die Reihe & Index

Reihenfinale des LLM Primer. Siebzehn Kapitel walken die KI-Sicherheit von der Bedrohungsmodellierung bis zur regulatorischen Peripherie — der Band, in dem die technischen Bögen der Bände I–VI dem Angreifer begegnen.

2026-05-09

Kapitel 11 — Die Plattform- und Orchestrierungsschicht

Ray Serve, KServe, BentoML und Triton als vier Antworten auf Replicas, Tenants, Ketten und Quoten — die Wahl ist eine Frage der Ops-Kultur, keine Featureliste.

2026-05-03

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 8 — Performance, Serving und Kosten optimieren

Letzter Beitrag der LLM-Primer-V-Tour. Die geschichtete Disziplin produktiver LLM-Ökonomie — der günstigste Aufruf ist der, der nie gemacht wird.

2026-04-21

Kapitel 7 — LLM-Sicherheit und Guardrails

Siebter Beitrag der LLM-Primer-V-Tour. Die neue Sicherheitsachse, die LLM-Anwendungen einführen — welche Instruktionen erreichen das Modell, aus welcher Quelle, mit wie viel Autorität — und die Mitigationsmatrix darum.

2026-04-20

Kapitel 6 — KI-Observability und Tracing

Sechster Beitrag der LLM-Primer-V-Tour. Eine Nutzeranfrage als kausalen Baum behandeln, nicht als Request-Log — was getract werden muss, damit der Baum lesbar wird.

2026-04-19

Kapitel 5 — LLM-Anwendungen evaluieren

Fünfter Beitrag der LLM-Primer-V-Tour. Warum assertEqual für LLM-Outputs tot ist und wie die Testdisziplin um verankerte Judges, die RAG-Triade und Trajectory-Tests neu aufgebaut wird.

2026-04-18

Kapitel 3 — Retrieval-Augmented Generation

Dritter Beitrag der LLM-Primer-V-Tour. Die RAG-Pipeline von Anfang bis Ende — und warum jede Qualitätsklage im Kern eine Chunking-Klage ist, die sich verkleidet hat.

2026-04-16

Kapitel 2 — Foundation Models und Prompt-Engineering

Zweiter Beitrag der LLM-Primer-V-Tour. Prompt-Engineering als Engineering: Modellwahl, Sampling-Parameter, Prompt-Anatomie und strukturierte Outputs als vier Steuerflächen.

2026-04-15

LLM Primer V — Serieneinführung und Übersicht

Kapitelweise Tour durch LLM Primer V — der Band, der KI-Engineering als eigenständige Disziplin behandelt und die acht Flächen abschreitet, an denen produktive LLM-Systeme leben.

2026-04-13

Kapitel 7 — Fortgeschrittene kollaborative und dynamische Muster

Siebter Beitrag der LLM-Primer-IV-Tour. Roundtable-Konsens, Handoff-Routing und magentische Orchestrierung — die Muster, die entstehen, wenn die Topologie pro Request gebaut werden muss, mit den Fehlermodi (Nicht-Terminierung, Fehlrouting, durchgegangenes Planen), die die einfacheren Muster vermeiden.

2026-04-05

Kapitel 6 — Grundlegende Orchestrierungsstrategien

Sechster Beitrag der LLM-Primer-IV-Tour. Die zwei grundlegenden Orchestrierungsformen — sequenzielle Pipelines und nebenläufige Scatter-Gather — und die vorgelagerte Frage, die jedes Team stellen sollte: ist ein Multi-Agent-System überhaupt die richtige Antwort?

2026-04-04

Kapitel 11 — Kontinuierliche Updates und Pipeline-Optimierung

Elfter und letzter Beitrag der LLM-Primer-III-Tour. CDC und inkrementelle Indizierung halten den Korpus frisch, semantisches Caching und Model-Tiering halten die Latenz unten, und eine vierstufige Feedback-Schleife schließt die Lücke zwischen dem, was die Produktion dem Team sagt, und dem, was das Team tatsächlich ändert — plus eine Brücke zu Band IV über das Model Context Protocol.

2026-03-28

Kapitel 10 — Führende Evaluations-Frameworks

Zehnter Beitrag der LLM-Primer-III-Tour. Ein Feldführer zu den Frameworks, die die Evaluations-Triade in etwas verwandeln, das ein Team tatsächlich fahren kann — RAGAS, TruLens, DeepEval auf der einen Seite, Braintrust, LangSmith, Phoenix, Galileo, Opik auf der anderen, und die Evaluation Gap, die noch keiner geschlossen hat.

2026-03-27

Kapitel 9 — Die RAG-Evaluations-Triade

Neunter Beitrag der LLM-Primer-III-Tour. Ein RAG-System kann an drei verschiedenen Stellen versagen, und die Versagen sehen von außen identisch aus — die Evaluations-Triade aus Context Relevance, Groundedness und Answer Relevance ist das kleine Vokabular, das verhindert, dass man einen Bug repariert, während man einen anderen misst.

2026-03-26

Kapitel 8 — Datenanonymisierung in der RAG-Pipeline

Achter Beitrag der LLM-Primer-III-Tour. Pre-Generation gegen Post-Generation, die drei Technik-Familien — Masking, synthetischer Ersatz, differenzielle Privatsphäre — und der Utility-Privacy-Tradeoff, der bestimmt, ob das System überhaupt nützlich bleibt.

2026-03-25

Kapitel 7 — Zugriffskontrolle umsetzen

Siebter Beitrag der LLM-Primer-III-Tour. Dokumentbezogene ACLs als Fundament, RBAC mit Microsoft Purview Sensitivity Labels, ReBAC mit Zanzibar und SpiceDB und die Pre-Filter-gegen-Post-Filter-Disziplin, die unter allen läuft.

2026-03-24

Kapitel 5 — Die Retrieval-Pipeline architektonisch denken

Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.

2026-03-22

Kapitel 4 — Die richtige Vektordatenbank wählen

Vierter Beitrag der LLM-Primer-III-Tour. Die architektonische Trennung zwischen purpose-built Vektordatenbanken und Postgres-artigen Erweiterungen, die Managed-Leader (Pinecone, Vertex), das Open-Source-Feld (Qdrant, Milvus, Weaviate), die Embedded-Optionen und die drei operativen Achsen — Residency, Betrieb, Kosten — die die echte Wahl treffen.

2026-03-21

Kapitel 2 — Intelligentes Document-Parsing

Zweiter Beitrag der LLM-Primer-III-Tour. Warum eine PDF keine Textdatei ist, was layoutbewusste Parser tatsächlich erhalten, die aktuelle Werkzeuglandschaft (LlamaParse, Docling, Unstructured, Marker-PDF, Firecrawl, DeepSeek-OCR) und der multimodale Pfad, der direkt über Seitenbilder abruft.

2026-03-19

Kapitel 1 — Die Evolution der RAG-Architektur

Erster Beitrag der LLM-Primer-III-Tour. Die vier architektonischen Haltungen von RAG — Naive, Advanced, Modular, Agentic — lesen sich als eine Geschichte darüber, wie man dem LLM Schritt für Schritt mehr Handlungsspielraum übergibt, und die ehrliche Antwort darauf, wann Fine-Tuning das bessere Werkzeug ist als Retrieval.

2026-03-18

LLM Primer III — Serieneinführung und Übersicht

Auftakt der kapitelweisen Tour durch Band III der LLM-Primer-Reihe — Enterprise-KI mit RAG. Warum Retrieval-Augmented Generation von außen einfach aussieht und in Wahrheit ein Stapel von Disziplinen ist, für wen das Buch geschrieben ist, und der Fahrplan für die elf Beiträge vom 18. bis 28. März.

2026-03-17

Kapitel 10 — Mathematik des Post-Trainings und der Ausrichtung

Kapitel 10 der LLM Primer II Serie. Wie ein brillanter, aber wilder Next-Token-Predictor zu einem hilfreichen Assistenten gezähmt wird — Supervised Fine-Tuning, Reward-Modellierung mit Bradley-Terry, RLHF an der KL-Leine und die elegante DPO-Herleitung, die die gesamte RL-Pipeline in einen einzigen überwachten Verlust zusammenfaltet.

2026-03-12

Kapitel 12 — Dein eigenes LLM-System bauen: Von Datensätzen bis zur Produktion

Kapitel 12 der LLM Primer I Serie. Das Abschlusskapitel. Was es wirklich braucht, um ein LLM-getriebenes System End-to-End zu bauen — Datensatz-Lizenzierung, Trainings-Pipelines, Evaluations-Frameworks, der integrierte Anwendungs-Stack und die Fallstudien-Muster, die erfolgreiche Deployments von gescheiterten Piloten unterscheiden.

2026-03-01

Kapitel 11 — Spitzenforschung: MoE, Reasoning-Modelle und die neue Skalierungsachse

Kapitel 11 der LLM Primer I Serie. Die Forschungsfronten, die jetzt Produktionsrealität sind — Mixture-of-Experts, Retrieval-Memory, native multimodale Tokenisierung, kontinuierliches Lernen und das Inference-Time-Scaling-Paradigma, das die heutigen Reasoning-Modelle hervorgebracht hat. Die größte inhaltliche Erweiterung der Ausgabe 2026.

2026-02-28

Kapitel 9 — Leistung, Skalierung und Kosten: Die echten Engineering-Trade-offs

Kapitel 9 der LLM Primer I Serie. Die operativen Realitäten beim Betrieb von LLMs im großen Maßstab — Modellgröße versus Fähigkeit, der Trade-off zwischen Latenz und Throughput, Kostenökonomie, Quantisierung und Edge-Deployment. Warum Frontier-Modelle oft die falsche Wahl sind, selbst wenn du sie dir leisten kannst.

2026-02-26

Kapitel 7 — Jenseits der Vorhersage des nächsten Tokens: Embeddings, Retrieval und Multimodalität

Kapitel 7 der LLM Primer I Serie. Die Fähigkeiten, die einen Next-Token-Predictor in viel mehr verwandeln — Embeddings, semantische Suche, Retrieval-Augmented Generation und der Übergang zu multimodalen Eingaben. Wie RAG ein LLM tatsächlich in echten Dokumenten geerdet hält, statt zu fabulieren.

2026-02-24

Kapitel 6 — Feinabstimmung und Adaption: Vom rohen Modell zum hilfreichen Assistenten

Kapitel 6 der LLM Primer I Serie. Der vollständige Adaptionsstack — vom günstigen Prompt-basierten Steuern über parametereffiziente Feinabstimmung bis zum vollen Alignment mit RLHF und seinen modernen Nachfolgern wie DPO. Warum sich Closed-Model-APIs heute hauptsächlich beim Post-Training unterscheiden.

2026-02-23

Kapitel 5 — Große Modelle trainieren: Was wirklich in ein Frontier-Modell fließt

Kapitel 5 der LLM Primer I Serie. Wie Frontier-LLMs tatsächlich trainiert werden — die Datenpipeline, die Verlustfunktion, die Monate GPU-Zeit und warum "Training" heute mehr ein industrielles Engineering-Problem ist als ein Forschungsproblem. Entmystifiziert, wofür diese Hundert-Millionen-Dollar-Trainingsläufe bezahlen.

2026-02-22

Kapitel 4 — Die Transformer-Architektur: Im Motor moderner KI

Kapitel 4 der LLM Primer I Serie. Eine Tour durch den Transformer-Block — wie Self-Attention, Positional Encoding und gestapelte Schichten zusammenwirken, um die Architektur zu erzeugen, auf der jedes moderne LLM aufgebaut ist. Mit einer klaren Erklärung, warum das Skalieren von Transformern funktioniert und was es kostet.

2026-02-21

Kapitel 1 — Was ist ein großes Sprachmodell? (Jenseits der Schlagzeilen)

Kapitel 1 der LLM Primer I Serie. Wir entwirren, was "groß", "Sprache" und "Modell" wirklich bedeuten, gehen den Weg von regelbasierten Systemen zu neuronalen Netzen durch und behandeln die drei größten Missverständnisse darüber, wie moderne LLMs funktionieren. Eine klare, zugängliche Grundlage für alles, was folgt.

2026-02-18

Eine Kapitel-für-Kapitel-Tour durch LLM Primer I — Einführung in die Serie und Index

Einführung und Index der zwölfteiligen Kapitel-für-Kapitel-Tour durch LLM Primer I: Wie generative KI funktioniert. Ein Post pro Tag, vom 18. Februar bis zum 1. März 2026. Lies sie in Reihenfolge oder wähle das Kapitel, das dich am meisten interessiert. Alle zwölf sind hier aufgelistet und verlinkt.

2026-02-17

Die LLM Primer Serie — Ein Feldhandbuch zur generativen KI, Band für Band aufgebaut

Die LLM Primer Serie — ein vollständiger siebenbändiger Feldführer zu generativer KI von Sho Shimoda. Von Grundlagen bis Sicherheit. Enthält Physical AI als Schwesterband. Alle 7 Bände auf Amazon erhältlich.

2026-02-15