Einführung in LLM

Diese Seite bietet einen Leitfaden zu großen Sprachmodellen (LLM), von den Grundlagen bis hin zu Anwendungen für KI-Enthusiasten.

Insgesamt 11 Artikel verfügbar. | Aktuell auf Seite 1 von 1.

Kapitel 12 — Disaggregiertes Serving und Kubernetes

Prefill und Decode auf separate GPU-Pools trennen, den KV-Cache über NVLink oder InfiniBand transportieren und die Topologie über LeaderWorkerSet, Grove und KAI Scheduler festhalten.

2026-05-04

Kapitel 11 — Die Plattform- und Orchestrierungsschicht

Ray Serve, KServe, BentoML und Triton als vier Antworten auf Replicas, Tenants, Ketten und Quoten — die Wahl ist eine Frage der Ops-Kultur, keine Featureliste.

2026-05-03

Kapitel 10 — Die LLM-Engine-Schicht

vLLM als Python-nativer Standard, TensorRT-LLM als kompilierte Durchsatzwette, SGLang mit RadixAttention für agentische Präfixe — und wie man Engines nach Arbeitslastform statt Benchmark wählt.

2026-05-02

Kapitel 1 — Die Disziplin des KI-Engineerings

Erster Beitrag der LLM-Primer-V-Tour. Warum das Demo funktioniert und das Produktivsystem nicht — kein Modellproblem, sondern ein Ingenieurproblem mit einem Namen: KI-Engineering ist die deterministische Hülle um den probabilistischen Kern.

2026-04-14

Kapitel 14 — Benchmarking, Testen und Performance

Fünfzehnter und letzter Beitrag der LLM-Primer-IV-Tour. Der MCP-Universe-Benchmark auf echten Servern, die zwei systemischen Fehlermodi, die er enthüllte, die Zehnfach-Durchsatzlücke zwischen Session-per-Request und geteilten Session-Pools und die Brücke zu Band V.

2026-04-12

Kapitel 13 — Frameworks und Cloud-Integration

Dreizehnter Beitrag der LLM-Primer-IV-Tour. Strands mit Bedrock, das AWS-State-Layer-Muster, das Microsoft Agent Framework, LangChain, Semantic Kernel — und die drei produktiven Integrationsformen, auf die Teams unabhängig immer wieder kommen.

2026-04-11

Kapitel 5 — Transportprotokolle und Discovery

Fünfter Beitrag der LLM-Primer-IV-Tour. Die drei Transports, die MCP unterstützt, die .well-known-Discovery-Schicht mit Server Cards und die langweiligen operativen Themen — CORS, Origin-Validierung, Caching — die darüber entscheiden, ob ein Server ein kooperativer Netzwerkbürger oder eine Haftung ist.

2026-04-03

Kapitel 4 — Client-Primitives: Agentisches Verhalten und Kontrolle

Vierter Beitrag der LLM-Primer-IV-Tour. Sampling, Roots und Elicitation sind die drei kleinen, kontrollierten Öffnungen, die MCP in die Host-Server-Wand schneidet — jede eine geliehene Capability, jede ein im Namen der Nutzerin akzeptiertes Risiko.

2026-04-02

Kapitel 2 — Das Model Context Protocol (MCP) enthüllt

Zweiter Beitrag der LLM-Primer-IV-Tour. Was MCP tatsächlich standardisiert, die Drei-Rollen-Aufteilung in Host, Client und Server, warum sich dynamische Discovery und bidirektionales Messaging in den entscheidenden Fällen von REST unterscheiden und der Session-Lebenszyklus, der mit Capability-Verhandlung beginnt.

2026-03-31

LLM Primer IV — Serieneinführung & Index

Auftakt der kapitelweisen Tour durch Buch IV der LLM-Primer-Reihe — KI-Kognition mit MCP entwerfen. Warum Agenten eine Protokollschicht brauchen, um über Demoware hinauszuwachsen, für wen das Buch geschrieben ist und der Zeitplan der vierzehn Beiträge vom 30. März bis zum 12. April.

2026-03-29

Kapitel 5 — Die Retrieval-Pipeline architektonisch denken

Fünfter Beitrag der LLM-Primer-III-Tour. Warum eine einzelne Vektorsuche keine Pipeline ist — hybrides Retrieval, Reciprocal Rank Fusion, Cross-Encoder-Reranking und query-seitiges Rewriting und HyDE — zusammengesetzt zur Produktionsarchitektur, auf die gereifte RAG-Systeme zulaufen.

2026-03-22