Kapitel 10 — Sicherheit, Ethik und Vertrauen
Dies ist Teil 10 einer Serie, die LLM Primer I: How Generative AI Works durchgeht. Gestern haben wir über Kosten und operative Leistung gesprochen. Heute sprechen wir über die schwerere Art von Kosten — die, die in Nutzervertrauen, unbeabsichtigtem Schaden und Reputationsschaden gezahlt wird, wenn ein LLM-System gravierend scheitert.
Halluzinationen, mechanisch
Der am meisten diskutierte Fehlermodus von LLMs ist die Halluzination — wenn das Modell flüssigen, selbstbewusst klingenden Text produziert, der sich als falsch erweist. Die populärwissenschaftliche Rahmung davon — "die KI lügt", "die KI denkt sich Dinge aus" — ist irreführend. Sie vermenschlicht einen Prozess, der nichts mit Absicht zu tun hat.
Eine Halluzination ist das Modell, das genau das tut, wofür es trainiert wurde: die wahrscheinlichste Fortsetzung seines Inputs zu produzieren. Wenn die Trainingsverteilung suggeriert, dass selbstbewusst klingender Text üblicherweise an dieser Position erscheint, wird das Modell selbstbewusst klingenden Text produzieren — unabhängig davon, ob dieser Text wahr ist oder nicht. Es gibt keinen internen Sinn für "Wissen" versus "Raten". Das Modell produziert Wahrscheinlichkeitsverteilungen über Tokens; Wahrheit ist keine der Dimensionen.
Diese Rahmung verändert, wie du Sicherheit gestaltest. Du kannst das Modell nicht einfach trainieren, "die Wahrheit zu sagen". Du kannst ihm zur Inferenzzeit Zugang zu verifizierbaren Quellen geben, seine Ausgaben gegen Schemata validieren, hochriskante Anfragen an Systeme weiterleiten, die verifizieren können, und Unsicherheit transparent an den Nutzer kommunizieren. Das Buch geht durch, was in Produktion funktioniert.
Wo Bias wirklich herkommt
Ein LLM, das auf menschlichem Text trainiert wird, erbt die Biases in diesem Text. Das ist mechanisch offensichtlich und moralisch wichtig. Das Modell wurde nicht programmiert, biased zu sein; es hat Muster aus Daten aufgenommen, die die menschliche Gesellschaft mit all ihren Asymmetrien widerspiegelten.
Die interessante Frage ist, was du dagegen tun kannst. Einige Interventionen sind vorgelagert: Trainingsdaten kuratieren, um Schieflage zu reduzieren, Repräsentation ausbalancieren, schädliches Material entfernen. Einige sind mittendrin: Alignment, das dem Modell beibringt, sensible Themen vorsichtig zu behandeln, bestimmte Anfragen abzulehnen oder neutrale Formulierungen zu verwenden. Einige sind nachgelagert: Ausgaben auf voreingenommene Muster überwachen, Modelle auf Bias-Benchmarks evaluieren, hochriskante Ausgaben nachbearbeiten.
Keine davon eliminiert Bias vollständig. Das Buch ist darüber ehrlich. Das Ziel ist Minderung, Messung und Verantwortlichkeit — nicht Perfektion.
Guardrails, geschichtet
Moderne Sicherheit in LLM-Systemen ist Defense-in-Depth, nicht eine einzelne Barriere. Eingabefilterung fängt Prompts ab, die Jailbreaks versuchen oder schädliche Anfragen enthalten, bevor sie das Modell erreichen. System-Prompts etablieren Verhaltensgrenzen, die jede Modellantwort konditionieren. Constrained Decoding schränkt den Token-Raum ein, um strukturelle Regeln durchzusetzen. Post-Generation-Classifier bewerten die Modellausgabe, bevor sie den Nutzer erreicht, und markieren oder blockieren Antworten, die Policies verletzen.
Jedes davon ist für sich genommen unvollkommen. Zusammen bilden sie eine geschichtete Verteidigung, die viel schwerer zu überwinden ist. Das Buch geht durch, wie man jede Schicht entwirft, wo die Lücken typischerweise sind und wie man das System Ende-zu-Ende testet. Eine besondere Sorge ist Prompt Injection — Angriffe, bei denen adversarialer Inhalt, der in abgerufenen Dokumenten oder Nutzereingaben eingebettet ist, versucht, den System-Prompt zu überschreiben. Das ist heute eine ernsthafte Produktionssorge, und das Buch nimmt sie ernst.
Erklärbarkeit, realistisch
Stakeholder wollen oft wissen, warum ein Modell eine bestimmte Antwort produziert hat. Die ehrliche Antwort ist, dass echte mechanistische Erklärung — eine Ausgabe auf spezifische Muster in den Trainingsdaten zurückzuführen — größtenteils immer noch ein Forschungsproblem ist, keine Produktionsfähigkeit. Was du tun kannst und worauf sich ernsthafte Deployments verlassen, ist operative Transparenz: Quellen zitieren, wenn Retrieval verwendet wird, Unsicherheit ausdrücken, wenn das Modell unsicher ist, Inputs und Outputs für Audits loggen und bekannte Limitierungen klar dokumentieren.
Das Buch ist hier sorgfältig. Die Lücke zwischen dem, was Nutzer über KI-Erklärungen annehmen, und dem, was tatsächlich möglich ist, ist groß, und so zu tun, als sei das anders, führt zu zerbrochenem Vertrauen.
Governance: die Schicht, die kein Code ist
Der letzte Abschnitt von Kapitel 10 dreht sich darum, was über den technischen Kontrollen passiert. Governance ist das institutionelle Rahmenwerk, das definiert, wer für ein eingesetztes Modell verantwortlich ist, wie Risiken vor dem Launch bewertet werden, wie Vorfälle eskaliert werden, wenn sie auftreten, und wie Policies über die Zeit durchgesetzt werden.
Governance ist, wo KI-Sicherheit auf organisationale Realität trifft. Das Buch behandelt das mit der Ernsthaftigkeit, die es verdient, weil jedes verantwortungsvolle KI-Deployment davon abhängt. Ohne Governance können selbst gut entwickelte Systeme missbraucht werden. Mit ihr können selbst unvollkommene Systeme verantwortungsvoll deployt werden.
Was Kapitel 10 vorbereitet
Am Ende von Kapitel 10 hast du eine klare, nicht-Marketing-Sicht auf LLM-Sicherheit. Du weißt, was ein technisches Problem ist, was ein Policy-Problem ist und was eine fundamentale Eigenschaft probabilistischer Systeme ist. Du kannst Kontrollen entwerfen, die zu deinem Risikoprofil passen, und du kannst Stakeholdern, die Deployment-Entscheidungen treffen müssen, Trade-offs ehrlich erklären.
Als Nächstes — Kapitel 11: Spitzenforschung. Morgen bewegen wir uns in die Frontier. Mixture-of-Experts, Retrieval- und Memory-Mechanismen, native Multimodalität, kontinuierliches Lernen und das neue architektonische Muster, das 2024–2026 am stärksten definiert hat — Inference-Time Scaling und Reasoning-Modelle.