Chapitre 10 — Sécurité, éthique et confiance
Ceci est la Partie 10 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons parlé de coût et de performance opérationnelle. Aujourd'hui, nous parlons du type de coût plus difficile — celui qu'on paie en confiance utilisateur, en dommage accidentel et en dommage à la réputation quand un système LLM échoue gravement.
Hallucinations, mécaniquement
Le mode d'échec le plus discuté des LLM est l'hallucination — quand le modèle produit un texte fluide au son confiant qui s'avère faux. Le cadrage de vulgarisation — « l'IA ment », « l'IA invente des choses » — est trompeur. Il anthropomorphise un processus qui n'a rien à voir avec l'intention.
Une hallucination, c'est le modèle qui fait exactement ce pour quoi il a été entraîné : produire la continuation la plus probable de son entrée. Si la distribution d'entraînement suggère qu'un texte au son confiant apparaît habituellement à cette position, le modèle produira un texte au son confiant — que ce texte soit vrai ou non. Il n'y a pas de sens interne du « savoir » versus « deviner ». Le modèle produit des distributions de probabilité sur des tokens ; la vérité n'est pas l'une des dimensions.
Ce cadrage change la façon dont vous concevez la sécurité. Vous ne pouvez pas simplement entraîner le modèle à « dire la vérité ». Vous pouvez lui donner accès à des sources vérifiables au moment de l'inférence, valider ses sorties contre des schémas, router les requêtes à enjeu élevé vers des systèmes qui peuvent vérifier, et communiquer l'incertitude de façon transparente à l'utilisateur. Le livre détaille ce qui fonctionne en production.
D'où vient vraiment le biais
Un LLM entraîné sur du texte humain hérite des biais dans ce texte. C'est mécaniquement évident et moralement important. Le modèle n'a pas été programmé pour être biaisé ; il a absorbé des motifs depuis des données qui reflétaient la société humaine, avec toutes ses asymétries.
La question intéressante est ce que vous pouvez faire à ce sujet. Certaines interventions sont en amont : curer les données d'entraînement pour réduire le déséquilibre, équilibrer la représentation, retirer le matériel nuisible. Certaines sont au milieu : alignement qui apprend au modèle à traiter les sujets sensibles avec soin, à refuser certaines requêtes ou à utiliser des cadrages neutres. Certaines sont en aval : surveiller les sorties pour des motifs biaisés, évaluer les modèles sur des benchmarks de biais, post-traiter les sorties à enjeu élevé.
Aucune n'élimine le biais entièrement. Le livre est honnête à ce sujet. L'objectif est l'atténuation, la mesure et la responsabilité — pas la perfection.
Garde-fous, en couches
La sécurité moderne dans les systèmes LLM est défense en profondeur, pas une seule barrière. Le filtrage d'entrée attrape les prompts qui tentent des jailbreaks ou contiennent des requêtes nuisibles avant qu'ils n'atteignent le modèle. Les system prompts établissent des limites de comportement qui conditionnent chaque réponse du modèle. Le décodage contraint restreint l'espace des tokens pour imposer des règles structurelles. Les classificateurs post-génération évaluent la sortie du modèle avant qu'elle n'atteigne l'utilisateur, marquant ou bloquant les réponses qui violent la politique.
Chacun est imparfait pris isolément. Ensemble, ils créent une défense en couches qui est beaucoup plus dure à vaincre. Le livre détaille comment concevoir chaque couche, où se trouvent typiquement les trous et comment tester le système de bout en bout. Une préoccupation particulière est la prompt injection — des attaques où du contenu adversarial intégré dans des documents récupérés ou des entrées utilisateur tente d'écraser le system prompt. C'est désormais une préoccupation de production sérieuse, et le livre la prend au sérieux.
Explicabilité, réalistement
Les parties prenantes veulent souvent savoir pourquoi un modèle a produit une réponse particulière. La réponse honnête est que l'explication mécaniste vraie — tracer une sortie jusqu'à des motifs spécifiques dans les données d'entraînement — reste largement un problème de recherche, pas une capacité de production. Ce que vous pouvez faire, et ce sur quoi reposent les déploiements sérieux, c'est la transparence opérationnelle : citer les sources quand la recherche est utilisée, exprimer l'incertitude quand le modèle est incertain, logger les entrées et sorties pour audit, et documenter les limitations connues clairement.
Le livre est prudent ici. L'écart entre ce que les utilisateurs supposent sur les explications IA et ce qui est réellement possible est grand, et prétendre le contraire mène à de la confiance brisée.
Gouvernance : la couche qui n'est pas du code
La dernière section du Chapitre 10 porte sur ce qui se passe au-dessus des contrôles techniques. La gouvernance est le cadre institutionnel qui définit qui est responsable d'un modèle déployé, comment les risques sont évalués avant le lancement, comment les incidents sont escaladés quand ils se produisent, et comment les politiques sont appliquées dans le temps.
La gouvernance, c'est là où la sécurité de l'IA rencontre la réalité organisationnelle. Le livre traite cela avec le sérieux qu'elle mérite parce que chaque déploiement responsable d'IA en dépend. Sans gouvernance, même des systèmes bien conçus peuvent être mal utilisés. Avec elle, même des systèmes imparfaits peuvent être déployés de façon responsable.
Ce que prépare le Chapitre 10
À la fin du Chapitre 10, vous avez une vue claire et non marketing de la sécurité LLM. Vous savez ce qui est un problème technique, ce qui est un problème de politique, et ce qui est une propriété fondamentale des systèmes probabilistes. Vous pouvez concevoir des contrôles qui correspondent à votre profil de risque, et vous pouvez expliquer honnêtement les compromis aux parties prenantes qui doivent prendre des décisions de déploiement.
Prochaine étape — Chapitre 11 : Recherche de pointe. Demain, nous avançons vers la frontière. Mixture-of-experts, mécanismes de recherche et de mémoire, multimodalité native, apprentissage continu et le nouveau motif architectural qui a le plus fortement défini 2024–2026 — le scaling au moment de l'inférence et les modèles de raisonnement.