Introduction aux LLM

Cette page fournit un guide facile à comprendre sur les LLM (grands modèles de langage) des bases aux applications pour les passionnés d'IA.

Total de 38 articles disponibles. | Actuellement à la page 1 de 1.

Chapitre 12 — Contrôle d'accès et identité

OAuth, mTLS, RBAC contre ABAC, isolation multi-locataire, limites de débit et la surcouche de gouvernance d'entreprise qui rend les LLM utilisables dans les environnements réglementés.

2026-05-21

Chapitre 11 — Observabilité, journalisation et réponse aux incidents

Ce qu'il faut journaliser avec OpenTelemetry GenAI, détection composée signature-statistique-comportementale, et playbooks d'incident inspirés de NIST pour un système probabiliste.

2026-05-20

Chapitre 10 — Concevoir des architectures LLM sécurisées

Isolation, validation multi-niveaux, moteurs de politique OPA et Cedar, conception d'API sécurisée, et zero-trust appliqué à un composant qui lit toute entrée comme instruction.

2026-05-19

Chapitre 4 — Injection de prompt et jailbreaks

Injection directe et indirecte, taxonomie des jailbreaks, suffixes universels — et pourquoi la mitigation doit être stratifiée plutôt que syntaxique.

2026-05-13

Chapitre 3 — Sécurité des données et vie privée

Corpus d'entraînement, mémorisation et extraction, incidents Samsung et Garante, et la discipline de chiffrement, d'isolation et de rétention que les LLM exigent.

2026-05-12

Chapitre 2 — Modélisation des menaces pour les systèmes LLM

Les quatre questions de Shostack, STRIDE et PASTA contre les actifs LLM, MITRE ATLAS pour les adversaires — et le modèle de menace opérationnel dont chaque chapitre suivant se réclame.

2026-05-11

Chapitre 1 — Pourquoi la sécurité de l'IA est différente

Pourquoi la sécurité de l'IA n'est pas la sécurité traditionnelle avec un adjectif ML : le substrat a changé, les vulnérabilités ne sont plus des bugs, et l'attaque vise l'enveloppe comportementale.

2026-05-10

Chapitre 13 — Autoscaling et atténuation du démarrage à froid

Treizième billet du LLM Primer VI. Pourquoi le HPA par défaut produit des pannes sous trafic LLM, et comment KEDA, Knative et CRIU composent des démarrages à froid en secondes.

2026-05-05

Chapitre 12 — Service désagrégé et Kubernetes

Douzième billet du LLM Primer VI. Séparer préremplissage et décodage sur des pools GPU distincts, transporter le cache KV, et exprimer la topologie par LeaderWorkerSet, Grove et KAI.

2026-05-04

Chapitre 8 — Gestion nouvelle génération du cache KV

Huitième billet du LLM Primer VI. PagedAttention comme mémoire virtuelle pour le cache KV, les évictions H2O/InfiniGen, et le cache de préfixe comme levier de coût le plus rentable.

2026-04-30

Chapitre 7 — Stratégies de batching avancées

Septième billet du LLM Primer VI. Pourquoi le batching n'est pas une optimisation mais le mouvement porteur du décodage — et pourquoi le batch est un verbe et non un nom.

2026-04-29

Chapitre 3 — GPU de centre de données pour l'IA générative

Troisième billet du LLM Primer VI. H100, H200, B200, L40S, MI300X — lus comme des profils de bande passante et de VRAM plutôt que par le chiffre de FLOP/s sur la fiche.

2026-04-25

Chapitre 1 — La mécanique de la génération de tokens

Premier billet de la tournée du LLM Primer VI. La boucle autoregressive, le contraste préremplissage/décodage, et pourquoi un utilisateur seul laisse un H100 inactif à 99,7 pour cent.

2026-04-23

LLM Primer VI — Introduction de la série & index

Introduction à la tournée chapitre par chapitre du LLM Primer VI : Mettre à l'échelle les systèmes IA. L'inférence LLM traitée comme une discipline d'ingénierie où bande passante mémoire, ordonnancement et lignes de facture se rencontrent.

2026-04-22

Chapitre 8 — Optimiser performance, service et coût

Dernier billet de la tournée du LLM Primer V. Le chapitre qui traite l'économie LLM de production comme une discipline en couches — l'appel le moins cher est celui qui n'a jamais lieu, et chaque couche en dessous est celle qui rend l'appel suivant bon marché.

2026-04-21

Chapitre 7 — Sécurité et garde-fous LLM

Septième billet de la tournée du LLM Primer V. Le chapitre qui nomme le nouvel axe de sécurité introduit par les applications LLM — contrôler quelles instructions atteignent le modèle, d'où, avec quelle autorité — et construit la matrice de mitigation autour de lui.

2026-04-20

Chapitre 6 — Observabilité et traçage de l'IA

Sixième billet de la tournée du LLM Primer V. Le chapitre qui traite une requête utilisateur comme un arbre causal, non comme une entrée de journal, et montre ce qu'il faut tracer pour que l'arbre reste lisible.

2026-04-19

Chapitre 5 — Évaluer les applications LLM

Cinquième billet de la tournée du LLM Primer V. Le chapitre qui admet qu'assertEqual est mort pour les sorties LLM et reconstruit la discipline de test autour de juges ancrés, du Triangle RAG et des tests de trajectoire.

2026-04-18

Chapitre 1 — La discipline de l'ingénierie IA

Premier billet de la tournée du LLM Primer V. L'écart de fiabilité entre la démo et la production, l'enveloppe déterministe autour du cœur probabiliste, et les cinq piliers — fiabilité, qualité, performance, coût, évolution — qui font la discipline.

2026-04-14

Chapitre 14 — Benchmarking, tests et performance

Quinzième et dernier billet de la tournée du LLM Primer IV. Le MCP-Universe Benchmark sur de vrais serveurs, les deux modes de défaillance systémiques qu'il a exposés, l'écart de débit dix-pour-un entre session-par-requête et pools de sessions partagées, et le pont vers le Volume V.

2026-04-12

Chapitre 13 — Frameworks et intégration cloud

Treizième billet de la tournée du LLM Primer IV. Strands avec Bedrock, le patron de couche d'état AWS, le Microsoft Agent Framework, LangChain, Semantic Kernel — et les trois formes d'intégration de production sur lesquelles les équipes convergent indépendamment.

2026-04-11

Chapitre 12 — Durcissement du protocole et défenses

Douzième billet de la tournée du LLM Primer IV. Les quatre clusters de défenses — attestation cryptographique, discipline de scopes OAuth avec sessions bornées, sandboxing à l'exécution, et portes human-in-the-loop — se composent en une posture qui ne dépend pas du modèle qui se comporterait correctement sous conditions adversariales.

2026-04-10

Chapitre 11 — Surfaces d'attaque et vulnérabilités du protocole

Onzième billet de la tournée du LLM Primer IV. Les attaques classiques adaptées à MCP — Confused Deputy, Token Passthrough, Session Hijacking — les défauts au niveau protocole autour de l'escalade de capacités et du sampling non authentifié, et la propagation implicite de confiance qui fait de l'empoisonnement de contexte un problème structurel plutôt qu'une affaire d'hygiène.

2026-04-09

Chapitre 10 — Mémoire de tâche à long horizon

Dixième billet de la tournée du LLM Primer IV. Mémoire à court terme par fenêtres et scratchpads ReAct, mémoire à long terme par vecteurs épisodiques et stores sémantiques, et les techniques de compaction qui maintiennent un agent productif sur des heures et des jours.

2026-04-08

Chapitre 8 — Topologies de déploiement architecturales

Huitième billet de la tournée du LLM Primer IV. Les trois topologies de déploiement qui ont émergé dans l'écosystème MCP — agent réutilisable, pureté stricte, hybride — et les quatre contraintes contraignantes qui décident laquelle convient à quel projet.

2026-04-06

Chapitre 6 — Stratégies d'orchestration fondamentales

Sixième billet de la tournée du LLM Primer IV. Les deux formes fondatrices d'orchestration — pipelines séquentiels et scatter-gather concurrent — et la question préalable que toute équipe devrait poser : un système multi-agents est-il bien la bonne réponse ?

2026-04-04

Chapitre 4 — Primitives du client : comportements agentiques et contrôle

Quatrième billet de la tournée du LLM Primer IV. Sampling, Roots et Elicitation sont les trois petits trous contrôlés que MCP perce dans le mur entre l'hôte et le serveur — chacun une capacité concédée en retour, chacun un risque accepté au nom de l'utilisateur.

2026-04-02

Chapitre 3 — Primitives du serveur : exposer le contexte et les capacités

Troisième billet de la tournée du LLM Primer IV. Les trois noms qu'un serveur MCP peut offrir — Ressources (lecture d'état), Prompts (échafaudage réutilisable), Outils (actions d'écriture) — leurs schémas, leurs cycles de vie, leurs modèles d'erreur, et la discipline de choisir la bonne primitive.

2026-04-01

Chapitre 11 — Mises à jour continues et optimisation du pipeline

Onzième et dernier billet de la tournée du LLM Primer III. CDC et indexation incrémentale gardent le corpus frais, cache sémantique et tiering de modèles maintiennent la latence basse, et une boucle de feedback en quatre étapes ferme l'écart entre ce que la production dit à l'équipe et ce que l'équipe change effectivement — plus un pont vers le Volume IV sur le Model Context Protocol.

2026-03-28

Chapitre 8 — Anonymisation des données dans la chaîne RAG

Huitième billet de la tournée du LLM Primer III. Anonymisation pré-génération contre post-génération, les trois familles de techniques — masquage, remplacement synthétique, confidentialité différentielle — et le compromis utilité-confidentialité qui détermine si le système reste utile.

2026-03-25

Chapitre 7 — Implémenter le contrôle d'accès

Septième billet de la tournée du LLM Primer III. ACL au niveau document comme fondation, RBAC avec les étiquettes de sensibilité Microsoft Purview, ReBAC avec Zanzibar et SpiceDB, et la discipline pré-filtre contre post-filtre qui tourne sous tous.

2026-03-24

Chapitre 5 — Architecturer la chaîne de recherche

Cinquième billet de la tournée du LLM Primer III. Pourquoi une seule recherche vectorielle n'est pas une chaîne — recherche hybride, fusion de rangs réciproques, reranking par cross-encoder, et réécriture côté requête plus HyDE — assemblés dans l'architecture de production sur laquelle les systèmes RAG mûrs convergent.

2026-03-22

Chapitre 3 — Frameworks avancés de découpage

Troisième billet de la tournée du LLM Primer III. Le spectre du découpage du taille fixe au structurel, le mythe du recouvrement, la falaise de contexte qui détruit la recherche silencieusement, et les techniques de recherche contextuelle et de découpage tardif qui ont redessiné la frontière.

2026-03-20

Chapitre 2 — L'analyse intelligente de documents

Deuxième billet de la tournée du LLM Primer III. Pourquoi un PDF n'est pas un fichier texte, ce que les parseurs sensibles à la mise en page préservent réellement, le paysage actuel des outils (LlamaParse, Docling, Unstructured, Marker-PDF, Firecrawl, DeepSeek-OCR), et la piste multimodale qui retrouve directement sur les images de pages.

2026-03-19

Chapitre 12 — Construire votre propre système LLM : des jeux de données à la production

Chapitre 12 de la série LLM Primer I. Le chapitre final. Ce qu'il faut vraiment pour construire un système alimenté par LLM de bout en bout — licences de jeux de données, pipelines d'entraînement, cadres d'évaluation, la pile d'applications intégrée et les motifs d'études de cas qui distinguent les déploiements réussis des pilotes échoués.

2026-03-01

Chapitre 10 — Sécurité, éthique et confiance : au-delà du marketing

Chapitre 10 de la série LLM Primer I. L'image honnête de la sécurité des LLM — pourquoi les hallucinations se produisent mécaniquement, où vit vraiment le biais, comment fonctionnent les garde-fous en couches, et pourquoi la gouvernance est la couche institutionnelle que les contrôles techniques ne peuvent pas remplacer. Pour les praticiens qui doivent livrer en toute sécurité.

2026-02-27

Chapitre 9 — Performance, mise à l'échelle et coûts : les vrais compromis d'ingénierie

Chapitre 9 de la série LLM Primer I. Les réalités opérationnelles de faire tourner les LLM à l'échelle — taille du modèle vs capacité, le compromis latence-throughput, économie des coûts, quantification et déploiement edge. Pourquoi les modèles de frontière sont souvent le mauvais choix même quand vous pouvez vous les permettre.

2026-02-26

Chapitre 8 — Utiliser les LLM dans les applications : chatbots, code, extraction et agents

Chapitre 8 de la série LLM Primer I. Les motifs d'application qui sortent vraiment en production — chatbots, résumé, assistants de code, extraction structurée et la montée des systèmes agentiques où le modèle pilote une boucle d'utilisation d'outils. Plus les benchmarks que chaque ingénieur devrait reconnaître par leur nom.

2026-02-25