Introduction aux LLM

Cette page fournit un guide facile à comprendre sur les LLM (grands modèles de langage) des bases aux applications pour les passionnés d'IA.

Total de 45 articles disponibles. | Actuellement à la page 1 de 1.

Chapitre 12 — Contrôle d'accès et identité

OAuth, mTLS, RBAC contre ABAC, isolation multi-locataire, limites de débit et la surcouche de gouvernance d'entreprise qui rend les LLM utilisables dans les environnements réglementés.

2026-05-21

Chapitre 8 — Attaques adverses contre les modèles

De FGSM à TextFooler puis aux suffixes universels ; attaques boîte-noire contre les API et vol de modèle — la dette de recherche derrière l'injection de prompt.

2026-05-17

Chapitre 7 — Hallucinations et fiabilité

La fiabilité comme propriété de sécurité — pourquoi les modèles fabulent avec assurance, ce que la calibration corrige, et les architectures hybrides qui rendent la fiabilité ingénieriable.

2026-05-16

Chapitre 5 — Validation des entrées et filtrage des sorties

Étapes d'assainissement, prompting structuré, Llama Guard, red teaming avec Garak et PyRIT, et métriques de sécurité honnêtes qui survivent au trafic réel.

2026-05-14

Chapitre 4 — Injection de prompt et jailbreaks

Injection directe et indirecte, taxonomie des jailbreaks, suffixes universels — et pourquoi la mitigation doit être stratifiée plutôt que syntaxique.

2026-05-13

Chapitre 16 — Stratégies de réduction des coûts en production

Billet final du LLM Primer VI. Routage, compaction, API batch, cache sémantique — le catalogue de mouvements indépendants qui composent en 80 pour cent de réduction de facture.

2026-05-08

Chapitre 15 — API serverless vs infrastructure dédiée

Quinzième billet du LLM Primer VI. Le calcul du seuil de rentabilité, la ligne d'ingénierie plateforme sous-estimée, et pourquoi la posture réaliste est presque toujours hybride.

2026-05-07

Chapitre 14 — Économie du token et tarification des API

Quatorzième billet du LLM Primer VI. Pourquoi la sortie coûte 4–8× l'entrée, comment l'accumulation de contexte grossit la facture, et pourquoi les tokens de raisonnement invisibles surprennent.

2026-05-06

Chapitre 13 — Autoscaling et atténuation du démarrage à froid

Treizième billet du LLM Primer VI. Pourquoi le HPA par défaut produit des pannes sous trafic LLM, et comment KEDA, Knative et CRIU composent des démarrages à froid en secondes.

2026-05-05

Chapitre 12 — Service désagrégé et Kubernetes

Douzième billet du LLM Primer VI. Séparer préremplissage et décodage sur des pools GPU distincts, transporter le cache KV, et exprimer la topologie par LeaderWorkerSet, Grove et KAI.

2026-05-04

Chapitre 10 — La couche moteur LLM

Dixième billet du LLM Primer VI. La frontière entre moteur et plateforme, et les cinq moteurs — vLLM, TensorRT-LLM, SGLang, TGI, Ollama — qui dominent cette couche en 2026.

2026-05-02

Chapitre 9 — Décodage spéculatif

Neuvième billet du LLM Primer VI. La faille mathématique du goulot séquentiel de l'autoregression, les brouillons EAGLE/Medusa/MTP, et l'arithmétique du moment où la spéculation paie.

2026-05-01

Chapitre 8 — Gestion nouvelle génération du cache KV

Huitième billet du LLM Primer VI. PagedAttention comme mémoire virtuelle pour le cache KV, les évictions H2O/InfiniGen, et le cache de préfixe comme levier de coût le plus rentable.

2026-04-30

Chapitre 7 — Stratégies de batching avancées

Septième billet du LLM Primer VI. Pourquoi le batching n'est pas une optimisation mais le mouvement porteur du décodage — et pourquoi le batch est un verbe et non un nom.

2026-04-29

Chapitre 6 — Élagage et distillation des connaissances

Sixième billet du LLM Primer VI. La sparsité 2:4 accélérée par Hopper, la distillation qui transfère la distribution du professeur, et l'ordre dans lequel les trois compressions se composent.

2026-04-28

Chapitre 5 — Démystifier la quantification

Cinquième billet du LLM Primer VI. Pourquoi un modèle 70B survit au 4 bits alors qu'un modèle 1B non — et comment choisir la recette entre AWQ, GPTQ, SmoothQuant et GGUF.

2026-04-27

Chapitre 4 — Silicium spécialisé et ASIC pour l'IA

Quatrième billet du LLM Primer VI. Groq LPU, AWS Inferentia2, TPU v5p/v6 et Intel Gaudi 3 — où les ASIC gagnent, où ils perdent, et comment la forme de la charge tranche.

2026-04-26

Chapitre 3 — GPU de centre de données pour l'IA générative

Troisième billet du LLM Primer VI. H100, H200, B200, L40S, MI300X — lus comme des profils de bande passante et de VRAM plutôt que par le chiffre de FLOP/s sur la fiche.

2026-04-25

Chapitre 2 — Le défi du cache KV

Deuxième billet du LLM Primer VI. La formule mémoire du cache KV, les arbitrages MHA/GQA/MQA, et pourquoi l'allocation naïve détruit la concurrence avant que le calcul ne devienne le goulot.

2026-04-24

Chapitre 1 — La mécanique de la génération de tokens

Premier billet de la tournée du LLM Primer VI. La boucle autoregressive, le contraste préremplissage/décodage, et pourquoi un utilisateur seul laisse un H100 inactif à 99,7 pour cent.

2026-04-23

LLM Primer VI — Introduction de la série & index

Introduction à la tournée chapitre par chapitre du LLM Primer VI : Mettre à l'échelle les systèmes IA. L'inférence LLM traitée comme une discipline d'ingénierie où bande passante mémoire, ordonnancement et lignes de facture se rencontrent.

2026-04-22

Chapitre 6 — Observabilité et traçage de l'IA

Sixième billet de la tournée du LLM Primer V. Le chapitre qui traite une requête utilisateur comme un arbre causal, non comme une entrée de journal, et montre ce qu'il faut tracer pour que l'arbre reste lisible.

2026-04-19

Chapitre 2 — Modèles de base et ingénierie de prompt

Deuxième billet de la tournée du LLM Primer V. Le chapitre qui traite l'ingénierie de prompt comme de l'ingénierie — gabarits versionnés, délimiteurs défensifs, sorties structurées — au lieu d'un art jugé aux sensations.

2026-04-15

Chapitre 12 — Durcissement du protocole et défenses

Douzième billet de la tournée du LLM Primer IV. Les quatre clusters de défenses — attestation cryptographique, discipline de scopes OAuth avec sessions bornées, sandboxing à l'exécution, et portes human-in-the-loop — se composent en une posture qui ne dépend pas du modèle qui se comporterait correctement sous conditions adversariales.

2026-04-10

Chapitre 11 — Surfaces d'attaque et vulnérabilités du protocole

Onzième billet de la tournée du LLM Primer IV. Les attaques classiques adaptées à MCP — Confused Deputy, Token Passthrough, Session Hijacking — les défauts au niveau protocole autour de l'escalade de capacités et du sampling non authentifié, et la propagation implicite de confiance qui fait de l'empoisonnement de contexte un problème structurel plutôt qu'une affaire d'hygiène.

2026-04-09

Chapitre 10 — Mémoire de tâche à long horizon

Dixième billet de la tournée du LLM Primer IV. Mémoire à court terme par fenêtres et scratchpads ReAct, mémoire à long terme par vecteurs épisodiques et stores sémantiques, et les techniques de compaction qui maintiennent un agent productif sur des heures et des jours.

2026-04-08

Chapitre 9 — Gérer le budget d'attention

Neuvième billet de la tournée du LLM Primer IV. Context rot, la falaise du « lost-in-the-middle », tool-loadout rot, et les trois réponses architecturales — MCP, RAG, affinage — à la question de savoir où la connaissance manquante du modèle appartient vraiment.

2026-04-07

Chapitre 5 — Protocoles de transport et découverte

Cinquième billet de la tournée du LLM Primer IV. Les trois transports que MCP soutient, la couche de découverte .well-known avec les Server Cards, et les soucis opérationnels ennuyeux — CORS, validation d'origine, mise en cache — qui décident si un serveur est un citoyen réseau coopératif ou une responsabilité.

2026-04-03

Chapitre 1 — La crise d'intégration de l'IA et l'essor de l'architecture agentique

Premier billet de la tournée du LLM Primer IV. Pourquoi les agents monolithiques s'effilochent à mesure que les prompts système grossissent, le problème d'intégration N fois M qui se cache en dessous, et le passage de l'ingénierie de prompt à l'ingénierie de contexte que MCP a été conçu pour rendre possible.

2026-03-30

Chapitre 8 — Anonymisation des données dans la chaîne RAG

Huitième billet de la tournée du LLM Primer III. Anonymisation pré-génération contre post-génération, les trois familles de techniques — masquage, remplacement synthétique, confidentialité différentielle — et le compromis utilité-confidentialité qui détermine si le système reste utile.

2026-03-25

Chapitre 6 — Modèles de menaces et vulnérabilités RAG

Sixième billet de la tournée du LLM Primer III. La surface d'attaque élargie de la recherche — empoisonnement de corpus, morceaux adversariaux, injection de prompt indirecte, inversion d'embedding, et le problème du deputy confus en RAG agentique. Attaques concrètes, chacune démontrée, chacune reproductible.

2026-03-23

Chapitre 5 — Architecturer la chaîne de recherche

Cinquième billet de la tournée du LLM Primer III. Pourquoi une seule recherche vectorielle n'est pas une chaîne — recherche hybride, fusion de rangs réciproques, reranking par cross-encoder, et réécriture côté requête plus HyDE — assemblés dans l'architecture de production sur laquelle les systèmes RAG mûrs convergent.

2026-03-22

Chapitre 3 — Frameworks avancés de découpage

Troisième billet de la tournée du LLM Primer III. Le spectre du découpage du taille fixe au structurel, le mythe du recouvrement, la falaise de contexte qui détruit la recherche silencieusement, et les techniques de recherche contextuelle et de découpage tardif qui ont redessiné la frontière.

2026-03-20

Chapitre 11 — Évaluation, Calibration et Inférence

Chapitre 11 de la série LLM Primer II. Le chapitre où l'on demande comment quiconque peut mesurer une machine capable de dire n'importe quoi — et où l'on découvre qu'un modèle confiant est souvent un modèle mal calibré. Perplexité, calibration, barres d'erreur des benchmarks, et la géométrie de la recherche pour contrôler les hallucinations.

2026-03-13

Chapitre 11 — Recherche de pointe : MoE, modèles de raisonnement et le nouvel axe de mise à l'échelle

Chapitre 11 de la série LLM Primer I. Les frontières de recherche qui sont désormais réalité de production — mixture-of-experts, mémoire augmentée par recherche, tokenisation multimodale native, apprentissage continu et le paradigme de scaling au moment de l'inférence qui a produit les modèles de raisonnement d'aujourd'hui. Le plus grand ajout de contenu de l'édition 2026.

2026-02-28

Chapitre 9 — Performance, mise à l'échelle et coûts : les vrais compromis d'ingénierie

Chapitre 9 de la série LLM Primer I. Les réalités opérationnelles de faire tourner les LLM à l'échelle — taille du modèle vs capacité, le compromis latence-throughput, économie des coûts, quantification et déploiement edge. Pourquoi les modèles de frontière sont souvent le mauvais choix même quand vous pouvez vous les permettre.

2026-02-26

Chapitre 7 — Au-delà de la prédiction du prochain token : embeddings, recherche et multimodalité

Chapitre 7 de la série LLM Primer I. Les capacités qui transforment un prédicteur du prochain token en bien plus — embeddings, recherche sémantique, retrieval-augmented generation et la transition vers les entrées multimodales. Comment RAG garde réellement un LLM ancré dans de vrais documents au lieu d'inventer.

2026-02-24

Chapitre 6 — Affinage et adaptation : du modèle brut à l'assistant utile

Chapitre 6 de la série LLM Primer I. La pile complète d'adaptation — du pilotage bon marché basé sur les prompts à l'affinage efficace en paramètres jusqu'à l'alignement complet avec RLHF et ses successeurs modernes comme DPO. Pourquoi le post-entraînement est désormais là où se différencient vraiment les API de modèles fermés.

2026-02-23

Chapitre 5 — Entraîner de grands modèles : ce qu'il faut vraiment pour un modèle de frontière

Chapitre 5 de la série LLM Primer I. Comment les LLM de frontière sont vraiment entraînés — le pipeline de données, la fonction de perte, les mois de temps GPU, et pourquoi l'« entraînement » est aujourd'hui un problème d'ingénierie à échelle industrielle plus qu'un problème de recherche. Démystifie ce que paient ces runs d'entraînement à cent millions de dollars.

2026-02-22

Chapitre 4 — L'architecture Transformer : dans le moteur de l'IA moderne

Chapitre 4 de la série LLM Primer I. Une tournée du bloc Transformer — comment le self-attention, le positional encoding et les couches empilées se combinent pour produire l'architecture sur laquelle est construit chaque LLM moderne. Avec une explication claire de pourquoi le scaling des Transformers fonctionne, et ce qu'il coûte.

2026-02-21

Chapitre 3 — Réseaux neuronaux pour le langage : des RNN au self-attention

Chapitre 3 de la série LLM Primer I. Pourquoi les réseaux feedforward ne pouvaient pas gérer le langage, comment les RNN ont buté contre un mur, et ce que l'attention a changé. Une progression conceptuelle nette à travers les trois formes de réseaux neuronaux qui ont défini le NLP moderne — sans l'anxiété mathématique.

2026-02-20

Chapitre 2 — Probabilité, tokens et texte : le jeu de la devinette du mot suivant

Chapitre 2 de la série LLM Primer I. Comment les LLM convertissent le texte en tokens, pourquoi la modélisation du langage est fondamentalement un problème de probabilité, et comment l'ancienne approche par n-grammes a cédé la place à des modèles neuronaux capables de généraliser. Avec des explications en langage simple sur la perplexité et pourquoi les frontières de tokens comptent.

2026-02-19

Chapitre 1 — Qu'est-ce qu'un grand modèle de langage ? (Au-delà des gros titres)

Chapitre 1 de la série LLM Primer I. Nous démêlons ce que « grand », « langage » et « modèle » veulent vraiment dire, parcourons le passage des systèmes à base de règles aux réseaux neuronaux, et abordons les trois plus grandes idées fausses sur le fonctionnement des LLM modernes. Une base claire et accessible pour tout ce qui suit.

2026-02-18

Une tournée chapitre par chapitre de LLM Primer I — Introduction à la série et index

Introduction et index de la tournée en douze parties chapitre par chapitre de LLM Primer I : Comment fonctionne l'IA générative. Un billet par jour, du 18 février au 1er mars 2026. Lisez-les dans l'ordre ou choisissez le chapitre qui vous intéresse le plus. Tous les douze sont listés et liés ici.

2026-02-17

La Série LLM Primer — Un guide de terrain de l'IA générative, construit volume après volume

La série LLM Primer — un guide de terrain en sept volumes désormais complet sur l'IA générative par Sho Shimoda. Des fondamentaux à la sécurité. Comprend Physical AI comme volume compagnon. Les 7 volumes disponibles sur Amazon.

2026-02-15