Introduction aux LLM
Cette page fournit un guide facile à comprendre sur les LLM (grands modèles de langage) des bases aux applications pour les passionnés d'IA.
Chapitre 11 — Mises à jour continues et optimisation du pipeline
Onzième et dernier billet de la tournée du LLM Primer III. CDC et indexation incrémentale gardent le corpus frais, cache sémantique et tiering de modèles maintiennent la latence basse, et une boucle de feedback en quatre étapes ferme l'écart entre ce que la production dit à l'équipe et ce que l'équipe change effectivement — plus un pont vers le Volume IV sur le Model Context Protocol.
2026-03-28Chapitre 7 — Implémenter le contrôle d'accès
Septième billet de la tournée du LLM Primer III. ACL au niveau document comme fondation, RBAC avec les étiquettes de sensibilité Microsoft Purview, ReBAC avec Zanzibar et SpiceDB, et la discipline pré-filtre contre post-filtre qui tourne sous tous.
2026-03-24Chapitre 6 — Modèles de menaces et vulnérabilités RAG
Sixième billet de la tournée du LLM Primer III. La surface d'attaque élargie de la recherche — empoisonnement de corpus, morceaux adversariaux, injection de prompt indirecte, inversion d'embedding, et le problème du deputy confus en RAG agentique. Attaques concrètes, chacune démontrée, chacune reproductible.
2026-03-23Chapitre 5 — Architecturer la chaîne de recherche
Cinquième billet de la tournée du LLM Primer III. Pourquoi une seule recherche vectorielle n'est pas une chaîne — recherche hybride, fusion de rangs réciproques, reranking par cross-encoder, et réécriture côté requête plus HyDE — assemblés dans l'architecture de production sur laquelle les systèmes RAG mûrs convergent.
2026-03-22Chapitre 4 — Choisir la bonne base vectorielle
Quatrième billet de la tournée du LLM Primer III. La séparation architecturale entre bases vectorielles dédiées et extensions de type Postgres, les leaders managés (Pinecone, Vertex), le terrain open source (Qdrant, Milvus, Weaviate), les options embarquées, et les trois axes opérationnels — résidence, exploitation, coût — qui décident du vrai choix.
2026-03-21Chapitre 3 — Frameworks avancés de découpage
Troisième billet de la tournée du LLM Primer III. Le spectre du découpage du taille fixe au structurel, le mythe du recouvrement, la falaise de contexte qui détruit la recherche silencieusement, et les techniques de recherche contextuelle et de découpage tardif qui ont redessiné la frontière.
2026-03-20Chapitre 11 — Évaluation, Calibration et Inférence
Chapitre 11 de la série LLM Primer II. Le chapitre où l'on demande comment quiconque peut mesurer une machine capable de dire n'importe quoi — et où l'on découvre qu'un modèle confiant est souvent un modèle mal calibré. Perplexité, calibration, barres d'erreur des benchmarks, et la géométrie de la recherche pour contrôler les hallucinations.
2026-03-13Chapitre 8 — Utiliser les LLM dans les applications : chatbots, code, extraction et agents
Chapitre 8 de la série LLM Primer I. Les motifs d'application qui sortent vraiment en production — chatbots, résumé, assistants de code, extraction structurée et la montée des systèmes agentiques où le modèle pilote une boucle d'utilisation d'outils. Plus les benchmarks que chaque ingénieur devrait reconnaître par leur nom.
2026-02-25Chapitre 7 — Au-delà de la prédiction du prochain token : embeddings, recherche et multimodalité
Chapitre 7 de la série LLM Primer I. Les capacités qui transforment un prédicteur du prochain token en bien plus — embeddings, recherche sémantique, retrieval-augmented generation et la transition vers les entrées multimodales. Comment RAG garde réellement un LLM ancré dans de vrais documents au lieu d'inventer.
2026-02-24Chapitre 6 — Affinage et adaptation : du modèle brut à l'assistant utile
Chapitre 6 de la série LLM Primer I. La pile complète d'adaptation — du pilotage bon marché basé sur les prompts à l'affinage efficace en paramètres jusqu'à l'alignement complet avec RLHF et ses successeurs modernes comme DPO. Pourquoi le post-entraînement est désormais là où se différencient vraiment les API de modèles fermés.
2026-02-23Chapitre 4 — L'architecture Transformer : dans le moteur de l'IA moderne
Chapitre 4 de la série LLM Primer I. Une tournée du bloc Transformer — comment le self-attention, le positional encoding et les couches empilées se combinent pour produire l'architecture sur laquelle est construit chaque LLM moderne. Avec une explication claire de pourquoi le scaling des Transformers fonctionne, et ce qu'il coûte.
2026-02-21Chapitre 3 — Réseaux neuronaux pour le langage : des RNN au self-attention
Chapitre 3 de la série LLM Primer I. Pourquoi les réseaux feedforward ne pouvaient pas gérer le langage, comment les RNN ont buté contre un mur, et ce que l'attention a changé. Une progression conceptuelle nette à travers les trois formes de réseaux neuronaux qui ont défini le NLP moderne — sans l'anxiété mathématique.
2026-02-20Une tournée chapitre par chapitre de LLM Primer I — Introduction à la série et index
Introduction et index de la tournée en douze parties chapitre par chapitre de LLM Primer I : Comment fonctionne l'IA générative. Un billet par jour, du 18 février au 1er mars 2026. Lisez-les dans l'ordre ou choisissez le chapitre qui vous intéresse le plus. Tous les douze sont listés et liés ici.
2026-02-17La Série LLM Primer — Un guide de terrain de l'IA générative, construit volume après volume
La Série LLM Primer — un guide de terrain en sept volumes sur l'IA générative par Sho Shimoda. Chaque volume couvre une couche distincte du travail avec les grands modèles de langage, des fondations à la mise à l'échelle jusqu'à la sécurité. Voici la page d'accueil : un aperçu de toute la série, plus la tournée chapitre par chapitre en cours des premiers volumes.
2026-02-15