LLM Primer III — Améliorer l'IA d'entreprise avec RAG : présentation de la série et sommaire

« Un modèle de base est brillant et inverifiable. RAG est l'architecture qui le rend à la fois frais et citable. » Bienvenue dans le Livre III de la série LLM Primer — et dans la tournée qui l'accompagne. Pendant les onze prochains jours, un billet par chapitre, nous allons ouvrir la pile de la génération augmentée par la recherche et examiner les décisions qui déterminent si un système RAG d'entreprise fonctionne discrètement ou échoue discrètement.

Pourquoi ce Livre III existe

Les Livres I et II de cette série vous ont donné le modèle. Le Livre I racontait l'histoire, en langage clair, de ce que sont les LLM et de la manière dont on construit des systèmes autour d'eux. Le Livre II ouvrait les mathématiques sous-jacentes. Le Livre III parle de ce qui entoure un modèle quand on essaie de le mettre au travail sur des documents qui changent, sur de la connaissance qu'il faut citer, et sur des contrôles d'accès qui ne sont pas optionnels.

RAG paraît simple vu de l'extérieur. Trois boîtes sur une diapositive : embarquer, retrouver, générer. Quiconque a mis un tel système en production sait que chaque boîte est sa propre discipline, et que l'écart entre une démo qui marche et un système qu'une direction juridique acceptera de signer se mesure en mois d'ingénierie contre des problèmes que la démo n'a jamais fait apparaître. Le parseur aplatit silencieusement les tableaux. Le découpeur sépare une définition de sa précision. Le filtre push-down de la base vectorielle est plus faible que ne le suggérait le benchmark. Le retrieveur renvoie des voisins très confiants d'un plongement vide de sens. Le harnais d'évaluation affiche des tableaux de bord verts au-dessus des hallucinations.

Ce livre parcourt la pile honnêtement, couche par couche. Chaque chapitre est la discipline qui se cache derrière l'une des boîtes — les questions auxquelles une équipe sérieuse doit répondre pour mettre cette couche en production. La promesse n'est pas qu'il existe une bonne architecture unique. La promesse est qu'à la fin, vous saurez quelle architecture convient à votre corpus, à votre équipe et à votre périmètre réglementaire, et quels coûts vous payez le long de chaque axe.

En une ligne : le RAG d'entreprise est un empilement de décisions — analyse, découpage, indexation, recherche, sécurité, évaluation, mise à jour — et chaque couche contraint ce que la couche au-dessus peut faire.

À qui ce livre s'adresse

Aux ingénieurs qui construisent des systèmes RAG, aux chefs de produit techniques qui les cadrent, et aux architectes qui doivent défendre leurs choix devant une revue de sécurité. Le livre suppose le lecteur à l'aise avec l'image du Livre I sur le comportement d'un LLM ; il ne suppose pas les mathématiques du Livre II. Là où les mathématiques comptent, elles apparaissent comme intuition, non comme une dérivation à parcourir laborieusement. Le centre de gravité est l'ingénierie : où vivent les modes d'échec, quelles décisions sont réversibles, et lesquelles engagent l'équipe pour des années.

Comment lire ce livre

Trois modes de lecture ont fonctionné pour les premiers lecteurs. Du début à la fin, si vous êtes sur le point de construire un système RAG d'entreprise et voulez la pile dans l'ordre où les décisions arrivent réellement. Comme référence, si vous avez un système qui tourne et une couche spécifique qui souffre — les chapitres sur l'analyse, le découpage et l'évaluation tiennent debout seuls. Ou comme support pour la revue d'architecture, où les chapitres deviennent les amorces de la conversation qu'une équipe doit avoir avant de s'engager avec un fournisseur.

La tournée en 11 chapitres

18 mars — Chapitre 1 : L'évolution de l'architecture RAG. Les quatre postures architecturales — Naïve, Avancée, Modulaire, Agentique — et quand l'affinage est la meilleure réponse plutôt que la recherche.

19 mars — Chapitre 2 : L'analyse intelligente de documents. Pourquoi aplatir un PDF perd ce qui compte, les parseurs sensibles à la mise en page qui remettent les signaux en place, et la piste multimodale où le modèle lit la page directement.

20 mars — Chapitre 3 : Frameworks avancés de découpage. Le spectre du découpage, le mythe du recouvrement, la falaise de contexte, et les techniques de pointe — recherche contextuelle et découpage tardif — qui redessinent le calcul.

21 mars — Chapitre 4 : Choisir la bonne base vectorielle. Architectures dédiées contre extensions, les leaders managés, le terrain open source, et les trois axes — résidence, exploitation, coût — qui décident du vrai choix.

22 mars — Chapitre 5 : Architecturer la chaîne de recherche. Recherche hybride, fusion par rang réciproque, reranking par cross-encoder, et la couche de compréhension de requête qui fait le pont entre la manière dont les utilisateurs demandent et celle dont les documents répondent.

23 mars — Chapitre 6 : Modèles de menaces et vulnérabilités RAG. Injection de prompt, injection indirecte via le contenu récupéré, chemins d'exfiltration de données, et le modèle de menace que vous devez réellement défendre.

24 mars — Chapitre 7 : Implémenter le contrôle d'accès. Permissions par document, sécurité au niveau ligne dans l'index, propagation d'identité jusqu'à l'appel de recherche, et les patrons qui survivent à un audit.

25 mars — Chapitre 8 : Anonymisation des données dans la chaîne RAG. Détection des données personnelles à l'ingestion, le bon endroit pour expurger, les asymétries entre données d'entraînement et corpus de recherche, et le tableau du risque résiduel.

26 mars — Chapitre 9 : La triade d'évaluation RAG. Pertinence du contexte, fidélité de la réponse, pertinence de la réponse — les trois mesures qui localisent d'où vient une régression.

27 mars — Chapitre 10 : Les frameworks d'évaluation de référence. RAGAS, TruLens, DeepEval, et la question pratique de rendre la triade utilisable en intégration continue.

28 mars — Chapitre 11 : Mises à jour continues et optimisation du pipeline. Indexation incrémentale, détection de dérive, stratégie de réindexation, et la discipline opérationnelle qui empêche un système RAG de se dégrader silencieusement après la mise en service.

Ce qui change avec le Volume III : les volumes précédents portaient sur le modèle. Celui-ci porte sur l'appareil qui l'entoure. La plupart des échecs RAG ne sont pas des échecs de modèle — ce sont des décisions prises trois couches en amont qu'aucune ingénierie de prompt ne peut rattraper. Le livre est organisé pour faire remonter ces décisions dans l'ordre où elles doivent réellement être prises.

À propos de ce livre et de la série

La série LLM Primer est la réponse longue à la question que m'ont posée sans cesse les ingénieurs, les fondateurs et, parfois, le régulateur : comment ces systèmes fonctionnent-ils vraiment, et que faut-il pour en construire un qui tienne sous la charge ? Le Livre I en a donné la forme. Le Livre II en a donné les mathématiques. Le Livre III en donne l'architecture de production. Le Livre IV, en cours, se tourne vers MCP et la couche de cognition qui repose au-dessus du modèle.

Vous voulez le tableau complet ? LLM Primer III : Améliorer l'IA d'entreprise avec RAG est le livre que cette série cartographie — avec les comparaisons architecturales complètes, les guides d'évaluation, les listes de contrôle de sécurité et les modèles opérationnels que la tournée ne fait qu'esquisser. LLM Primer III sur Amazon →

À demain, avec le Chapitre 1.