Chapitre 8 — Utiliser les LLM dans les applications

Ceci est la Partie 8 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons couvert embeddings, RAG et multimodalité. Aujourd'hui, nous regardons comment les LLM apparaissent réellement dans les produits livrés — les motifs qui fonctionnent, ceux qui ne fonctionnent pas, et la nouvelle vague de systèmes agentiques où le modèle est le pilote.

Un chatbot n'est pas qu'un modèle

L'erreur la plus courante que font les gens sur les chatbots est de penser que le modèle est le produit. Il ne l'est pas. Le modèle est un composant. Le produit est le système qui entoure le modèle : modèles de prompt, gestion de l'historique de conversation, filtres de sécurité, couches de recherche, intégrations d'outils, politiques de repli, interface utilisateur.

La plus grande partie de l'effort d'ingénierie dans un chatbot de production va dans le système environnant, pas dans le modèle. Un chatbot bien conçu utilisant un modèle de milieu de gamme bat généralement un chatbot mal conçu utilisant un modèle de frontière. Le livre parcourt les motifs architecturaux qui fonctionnent vraiment, y compris comment gérer l'état de la conversation, quand résumer les anciens tours versus les garder verbatim, et comment empiler les contrôles de sécurité.

Idée clé : Le modèle est rarement le goulet d'étranglement. Le goulet d'étranglement est généralement la gestion du contexte, la qualité de la recherche ou la rigueur d'évaluation. L'effort d'ingénierie dépensé sur ceux-ci paie presque toujours plus que de passer à un modèle plus gros.

Résumé et recherche

Deux des cas d'usage LLM les plus impactants concernent tous deux la condensation d'information. Le résumé rétrécit un long texte en une version plus courte tout en préservant le sens. La recherche sémantique trouve du matériel pertinent dans un grand corpus par intention plutôt que par mot-clé.

Le motif moderne intéressant est de les combiner. Un utilisateur pose une question. Le système récupère des documents pertinents. Le modèle résume le matériel récupéré en une réponse focalisée. C'est ce que la plupart des produits de « recherche IA » font sous le capot. Quand ça marche, ça semble magique. Quand ça échoue, c'est presque toujours parce que l'étape de recherche a raté le matériel pertinent, pas parce que le modèle ne pouvait pas le résumer.

Génération de code

Les langages de programmation sont des langages formels avec une grammaire stricte et un retour clair. Cela les rend particulièrement bien adaptés aux LLM. Un modèle qui a vu de grandes quantités de code apprend à prédire des complétions qui compilent, des signatures de fonctions qui correspondent aux conventions, et des idiomes qui ressemblent au code environnant.

Les assistants de code modernes sont un type particulier de système RAG : ils récupèrent du contexte pertinent depuis la base de code éditée et le passent au modèle avec la requête de l'utilisateur. Le modèle est vraiment bon à ça. Le livre est réaliste à la fois sur l'avantage (vrais gains de productivité sur des tâches bien délimitées) et sur l'inconvénient (problèmes de correction subtils difficiles à repérer dans du code à l'air fluide).

Extraction de connaissances

L'inverse de l'écriture, c'est la lecture. L'extraction de connaissances est le motif où vous donnez au modèle un document non structuré et lui demandez de produire des données structurées — extraire le numéro de facture, la date et le total depuis ce PDF ; extraire l'historique professionnel du candidat depuis ce CV ; identifier les composés chimiques mentionnés dans cet article.

C'est l'une des applications business les plus directement utiles des LLM, et elle est relativement sûre parce que la sortie peut être validée contre un schéma. Le livre montre comment concevoir le prompt et la couche de validation ensemble pour que les sorties mal formées du modèle soient attrapées et réessayées plutôt que de corrompre silencieusement les systèmes en aval.

Évaluation, en production

Parce que les sorties des LLM sont probabilistes, vous ne pouvez pas les tester comme vous testez du logiciel déterministe. Il n'y a pas de seule bonne réponse à laquelle comparer. L'évaluation mélange plusieurs techniques : métriques automatisées quand possible, scoring par un modèle plus fort, relecture humaine structurée, A/B testing en production et monitoring continu de la dérive.

Cette section introduit aussi les benchmarks nommés qui apparaissent partout dans la recherche LLM et les annonces produits : MMLU, GPQA-Diamond, HumanEval, SWE-bench, MMMU, LiveBench, GSM8K, MATH, ARC-AGI, BFCL, IFEval. Le livre comprend une référence d'un paragraphe pour chacun, pour que vous puissiez lire n'importe quelle comparaison de modèles et savoir ce qui est vraiment mesuré.

Le nouveau motif : systèmes agentiques

Cette section est nouvelle dans l'édition 2026, parce que c'est là que le domaine a bougé le plus vite. Dans un système agentique, le modèle est au volant. Au lieu de simplement produire du texte, il décide quand appeler une calculatrice, quand interroger une base de données, quand invoquer un outil de recherche, quand poser une question de clarification — et que faire des résultats.

Le mécanisme est l'invocation d'outils structurée. Chaque outil disponible est décrit au modèle comme une signature de fonction avec une description et un schéma pour ses arguments. Le modèle peut émettre une invocation d'outil structurée au lieu de prose simple. Le système environnant parse l'invocation, exécute l'outil, renvoie le résultat, et le modèle décide quoi faire ensuite. La boucle continue jusqu'à ce que le modèle signale la tâche terminée.

Ce motif soulève de nouvelles préoccupations d'ingénierie que le livre prend au sérieux. Les boucles agentiques peuvent consommer des ressources de manière imprévisible. Les défaillances d'outils se propagent dans le comportement du modèle. Les préoccupations de sécurité sont amplifiées, parce que le modèle influence maintenant le monde plutôt que de seulement le décrire. Le livre détaille comment concevoir des inventaires d'outils, évaluer la correction par étape et contenir les boucles incontrôlées.

Important : Le passage des chatbots aux systèmes agentiques n'est pas juste architectural — c'est un changement de ce à quoi vous faites confiance au modèle. Un chatbot génère du texte que vous pouvez relire avant d'agir. Un agent prend des actions dans le monde avant que vous ne voyiez le résultat. Les propriétés de sécurité sont catégoriquement différentes.

Ce que prépare le Chapitre 8

À la fin du Chapitre 8, vous avez un playbook pratique pour les principaux motifs d'application LLM. Vous savez quelle forme de système construire pour chaque type de problème, à quoi ressemble l'évaluation dans chaque cas, et comment lire les chiffres de benchmarks que les fournisseurs publient sur leurs modèles. Le prochain chapitre fait la prochaine étape naturelle : combien coûte le fait de faire tourner tout cela à l'échelle ?

Prochaine étape — Chapitre 9 : Performance, mise à l'échelle et coûts. Demain, nous regardons les réalités opérationnelles. Latence, throughput, coût par requête, quantification, déploiement sur appareil, et comment penser à la taille du modèle quand la majeure partie de votre business ne bénéficiera pas vraiment du plus grand modèle disponible.

Vous voulez le tableau complet ? Le livre comprend une référence dédiée aux benchmarks et un traitement profond des motifs agentiques, tous deux nouveaux dans l'édition 2026. Procurez-vous LLM Primer I sur Amazon →

Chapitre 8 — Utiliser les LLM dans les applications : chatbots, code, extraction et agents