Chapitre 12 — Construire votre propre système LLM
Ceci est la Partie 12 — le dernier billet de cette série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons couvert la frontière de recherche. Aujourd'hui, nous concluons en regardant ce qu'il faut pour vraiment construire avec ces systèmes — passer de « je comprends ce qu'est un LLM » à « je livre un en production ».
La vue d'en haut
Au moment où vous atteignez ce chapitre, vous avez passé onze chapitres à construire la machinerie conceptuelle. Vous comprenez la probabilité sur les tokens. Vous comprenez l'architecture Transformer. Vous comprenez l'entraînement, l'adaptation, la recherche, les applications, les coûts, la sécurité et la recherche de pointe. Le Chapitre 12 est là où tout cela devient une pile — l'image intégrée d'un système LLM tel qu'il sort dans le monde réel.
C'est le chapitre où le livre cesse d'être un manuel et devient une référence pour bâtisseur. Si vous avez lu le reste, vous serez prêt pour celui-ci.
Jeux de données, et la couche juridique
La plupart des introductions au développement LLM supposent que les données existent déjà. En pratique, le choix du jeu de données est là où beaucoup de projets sérieux commencent et finissent. Ce sur quoi vous entraînez façonne ce que le modèle peut faire. Ce sur quoi vous êtes autorisé à entraîner façonne si vous pouvez livrer du tout.
Le paysage juridique et éthique autour des données d'entraînement s'est durci ces dernières années. Provenance, licences, conformité opt-out, régulations de confidentialité et droit d'auteur interagissent de façons qui n'importaient pas beaucoup quand le domaine était petit et académique. Maintenant elles importent énormément. Le livre détaille à quoi penser — pas comme conseil juridique, mais comme la réalité d'ingénierie que quiconque prend au sérieux l'entraînement d'un modèle doit naviguer.
Pipelines d'entraînement
Si vous entraînez plutôt que d'acheter, le pipeline d'entraînement est l'essentiel du travail. Le livre le parcourt comme une chaîne d'assemblage : collecte, nettoyage, déduplication, tokenisation, le run d'entraînement lui-même, checkpointing, évaluation et déploiement. Chaque station a ses propres outils, ses propres modes d'échec et ses propres décisions d'optimisation.
La plupart des équipes consacrent dramatiquement plus d'effort d'ingénierie au pipeline qu'à l'architecture du modèle elle-même. Ce n'est pas un bug ; c'est le bon ratio. Les conceptions modernes de modèles sont remarquablement similaires entre les labos. Ce qui différencie les labos, c'est la qualité et la discipline de leurs pipelines.
Cadres d'évaluation
C'est là que beaucoup de projets échouent. L'évaluation dans les systèmes LLM est vraiment difficile parce qu'il y a rarement une seule bonne réponse à laquelle comparer. Vous avez besoin d'un cadre qui combine métriques automatisées (où elles s'appliquent), scoring par un modèle fort (pour les tâches où cela corrèle avec le jugement humain), relecture humaine structurée (pour les cas à enjeux élevés) et monitoring continu du comportement en production (pour attraper la dérive).
Le livre a des opinions sur l'évaluation parce que les motifs comptent. Sans un cadre d'évaluation, vous n'avez aucun moyen de dire si vos changements sont des améliorations ou des régressions. Avec un, chaque décision devient empirique.
La pile d'applications intégrée
Une application LLM qui fonctionne a beaucoup de pièces mobiles. Le modèle lui-même. Un système de recherche si vous utilisez RAG. Une base de données vectorielle. Une couche de modèles de prompt. Des intégrations d'outils si vous allez agentique. Une couche de sécurité. Logging et analytics. L'interface utilisateur. Authentification et autorisation. Rate limiting. Caching. Tableaux de bord de monitoring.
Chaque pièce est un problème d'ingénierie assez normal. La combinaison est la partie nouvelle. Le livre montre comment penser à la pile dans son ensemble — ce qui dépend durement de quoi, où se trouvent les modes d'échec, et comment concevoir pour l'amélioration incrémentale.
À quoi ressemblent les déploiements réussis
Le livre conclut avec des motifs de déploiements réussis du monde réel. Ils sont étonnamment cohérents. Commencez petit avec un cas d'usage étroitement délimité. Construisez le cadre d'évaluation avant de passer à l'échelle. Ajoutez la recherche avant de réclamer un modèle plus gros. Surveillez ce que les utilisateurs font vraiment, pas ce que vous aviez supposé qu'ils feraient. Investissez tôt dans les contrôles de sécurité. Traitez le modèle comme un composant et concevez tout autour avec soin.
Les déploiements échoués, en revanche, partagent un motif différent. Ils commencent avec le modèle, supposent que l'ingénierie est directe, sautent l'évaluation, et découvrent trop tard que ce qui ressemblait à une fonctionnalité d'IA est principalement une fonctionnalité de systèmes avec une IA dedans.
Ce que le livre — et cette série — préparent
Vous avez atteint la fin à la fois du livre et de la série. Si vous avez suivi, vous avez maintenant un modèle mental opérationnel de l'IA générative qui va bien plus en profondeur que les gros titres. Vous pouvez lire un article de recherche, une annonce produit ou une page de tarification d'un fournisseur et la situer avec précision. Vous pouvez raisonner sur ce qu'un modèle fera dans une situation que ni vous ni personne n'a jamais vue. Vous pouvez construire, évaluer, déployer et raisonner sur des systèmes LLM avec confiance.
C'est ce que le livre vise. S'il a réussi pour vous, vous trouverez la même profondeur de traitement poursuivie dans le reste de la Série LLM Primer — chaque volume focalisé sur un aspect différent de la mise en production responsable de ces systèmes.
C'est ainsi que se termine la série. Merci de votre lecture. Si même un seul de ces douze billets a changé votre façon de penser aux LLM, le livre — qui va bien plus en profondeur que ces aperçus ne le suggèrent — le fera de nombreuses fois.