Chapitre 6 — Affinage et adaptation

Ceci est la Partie 6 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons vu comment un modèle de base est entraîné. Aujourd'hui, nous regardons ce qui se passe après : comment un modèle pré-entraîné devient un produit utile, et pourquoi les techniques pour y arriver sont devenues plus importantes que le modèle sous-jacent dans bien des cas.

Le pré-entraînement est large. L'adaptation est spécifique.

Un grand modèle de langage fraîchement pré-entraîné est une bête étrange. Il a absorbé une vaste quantité de structure depuis le texte — grammaire, faits, idiomes, motifs de code, styles de citation, blagues, erreurs, idéologies, toute la soupe — mais il n'a aucune opinion sur lequel de ces éléments il devrait produire et quand. Demandez-lui « quelle est la capitale de la France ? » et il pourrait répondre « Paris » ou continuer comme s'il s'agissait d'un livre de quiz (« Quelle est la capitale de l'Allemagne ? Quelle est la capitale de l'Italie ? »). On ne lui a pas dit que vous vouliez une réponse directe.

L'adaptation est la famille de techniques qui corrigent cela. Le modèle pré-entraîné sait déjà presque tout ce qu'il saura jamais dans un sens utile ; l'adaptation remodèle comment et quand ce savoir est exprimé. Le Chapitre 6 parcourt le spectre d'adaptation, du toucher le plus léger au plus lourd.

Idée clé : L'adaptation n'ajoute pas de nouvelles connaissances au modèle. Elle remodèle la distribution de probabilité pour favoriser les types de réponses que vous voulez. Les compétences sont déjà là ; l'adaptation décide juste quand elles sortent.

Le coup le moins cher : écrire un meilleur prompt

La forme la plus légère d'adaptation ne coûte rien et ne change aucun paramètre. Vous fournissez simplement du contexte dans le prompt qui pousse le modèle vers le type de sortie que vous voulez. Montrez-lui deux ou trois exemples de la tâche et demandez-lui d'en faire une autre. Énoncez les règles explicitement. Définissez le rôle que vous voulez que le modèle joue.

Cela s'appelle l'adaptation basée sur le prompt, et quand ça marche, c'est la bonne réponse. Pas de pipeline d'entraînement, pas de facture GPU, pas de risque de casser quelque chose. Le livre explique quand l'adaptation basée sur le prompt atteint ses limites — et elle en a — et comment reconnaître que vous l'avez dépassée.

Instruction tuning : apprendre au modèle à vous suivre

L'instruction tuning est la forme la plus légère d'affinage réel, et c'est celle qui a transformé les modèles pré-entraînés bruts en assistants réactifs que vous utilisez vraiment. L'idée est simple : vous montrez au modèle de nombreux exemples de paires instruction-réponse (« Résume ce paragraphe en une phrase : … »), et vous entraînez sur ces exemples pendant un temps relativement court.

Après l'instruction tuning, le modèle a intériorisé la compétence générale de « suivre ce qui est dans le prompt ». Il n'a plus besoin d'exemples explicites. C'est l'une des raisons pour lesquelles un chatbot moderne ressemble à un chatbot plutôt qu'à une autocomplétion sur une machine à écrire.

Affinage efficace en paramètres

L'affinage complet — mettre à jour chaque paramètre du modèle — est coûteux et risque de dégrader les capacités générales du modèle. Les dernières années ont produit une famille de techniques qui vous permettent d'adapter un grand modèle en n'entraînant qu'une infime fraction des paramètres, souvent moins de 1 %.

La technique la plus populaire s'appelle LoRA (Low-Rank Adaptation). Elle fonctionne en insérant de petites matrices à côté des poids gelés du modèle et en n'entraînant que ces matrices. Le résultat est un minuscule fichier d'adaptateur — souvent quelques mégaoctets — qui, combiné au modèle de base, produit le comportement affiné. Des variantes comme QLoRA poussent cela encore plus loin en quantifiant aussi le modèle de base pour que le tout tienne sur un seul accélérateur.

C'est la technique qui rend l'affinage spécifique au domaine praticable pour les organisations qui n'entraînent pas leurs propres modèles de base. Le livre comprend un tableau comparant côte à côte les principales techniques efficaces en paramètres, pour que vous puissiez choisir la bonne pour votre cas d'usage.

Alignement : le post-entraînement qui compte vraiment

C'est la section dont je suis le plus fier dans l'édition 2026, parce que l'alignement est là où le domaine a bougé le plus vite et où la plupart des lecteurs ont la compréhension la plus floue. L'idée centrale est celle-ci : même après instruction tuning, un modèle produira parfois des sorties que vous ne voulez pas — incorrectes, non sûres, hors-politique, inutiles. L'alignement est la famille de techniques qui façonne la distribution de probabilité du modèle pour favoriser les sorties que les humains préféreraient.

La première approche largement déployée a été l'apprentissage par renforcement à partir de feedback humain (RLHF). Des relecteurs humains comparent des paires de sorties du modèle et indiquent laquelle est meilleure. Ces jugements entraînent un modèle de récompense qui prédit la préférence humaine. Le modèle de base est ensuite affiné avec l'apprentissage par renforcement, en utilisant le modèle de récompense comme signal d'entraînement. Cela a produit des améliorations spectaculaires mais était fameusement instable et coûteux.

Une deuxième génération de méthodes — la direct preference optimization (DPO) et ses variantes — a simplifié le pipeline. Elles traitent les préférences par paires comme un signal supervisé direct, éliminant le modèle de récompense séparé et l'étape d'apprentissage par renforcement. Le résultat est plus stable, moins cher et reproductible.

Une troisième famille — les méthodes constitutionnelles et les variantes avec feedback d'IA — remplace une partie du travail de relecture humaine par des comparaisons générées par un modèle plus fort jugeant des sorties par rapport à un ensemble écrit de principes. Cela passe à l'échelle les données d'alignement bien au-delà de ce que la relecture humaine seule peut produire.

Important : Si vous vous êtes déjà demandé pourquoi deux LLM avec des nombres de paramètres similaires se comportent si différemment — pourquoi l'un refuse une question qu'un autre répond joyeusement, pourquoi l'un est verbeux là où l'autre est concis — la réponse est presque toujours le post-entraînement, pas le pré-entraînement. L'alignement est là où les fournisseurs d'API modernes se différencient vraiment.

Ce que prépare le Chapitre 6

À la fin du Chapitre 6, vous comprenez tout le pipeline d'adaptation : des astuces de prompt à l'alignement. Vous pouvez lire les annonces de nouveaux modèles et distinguer correctement entre « ils ont entraîné une nouvelle base » (rare et coûteux) et « ils ont mis à jour le post-entraînement » (courant et impactant). Et vous avez un cadre pour décider quelle technique d'adaptation utiliser pour votre propre travail.

Prochaine étape — Chapitre 7 : Au-delà de la prédiction du prochain token. Demain, nous dépassons la boucle de génération de base. Embeddings, recherche sémantique, retrieval-augmented generation (RAG) et les extensions multimodales qui permettent aux modèles de travailler avec images et audio.

Vous voulez le tableau complet ? Le livre comprend une section dédiée à l'alignement — RLHF, DPO et méthodes constitutionnelles — qui est nouvelle dans l'édition 2026 et traite le post-entraînement avec le sérieux qu'il mérite. Procurez-vous LLM Primer I sur Amazon →

Chapitre 6 — Affinage et adaptation : du modèle brut à l'assistant utile