Chapitre 10 — Mathématiques du Post-Entraînement et de l'Alignement

Dixième billet de la tournée chapitre par chapitre de LLM Primer II : Les modèles de langage par les mathématiques. Le chapitre où un prédicteur du prochain mot brillant mais sauvage est civilisé en assistant utile — et où tout un pipeline d'apprentissage par renforcement s'effondre, par une dérivation élégante, en quelque chose qu'on peut entraîner comme un classifieur ordinaire.

Pourquoi ce chapitre existe

Les Chapitres 8 et 9 ont produit un modèle pré-entraîné. Il a lu une grande partie d'internet, et peut continuer n'importe quel texte avec une fluidité troublante. Il n'a aussi aucune inclination particulière à être utile. Posez-lui une question et il pourrait générer encore plus de questions — il est brillant et sauvage à la fois.

Le Chapitre 10 est le pont entre cette créature et l'assistant avec lequel vous interagissez vraiment. C'est aussi l'un des chapitres les plus mathématiquement beaux du livre — l'ingénierie de l'alignement repose sur trois idées propres l'une après l'autre, et la troisième est d'une élégance déraisonnable.

En une ligne : le post-entraînement en trois mouvements — l'affinage supervisé apprend au modèle à imiter de bonnes réponses, un modèle de récompense apprend les préférences humaines, et l'optimisation des préférences ajuste le modèle pour les satisfaire, avec une laisse KL qui le maintient près de l'original.

10.1 Affinage supervisé

La première étape, et la plus douce. Mathématiquement rien de nouveau — rassembler des paires (prompt, réponse idéale) collectées auprès d'humains, entraîner avec la même perte de cross-entropy du Chapitre 1. En imitant des milliers d'exemples d'un assistant serviable, le modèle apprend à se comporter comme cet assistant plutôt que comme la page internet moyenne. Le plafond : l'imitation ne peut pas dépasser les démonstrateurs, et écrire la réponse parfaite est bien plus difficile que d'en reconnaître une.

10.2 Modèles de récompense et mathématiques de la préférence

Si écrire la réponse parfaite est difficile mais comparer deux réponses est facile, alors collectez des comparaisons. Le pont entre des comparaisons humaines bruitées et une fonction de score lisse : le modèle de Bradley–Terry (statistiques, années 1950). Il attribue à chaque élément une force cachée, et la probabilité que l'un batte l'autre est régie par la différence de leurs forces à travers une fonction logistique. Le modèle de récompense est entraîné pour faire correspondre cette probabilité aux étiquettes humaines. Relisez-le et reconnaissez : c'est de la régression logistique sur des différences de récompenses.

10.3 RLHF en laisse

L'apprentissage par renforcement naïf — maximiser la récompense espérée — est un piège. Le modèle de récompense est un proxy, avec ses angles morts. Une politique optimisée assez fort exploite ces angles morts et produit du texte dégénéré qui obtient un score absurdement élevé tout en étant du charabia pour les humains. Reward hacking — le « specification gaming » dans sa forme la plus concrète. Le remède : ajouter une pénalité de divergence KL qui ramène la politique vers la référence pré-entraînée. L'art est dans l'équilibre : trop peu de laisse, le modèle pirate la récompense ; trop, il ne progresse jamais.

10.4 DPO : quand l'apprentissage par renforcement fond

L'un des résultats les plus jolis de l'apprentissage automatique récent. L'objectif RLHF semble exiger tout l'appareil — modèle de récompense, boucle RL, échantillonnage. Direct Preference Optimization (DPO) a montré que non. La maximisation de récompense contrainte par KL a une solution optimale en forme close : la politique de référence repondérée par la récompense exponentiée. Faites tourner cela à l'envers : résolvez pour la récompense en fonction de la politique optimale, substituez dans la perte de préférence de Bradley–Terry, et regardez le modèle de récompense disparaître. Ce qui reste est une perte exprimée entièrement en termes des log-probabilités propres de la politique contre la référence. Pas de modèle de récompense séparé. Pas de boucle RL. Juste de l'apprentissage supervisé sur des paires de préférences.

À garder en tête : DPO est le genre de résultat qui fait que le domaine semble brièvement petit et élégant. Tout un zoo en mouvement de composants se replie proprement en une seule perte supervisée. Les mêmes mathématiques, moins de machinerie.

10.5 Best-of-n, taxe d'alignement, mises en garde honnêtes

Alternative plus simple : rejection sampling / best-of-n. Générer n candidats, les noter tous, garder le meilleur. Aucun entraînement de politique, juste de l'inférence supplémentaire. Base de comparaison forte et d'une simplicité enfantine.

Deux mises en garde. D'abord, la taxe d'alignement : un modèle ajusté fortement pour la serviabilité et la sécurité perd parfois en capacité brute. Ensuite, plus fondamentalement — chaque méthode ici optimise pour l'approbation humaine, ce qui n'est pas la même chose que la vérité ou le bien. Un modèle peut apprendre à être apprécié sans apprendre à avoir raison.

Le chapitre couvre aussi RLAIF (utiliser le jugement d'un modèle pour aligner un autre) et Constitutional AI (des valeurs écrites en langage clair). Toutes deux font signe vers le problème plus profond de la supervision à grande échelle.

Ce que prépare le Chapitre 10

Vous repartez avec trois mouvements et deux beaux morceaux de statistique. À partir d'ici, le livre se tourne vers la question connexe et tout aussi mathématique : maintenant que nous avons construit et aligné un modèle, comment savons-nous s'il est bon ?

Prochaine étape — Chapitre 11 : Évaluation, Calibration et Inférence. Perplexité, calibration, les barres d'erreur que chaque score de benchmark devrait porter, et les mathématiques de la mesure de l'hallucination.

Vous voulez le tableau complet ? Le livre inclut la dérivation complète de Bradley–Terry, la solution en forme close de DPO et la preuve par substitution, ainsi que la chorégraphie à trois modèles de RLHF dessinée de manière diagrammatique. Procurez-vous LLM Primer II sur Amazon →