Chapitre 5 — Entraîner de grands modèles

Ceci est la Partie 5 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons ouvert le Transformer. Aujourd'hui, nous regardons ce qu'il faut pour remplir réellement les milliards de boutons numériques qu'il contient — le processus qui transforme une architecture initialisée au hasard en un modèle de langage utilisable.

Ce que veut vraiment dire « entraîner »

Il est facile de glisser sur le mot « entraînement » et de manquer ce à quoi il fait référence. Entraîner un grand modèle de langage est le processus consistant à ajuster lentement chacun de ses paramètres — des milliards de nombres — pour que les prédictions du prochain token sur les données d'entraînement deviennent de mieux en mieux.

L'arithmétique de chaque ajustement individuel est petite. Vous donnez du texte. Le modèle prédit le prochain token. Vous comparez la prédiction au token réel. Vous calculez un nombre qui capture à quel point la prédiction était fausse (c'est la perte). Vous calculez comment chaque paramètre a contribué à cette erreur (c'est le gradient). Vous poussez chaque paramètre d'un tout petit montant dans la direction qui aurait produit une prédiction légèrement meilleure.

Répétez cette boucle des milliards de fois, sur des billions de tokens, sur des dizaines de milliers de puces accélératrices opérant en parallèle, pendant plusieurs mois — et vous avez un modèle de frontière. Il n'y a pas de truc, conceptuellement. La difficulté est dans l'ingénierie.

Idée clé : L'entraînement est une minuscule mise à jour, répétée un nombre inimaginable de fois. Chaque chose impressionnante qu'un modèle peut faire est le résultat cumulé de ces mises à jour. Il n'y a pas d'étape magique.

Le pipeline de données fait la moitié du modèle

L'un des faits les plus sous-estimés des LLM modernes est combien de travail va dans les données. Le Chapitre 5 y consacre du vrai temps parce que c'est là que vivent ou meurent beaucoup de modèles de production.

Le texte de pré-entraînement est collecté du web, de livres, de dépôts de code et d'autres sources, totalisant des centaines de milliards à quelques billions de tokens pour un modèle moderne. La collecte brute est ensuite agressivement nettoyée : les doublons sont retirés, le matériel de basse qualité évident est filtré, le matériel nuisible ou protégé par le droit d'auteur est filtré, et le résultat est rééquilibré pour qu'aucune source unique ne domine. Chacune de ces étapes nécessite sa propre ingénierie et son propre travail de politique.

Le mélange et la qualité des données façonnent le modèle résultant bien plus que les gens ne le réalisent. Un modèle entraîné sur un corpus soigneusement curé et bien équilibré peut surpasser un modèle avec deux fois plus de paramètres entraîné sur des données scrapées brutes. C'est une raison pour laquelle les modèles à poids ouverts des labos bien financés continuent de s'améliorer même quand les nombres de paramètres stagnent — le travail sur les données s'améliore.

Fonctions de perte, en langage simple

La fonction de perte est la carte de score mathématique qui dit au processus d'entraînement à quel point le modèle s'en sort. Pour les modèles de langage, le choix standard est la cross-entropy loss — une mesure qui punit les prédictions confiantes-fausses beaucoup plus que les prédictions incertaines-fausses.

Vous n'avez pas besoin de suivre les mathématiques pour utiliser l'intuition. Un modèle qui a surtout raison avec une confiance basse a une perte modérée. Un modèle qui a surtout raison avec une confiance haute a une perte basse. Un modèle qui a tort avec confiance a une perte très haute. Le processus d'entraînement est conçu pour faire baisser la perte, ce qui enseigne en effet au modèle à n'être confiant que quand il devrait l'être.

Le Chapitre 5 explique pourquoi la cross-entropy est le bon choix, quelles alternatives existent, et à quoi ressemble vraiment la courbe de perte pendant un run d'entraînement (spoiler : elle descend brusquement au début, puis lentement pendant longtemps, avec des bosses périodiques quand le taux d'apprentissage change).

Pourquoi l'entraînement prend des mois et coûte des millions

Les opérations numériques qui composent une étape d'entraînement — multiplications matricielles, additions, normalisations — sont individuellement rapides sur un seul GPU. Le hic, c'est qu'un GPU ne suffit pas pour contenir un modèle de frontière en mémoire, encore moins pour l'entraîner en un temps raisonnable. Alors l'entraînement est étalé sur des milliers d'accélérateurs câblés ensemble avec des interconnexions à haut débit.

Trois saveurs de parallélisme sont typiquement combinées. Le parallélisme de données met une copie complète du modèle sur chaque appareil et alimente différents batchs de données à chacun, moyennant les gradients à travers les appareils. Le parallélisme de modèle découpe le modèle lui-même entre les appareils, de sorte que chacun ne détient que certaines couches. Le parallélisme de pipeline échelonne le travail entre les appareils pour qu'ils n'attendent pas les uns les autres au point mort.

Chacun de ces parallélismes est sa propre discipline d'ingénierie, avec ses propres modes d'échec. Des appareils tombent en panne au milieu de l'entraînement et doivent être échangés à chaud. La congestion du réseau apparaît comme des blocages d'entraînement. Des instabilités numériques font diverger les runs. L'entraînement à l'échelle de frontière concerne plus la fiabilité industrielle que l'astuce algorithmique.

Important : Le coût d'un run d'entraînement de frontière aujourd'hui est dominé par l'électricité, l'amortissement du matériel et les personnes, à peu près dans cet ordre. Le vrai travail mathématique est la partie bon marché de la facture.

Surapprentissage et l'équilibre à tenir

Le chapitre se conclut en discutant deux modes d'échec que chaque run d'entraînement navigue. Le surapprentissage signifie que le modèle mémorise ses exemples d'entraînement au lieu d'apprendre les motifs sous-jacents ; il produit un modèle qui performe bien sur les données d'entraînement mais mal sur tout ce qui est nouveau. Le sous-apprentissage signifie que le modèle n'a pas été assez entraîné pour capturer la structure dans les données ; il produit un modèle qui est mauvais à tout.

L'espace entre les deux est étroit, et plusieurs outils standards — collectivement appelés régularisation — sont utilisés pour maintenir l'entraînement à l'intérieur. Dropout, weight decay, plannings de taux d'apprentissage soigneux, arrêt précoce. Aucun n'est exotique. Tous sont essentiels.

Ce que prépare le Chapitre 5

À la fin du Chapitre 5, vous avez une image claire de ce qu'est matériellement un modèle de frontière. Vous pouvez lire un communiqué de presse sur un nouveau run d'entraînement et situer ses affirmations avec précision. Vous comprenez pourquoi l'ingénierie de ces systèmes est désormais une préoccupation à l'échelle de la sécurité nationale dans certains pays, et pourquoi la conversation publique sur l'IA devient de plus en plus une conversation sur les données, l'énergie et l'infrastructure.

Prochaine étape — Chapitre 6 : Affinage et adaptation. Demain, nous regardons comment un modèle pré-entraîné devient utile. Affinage, instruction tuning, méthodes efficaces en paramètres comme LoRA, et les techniques d'alignement (RLHF et ses descendants) qui transforment les prédicteurs bruts du prochain token en assistants utiles.

Vous voulez le tableau complet ? Le livre décompose tout le pipeline d'entraînement, y compris les étapes de curation des données que la plupart des introductions sautent, avec des diagrammes des stratégies de parallélisme utilisées dans les vrais runs de frontière. Procurez-vous LLM Primer I sur Amazon →

Chapitre 5 — Entraîner de grands modèles : ce qu'il faut vraiment pour un modèle de frontière