Chapitre 3 — Réseaux neuronaux pour le langage
Ceci est la Partie 3 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons cadré la modélisation du langage comme un problème de probabilité et vu pourquoi les anciennes approches par comptage ne pouvaient pas passer à l'échelle. Aujourd'hui, nous regardons la machinerie computationnelle qui les a remplacées — et comment elle a évolué vers la conception qui motorise chaque LLM moderne.
Ce qu'est vraiment un réseau neuronal
Laissez de côté un instant les images de cerveaux et de synapses. Un réseau neuronal est une longue recette mathématique avec des millions ou des milliards de boutons internes, chaque bouton étant un nombre. Vous lui donnez quelque chose en entrée (une liste de nombres représentant votre entrée), la recette la transforme à travers une série d'étapes, et une liste de nombres sort de l'autre côté.
Entraîner le réseau signifie lui montrer beaucoup d'exemples et tourner doucement tous les boutons — automatiquement, à l'aide d'un processus appelé descente de gradient — pour que la sortie de chaque exemple se rapproche un peu de la réponse voulue. Répétez ce processus sur des milliards d'exemples et vous obtenez finalement un réseau dont les réglages de boutons encodent une quantité remarquable de structure sur ce sur quoi vous l'avez entraîné.
Le Chapitre 3 consacre du temps à la mécanique — embeddings, couches cachées, fonctions d'activation non linéaires et le processus d'optimisation qui met à jour les boutons. Le livre n'élude pas les idées, mais explique chaque étape pour qu'un lecteur sans bagage mathématique puisse suivre ce qui se passe. Si vous savez lire une recette, vous savez lire ce chapitre.
Trois formes, et une seule a gagné
L'histoire des réseaux neuronaux appliqués au langage est, dans les grandes lignes, l'histoire de trois idées architecturales. Chacune a été une vraie avancée par rapport à sa prédécesseure. Chacune avait une limitation fatale. La troisième — self-attention — a finalement résolu le problème à grande échelle.
La première forme est le réseau feedforward. Vous lui tendez un morceau d'entrée de taille fixe, il le transforme, et il produit une sortie. Les réseaux feedforward sont excellents pour beaucoup de tâches, mais ils ont un problème structurel pour le langage : le langage n'arrive pas en morceaux de taille fixe. Une phrase peut faire trois mots ou trois cents. Un réseau feedforward n'a pas de façon élégante de gérer cette variation.
La deuxième forme est le réseau neuronal récurrent, ou RNN. Les RNN lisent le texte un token à la fois, en portant un petit résumé — appelé état caché — vers l'avant à chaque étape. Cela imite la façon dont un humain lit, et a résolu le problème de longueur variable. Mais les RNN avaient deux nouveaux problèmes. Le résumé qu'ils portent vers l'avant perd progressivement du détail sur de longs passages, donc le modèle « oublie » des choses du début du texte. Et parce que chaque étape doit attendre la précédente, l'entraînement RNN ne peut pas être parallélisé sur le matériel moderne, ce qui rendait leur passage à l'échelle impossiblement lent.
La troisième forme est self-attention, qui a complètement abandonné l'approche séquentielle. Au lieu de porter un résumé vers l'avant, chaque token de la séquence regarde directement chaque autre token de la séquence — tous en même temps — et décide lesquels comptent. Cela a résolu le problème d'oubli (chaque token a un accès direct à chaque autre token) et le problème de parallélisation (toute la séquence peut être traitée simultanément sur un GPU). Et c'est la base de chaque LLM basé sur Transformer.
Pourquoi l'attention « a tout changé »
Cette phrase est beaucoup employée, y compris dans le titre du fameux article de 2017 qui a introduit l'architecture Transformer. Le Chapitre 3 prend soin d'expliquer ce qui a changé précisément.
L'attention est, au fond, un mécanisme de routage. Chaque token diffuse ce qu'il cherche (« quel autre token a de l'information sur mon sujet ? ») et ce qu'il offre (« voici ce que je représente »). Les mathématiques calculent une moyenne pondérée sur tous les autres tokens, avec des poids déterminés par à quel point chacun correspond à la requête du token demandeur. Le résultat est qu'après avoir passé par une couche d'attention, chaque token a été enrichi avec de l'information pertinente venant de partout ailleurs dans la séquence.
La raison profonde pour laquelle cela fonctionne est que c'est à la fois expressif et parallélisable. Expressif parce que cela peut modéliser des dépendances longue distance — un token en position 1 peut informer directement un token en position 1000. Parallélisable parce que toutes les moyennes pondérées peuvent être calculées d'un coup, sous forme d'une opération matricielle pour laquelle le matériel moderne excelle. La combinaison est ce qui a déverrouillé l'ère du passage à l'échelle.
Ce que prépare le Chapitre 3
À la fin du Chapitre 3, vous avez une compréhension opérationnelle de pourquoi les conceptions de réseaux neuronaux antérieures ont buté contre un mur pour le langage, et pourquoi l'attention a percé. Vous savez ce que signifie mécaniquement entraîner un réseau. Et vous avez l'échafaudage conceptuel pour comprendre pourquoi l'architecture du prochain chapitre — le Transformer — est construite comme elle l'est.
C'est le chapitre où la plupart des lecteurs arrêtent de penser aux LLM comme à une boîte noire mystérieuse et commencent à les voir comme un type spécifique d'ingénierie. Ce changement est le but central du livre.
Prochaine étape — Chapitre 4 : L'architecture Transformer. Demain, nous ouvrons la boîte. Self-attention, multi-head attention, positional encoding, piles de couches et les choix de conception qui déterminent si vous regardez GPT, BERT ou quelque chose entre les deux.