Chapitre 4 — L'architecture Transformer

Ceci est la Partie 4 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons vu pourquoi le self-attention a remplacé la récurrence comme architecture neuronale dominante pour le langage. Aujourd'hui, nous ouvrons le Transformer lui-même — la conception spécifique qui a fait passer l'attention d'une idée astucieuse à la fondation de chaque LLM moderne.

Un Transformer est une pile

La première chose à savoir sur le Transformer, c'est qu'il est modulaire. L'architecture réelle consiste en une seule brique — appelée couche Transformer ou bloc Transformer — répétée de nombreuses fois dans une pile. Les LLM modernes ont entre 32 et plus de 100 de ces couches empilées les unes sur les autres. Chaque couche a exactement la même structure interne ; ce qui change, c'est ce que chacune a appris à faire au fur et à mesure que l'entrée passe.

Vous pouvez voir la pile comme un pipeline de raffinage. Les premières couches tendent à traiter les motifs de bas niveau — identité des tokens, relations syntaxiques de base. Les couches du milieu traitent des structures plus abstraites — sens au niveau de la phrase, références, inférence basique. Les couches supérieures traitent des relations très abstraites — sujet global, ton, cadrage de la tâche. Au moment où le texte a traversé toute la pile, chaque token a été enrichi avec du contexte tiré de toute l'entrée.

Idée clé : Un Transformer est un bloc répété des dizaines de fois. L'architecture est bien plus simple que les sorties du modèle ne le suggéreraient. La profondeur, et ce que chaque couche apprend par l'entraînement, est ce qui produit la capacité.

Dans le bloc : attention et un réseau feedforward

Chaque bloc Transformer a deux pièces principales. La première est le multi-head self-attention — plusieurs calculs d'attention qui tournent en parallèle, chacun apprenant à porter attention à un type différent de relation. Une head peut apprendre à suivre l'accord sujet-verbe ; une autre peut suivre quel pronom se réfère à quel nom ; une troisième peut suivre la cohérence thématique. Aucune d'entre elles n'est programmée ; elles émergent comme effets secondaires de l'entraînement.

La deuxième pièce est un réseau feedforward — un petit réseau neuronal standard qui opère sur chaque token indépendamment. Après que l'attention a mélangé l'information à travers les tokens, l'étape feedforward laisse le modèle faire un traitement par token, appliquant une transformation apprise à chaque représentation enrichie.

Les deux pièces sont enveloppées dans deux détails techniques importants pour la stabilité : les connexions résiduelles (qui laissent l'information contourner chaque pièce et avancer directement) et la normalisation de couche (qui maintient les nombres dans une plage stable à travers la profondeur de la pile). Sans ces astuces, entraîner une pile aussi profonde que celle d'un LLM moderne ne fonctionne pas.

Self-attention, avec un peu plus de précision

Le Chapitre 4 donne au self-attention le traitement soigné qu'il mérite, mathématiques incluses, mais le mécanisme peut être décrit intuitivement. Chaque token produit trois vecteurs — appelés query, key et value. Le query dit « voici ce que je cherche ». Le key dit « voici ce que je représente ». Le value dit « voici ce que je contribuerai si vous me trouvez utile ».

L'attention fonctionne en comparant le query de chaque token au key de chaque autre token, produisant une matrice de scores de similarité. Ces scores sont normalisés en poids qui somment à un (avec softmax), puis la nouvelle représentation de chaque token devient une somme pondérée des values de tous les autres tokens. Toute l'opération tient en quelques lignes d'algèbre matricielle.

Le livre inclut un schéma de code de six lignes pour ce calcul, parce que le voir de façon compacte en code fait que ça clique chez beaucoup de lecteurs d'une manière que les équations seules ne font pas. Le livre explique aussi pourquoi chaque pièce est là — pourquoi la mise à l'échelle par la racine carrée de la dimension importe, pourquoi softmax, pourquoi trois vecteurs distincts au lieu d'un seul.

Comment le modèle connaît l'ordre des mots

Le self-attention a une propriété qui semble inoffensive mais ne l'est pas : il n'encode pas naturellement l'ordre. Pour les mathématiques, une phrase est un ensemble non ordonné de tokens. Sans intervention, « chien mord homme » et « homme mord chien » seraient identiques.

Le positional encoding corrige cela en étiquetant chaque token avec de l'information sur sa position dans la séquence. Le Transformer original utilisait une astuce ingénieuse avec des ondes sinus et cosinus à différentes fréquences. Les variantes modernes utilisent des embeddings positionnels appris ou des encodages de position rotatifs (RoPE) qui gèrent les contextes longs avec plus d'élégance. Les détails varient ; le principe non.

Important : Le choix du positional encoding limite directement jusqu'où un modèle peut porter attention de manière fiable. Étirer un modèle pour gérer des contextes plus longs que ceux sur lesquels il a été entraîné n'est pas trivial — c'est pourquoi chaque modèle a une fenêtre de contexte déclarée, et pourquoi certains font 4 000 tokens tandis que d'autres dépassent le million.

Encodeur, décodeur ou juste décodeur ?

La recherche Transformer ancienne a produit trois saveurs. Les modèles encodeur seul comme BERT sont conçus pour lire du texte et produire une représentation profonde ; ils sont excellents pour la classification, la génération d'embeddings et la recherche. Les modèles décodeur seul comme GPT sont conçus pour générer du texte un token à la fois ; ils alimentent la plupart des LLM de type chat. Les modèles encodeur-décodeur combinent les deux, l'encodeur digérant l'entrée et le décodeur générant la sortie ; ils sont utiles pour la traduction et les tâches structurées.

Aujourd'hui, les modèles décodeur seul dominent le marché de l'IA grand public parce que la même machinerie traite la lecture du prompt et l'écriture de la réponse. La distinction importe toujours quand vous choisissez un modèle pour un travail spécifique, et le livre détaille quand chaque type est le bon outil.

L'histoire de la mise à l'échelle, et pourquoi elle fonctionne

Le Chapitre 4 se conclut en expliquant comment les Transformers passent à l'échelle. Quand vous augmentez les paramètres, les données d'entraînement et le calcul — ensemble, dans des proportions coordonnées — la performance du modèle s'améliore de façon remarquablement prévisible. Cette découverte empirique, connue sous le nom de lois de mise à l'échelle, est ce qui a justifié les investissements massifs des dernières années. Doubler les paramètres d'un Transformer divise grosso modo la perte par deux, dans certaines plages. La relation est si constante que les chercheurs peuvent prédire la performance d'un modèle avant de l'entraîner.

Le livre prend soin d'expliquer ce que les lois de mise à l'échelle ne vous disent pas — sur les capacités émergentes, sur la valeur marginale d'une échelle supplémentaire, et sur les façons dont le récit simple « plus grand c'est mieux » se fissure. Le développement de frontière moderne porte beaucoup moins sur la force brute et beaucoup plus sur la qualité des données, des astuces architecturales comme mixture-of-experts et des méthodes d'entraînement astucieuses. Cette histoire se poursuit dans les chapitres suivants.

Ce que prépare le Chapitre 4

À la fin du Chapitre 4, vous pouvez lire n'importe quel article ou annonce technique LLM moderne et situer ses affirmations correctement. Vous savez ce que contient un bloc Transformer, pourquoi ces composants sont là, et comment la conception arbitre entre expressivité et efficacité. Le reste du livre construit là-dessus sans avoir à le réexpliquer.

Prochaine étape — Chapitre 5 : Entraîner de grands modèles. Demain, nous regardons comment ces architectures sont effectivement entraînées : d'où viennent les données, quel matériel fait le travail, à quoi ressemble le processus d'optimisation en pratique, et pourquoi entraîner un modèle de frontière prend désormais des mois et coûte des centaines de millions de dollars.

Vous voulez le tableau complet ? Le livre traite le Transformer avec le détail visuel qu'il mérite : diagrammes de blocs, cartes de flux d'attention, comparaisons de topologies encodeur/décodeur, et les mathématiques expliquées en langage simple à côté des équations. Procurez-vous LLM Primer I sur Amazon →

Chapitre 4 — L'architecture Transformer : dans le moteur de l'IA moderne