Chapitre 2 — Probabilité, tokens et texte

Ceci est la Partie 2 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, dans le billet sur le Chapitre 1, nous avons établi ce qu'est réellement un LLM : une machine à deviner du texte. Aujourd'hui, nous entrons dans le concret de ce que cela signifie.

Avant que le modèle ne voie quoi que ce soit, il voit des nombres

Voici quelque chose que la plupart des introductions aux LLM survolent : le modèle ne voit jamais vos mots. Au moment où votre prompt atteint la première couche du modèle, il a été découpé en petits morceaux appelés tokens, et chaque token a été remplacé par un nombre.

Un token est généralement plus court qu'un mot. Les mots courants comme « le » ou « langage » sont souvent un seul token. Les mots plus longs ou plus rares sont découpés en morceaux — « tokenisation » pourrait devenir « token » + « isation », par exemple. C'est pourquoi la tarification des API de LLM est mesurée en tokens plutôt qu'en mots, et pourquoi la même phrase dans une autre langue peut coûter deux ou trois fois plus à traiter.

Idée clé : Les tokens sont les briques LEGO de la modélisation du langage. Les pièces courantes sont une seule brique ; les mots rares sont assemblés à partir de plus petites. Le modèle ne travaille jamais qu'avec des séquences de ces briques, encodées sous forme de nombres.

Comment se passe le découpage — avec des méthodes appelées Byte Pair Encoding, WordPiece et quelques autres — reçoit un traitement soigné dans le livre. Différentes familles de LLM utilisent des schémas différents, ce qui est l'une des raisons pour lesquelles les sorties de modèles cassent parfois à des endroits surprenants quand vous travaillez avec du code, des symboles mathématiques ou des écritures non latines.

Tout le truc est un jeu de devinettes

Une fois le prompt tokenisé, la tâche du modèle est étonnamment simple à décrire : produire une distribution de probabilité sur chaque prochain token possible. Pas « la réponse », pas « le bon token » — une distribution qui dit, en effet : « étant donné tout ce que j'ai vu jusqu'ici, voici à quel point chaque prochain token possible est probable ».

Si vous demandez au modèle « la capitale de la France est », la probabilité que le prochain token soit « Paris » sera très élevée, avec des montants plus petits de probabilité assignés à « la », « située », « actuellement », et ainsi de suite. Le modèle choisit ensuite l'un de ces candidats (le choix étant influencé par un réglage appelé température) et l'ajoute à la séquence. Puis il recommence tout. Puis encore. Un token à la fois.

C'est tout. Chaque essai, chaque traduction, chaque extrait de code, chaque poème jamais produit par un LLM est le résultat de cette boucle qui tourne, à plusieurs reprises, sans plan, sans conception globale, sans objectif au-delà de produire le prochain token plausible.

Le Chapitre 2 consacre du vrai temps à pourquoi cela fonctionne du tout. Le fait que la pure prédiction du prochain token, à suffisamment d'échelle, produise quelque chose qui ressemble à du raisonnement n'est pas évident. C'est l'une des découvertes empiriques les plus intéressantes de l'IA moderne, et le livre prend soin d'expliquer pourquoi.

L'ancienne manière versus la nouvelle

Avant que les réseaux neuronaux ne dominent, les modèles de langage fonctionnaient en comptant. Si vous vouliez prédire le mot suivant, vous regardiez les deux ou trois précédents, les trouviez partout où ils apparaissaient dans votre corpus d'entraînement, et demandiez : qu'est-ce qui venait après, en moyenne ? Cela fonctionnait, à peu près. Cela produisait du texte grammatical, parfois. Mais cela avait deux problèmes paralysants.

Le premier était la rareté. La plupart des combinaisons de trois mots n'apparaissent dans aucun ensemble d'entraînement, aussi grand soit-il. Le modèle n'avait donc aucune opinion sur la plupart des séquences. Le second était la généralisation. Les phrases « le chien a chassé le chat » et « le loup a chassé le lapin » partagent une structure que les humains voient instantanément, mais un modèle de comptage les traite comme totalement indépendantes. Il n'apprend rien de l'une qui s'applique à l'autre.

Les modèles de langage neuronaux corrigent les deux problèmes en apprenant des motifs plutôt qu'en mémorisant des combinaisons. Ils mappent chaque token vers une liste de nombres — un embedding — puis apprennent comment ces nombres se transforment à travers les séquences. Deux phrases avec une structure similaire finissent avec des représentations internes similaires, même si le modèle n'a jamais vu aucune des deux phrases spécifiques.

Idée clé : Le passage du comptage à l'apprentissage de motifs est le mouvement conceptuel le plus important de l'histoire du traitement du langage naturel. Presque tout ce que les LLM peuvent faire et que les systèmes antérieurs ne pouvaient pas faire remonte à ce mouvement.

Mesurer la qualité des devinettes

Le Chapitre 2 se conclut avec deux métriques dont vous entendrez parler constamment : l'entropie et la perplexité. Le livre prend son temps avec celles-ci parce qu'elles sont faciles à mal comprendre. La version courte, avec mes excuses à qui a vu les équations :

L'entropie, c'est l'incertitude. Si le modèle est très sûr de ce qui vient ensuite, l'entropie est faible. Si le modèle est vraiment incertain, l'entropie est élevée. La perplexité est une façon pratique d'exprimer cette incertitude sous forme d'un nombre que vous pouvez comparer entre modèles. Une perplexité plus faible signifie un modèle qui est en moyenne moins surpris par le texte qu'il voit.

Vous n'avez pas besoin de connaître les formules pour utiliser ces intuitions. Quand vous lisez que « le Modèle A a une perplexité de 4,2 sur ce benchmark », vous pouvez traduire mentalement : « les devinettes du Modèle A sur ce benchmark sont assez sûres — il fait en moyenne environ 4 prochains tokens plausibles d'incertitude par position ». Quand la perplexité est de 50, le modèle est beaucoup moins sûr. C'est assez pour donner du sens à la plupart des articles de recherche.

Ce que prépare le Chapitre 2

À la fin du Chapitre 2, vous avez un modèle mental opérationnel de la boucle entrée-sortie qui définit chaque LLM : texte en entrée, tokens en sortie, probabilités calculées, prochain token échantillonné, répéter. Vous savez pourquoi cette boucle est mathématiquement tractable et quelles sont ses limites. Et vous avez le vocabulaire pour lire le reste du livre, et la plupart de la recherche LLM, sans trébucher.

Cela prépare la question centrale des prochains chapitres : comment le modèle produit-il ces probabilités ? Qu'est-ce qui se passe vraiment à l'intérieur ? Cette histoire commence demain.

Prochaine étape — Chapitre 3 : Réseaux neuronaux pour le langage. Nous zoomons sur la machinerie computationnelle qui fait le vrai travail. Comment un réseau neuronal est-il assemblé ? Pourquoi les conceptions antérieures ont-elles échoué sur le langage ? Et que signifie « entraîner » des milliards de paramètres ?

Vous voulez le tableau complet ? Le livre donne à chaque idée de ce billet un traitement soigné et illustré — y compris des tableaux comparant les schémas de tokenisation et des exemples résolus de la boucle du prochain token. Procurez-vous LLM Primer I sur Amazon →

Chapitre 2 — Probabilité, tokens et texte : le jeu de la devinette du mot suivant