Chapitre 1 — Qu'est-ce qu'un grand modèle de langage ?

Ceci est la Partie 1 d'une série qui parcourt LLM Primer I: How Generative AI Works — un guide centré sur les mécanismes de la technologie derrière l'IA moderne. Au cours des douze prochains billets, je présenterai chaque chapitre du livre, partagerai les cadres qui organisent le matériel et expliquerai pourquoi je l'ai écrit comme je l'ai fait.

La question qui semble simple, et qui ne l'est pas

Si vous demandez à cent personnes ce qu'est un grand modèle de langage, vous obtiendrez cent réponses, et la plupart seront fausses d'une manière intéressante. « C'est une IA. » « C'est un chatbot. » « C'est un moteur de recherche qui répond en parlant. » « C'est la chose qui a rédigé mon rapport hier soir. »

Aucune de ces réponses n'est exactement fausse. Mais elles décrivent ce que fait un LLM, pas ce qu'il est. Le Chapitre 1 porte sur la deuxième question — celle que la plupart des introductions sautent et que le marketing obscurcit activement. Parce que si vous ne pouvez pas y répondre avec précision, toute autre affirmation sur les LLM devient plus difficile à évaluer.

Idée clé : Un grand modèle de langage est une machine à deviner du texte. C'est tout. Tout ce qu'il fait d'impressionnant vient de ce qu'il fait cette unique chose extrêmement bien, des milliards de fois de suite.

Les trois mots, pris au sérieux

Le livre commence par décomposer le terme LLM, mot par mot, parce que chaque mot porte un poids qui est ignoré dès que « LLM » devient un raccourci.

Grand ne veut pas dire physiquement grand. Cela veut dire que le système comporte de l'ordre du milliard de réglages numériques internes — appelés paramètres — qui ont été ajustés pendant l'entraînement. Cela veut aussi dire que l'entraînement lui-même a utilisé des quantités énormes de texte et d'énormes ressources de calcul. Chacun de ces trois nombres — paramètres, données, calcul — doit croître ensemble pour que le modèle devienne effectivement plus intelligent. N'en doubler qu'un seul a tendance à décevoir.

Langage semble évident, mais a ici un sens spécifique. Le modèle ne comprend pas la grammaire ou le sens comme vous le faites. Il travaille avec des séquences de petits morceaux de texte appelés tokens — généralement plus courts que des mots. Du point de vue du modèle, chaque prompt est une séquence de nombres, et chaque réponse n'est que le nombre suivant, et le suivant, et le suivant.

Modèle est le plus chargé des trois mots. Un modèle dans ce sens n'est pas une base de données qui stocke des faits. Ce n'est pas une personne qui sait des choses. C'est une fonction mathématique entraînée — un reconnaisseur de motifs — qui produit des continuations probables du texte qu'il a reçu. Quand le modèle « sait » la capitale de la France, il ne va pas chercher le fait. Il produit « Paris » parce que, étant donné le reste du prompt, « Paris » est le prochain token le plus probable selon les motifs absorbés depuis les données d'entraînement.

Cette distinction importe plus qu'il n'y paraît. Elle explique pourquoi les LLM hallucinent. Elle explique pourquoi ils peuvent se tromper avec assurance. Elle explique pourquoi ils sont si bons pour produire un texte fluide et si peu fiables quand on leur demande d'être autoritaires sur des faits. Le livre revient à cette distinction à plusieurs reprises parce que c'est le cadre le plus utile pour prédire comment n'importe quel LLM se comportera dans n'importe quelle situation.

Comment nous en sommes arrivés là, en un paragraphe

Le Chapitre 1 parcourt aussi la façon dont la modélisation du langage a réellement évolué — parce que le LLM moderne est le dernier chapitre d'une histoire qui remonte à des décennies. Pendant longtemps, les ordinateurs ont traité le langage soit avec des règles grammaticales écrites à la main, soit en comptant la fréquence à laquelle certaines paires de mots apparaissaient dans des livres. Les deux approches ont plafonné. La percée a été d'apprendre des motifs directement à partir d'énormes quantités de texte, plutôt que de se voir dicter les règles. Les idées sous les LLM d'aujourd'hui sont plus anciennes qu'on ne le pense ; ce qui est nouveau, c'est l'échelle à laquelle elles sont désormais appliquées.

Je ne vais pas révéler la percée architecturale spécifique qui a tout changé — c'est pour les Chapitres 3 et 4. Mais je dirai ceci : le passage de « chercher des comptes de mots » à « apprendre des motifs » est le changement le plus important de l'histoire du traitement du langage naturel, et le comprendre fait sens à tout ce qui est venu après.

Trois mythes que je prends assez au sérieux pour les démentir

Le chapitre se termine en abordant trois idées fausses persistantes sur ce que font les LLM. Je les prends au sérieux parce que chacune d'elles, si vous y croyez, vous mènera à de mauvaises décisions sur quand faire confiance à un LLM et quand ne pas le faire.

Le premier mythe est que les LLM comprennent comme le font les humains. Ce n'est pas le cas. Ils produisent des sorties qui ressemblent à de la compréhension parce qu'ils ont été entraînés sur du texte écrit par des gens qui comprennent vraiment. Le deuxième est que les LLM sont des bases de données de faits. Ils ne le sont pas. Les faits sont répartis sur des milliards de poids, c'est pourquoi les modèles peuvent produire avec assurance des affirmations plausibles mais fausses. Le troisième est que les modèles plus grands sont toujours plus intelligents. Ils ne le sont pas. L'échelle interagit avec la qualité des données, la méthode d'entraînement et les choix architecturaux, et le plus grand modèle disponible n'est pas toujours le bon outil pour le travail.

À retenir : Un LLM qui semble sûr de lui n'est pas la même chose qu'un LLM qui a raison. La fluidité et l'exactitude sont deux propriétés différentes, produites par le même mécanisme sous-jacent mais régies par des contraintes différentes.

Ce que prépare le Chapitre 1

À la fin du chapitre, vous avez une définition opérationnelle de ce qu'est et n'est pas un LLM, un sens de la façon dont le domaine en est arrivé là, et une vue lucide des idées fausses les plus courantes. Ce n'est pas un petit gain pour un seul chapitre. C'est la base qui rend possible la lecture du reste du livre.

Si vous lisez le Chapitre 1 et rien d'autre, vous en sortirez capable de raisonner sur les LLM avec plus de précision que la plupart des gros titres à leur sujet. Cela seul est, pour beaucoup de lecteurs, suffisant pour que le livre vaille son prix.

Prochaine étape — Chapitre 2 : Probabilité, tokens et texte. Demain, nous entrons dans le concret de ce que sont vraiment ces « tokens », pourquoi le modèle est fondamentalement une machine à probabilités, et comment la prédiction du prochain token — l'unique chose que le modèle fait vraiment — devient tout le reste de ce qu'il peut faire.

Vous voulez le tableau complet ? Le livre traite chaque idée d'ici avec la profondeur et le soin qu'elle mérite, avec des diagrammes, des encadrés en langage simple et la précision technique dont vous avez besoin pour travailler réellement avec ces systèmes. Procurez-vous LLM Primer I sur Amazon →

Chapitre 1 — Qu'est-ce qu'un grand modèle de langage ? (Au-delà des gros titres)