Chapitre 11 — Évaluation, Calibration et Inférence

Onzième billet de la tournée chapitre par chapitre de LLM Primer II : Les modèles de langage par les mathématiques. Le chapitre où l'on demande comment quiconque peut mesurer une machine capable de dire n'importe quoi — et où l'on découvre qu'un modèle confiant est souvent un modèle mal calibré.

La question qui s'avère être mathématique

Nous avons construit un modèle dans la Partie II, l'avons entraîné dans la Partie III, et l'avons aligné au Chapitre 10. Comment savons-nous si tout cela a vraiment fonctionné ? Cela semble être une question molle. C'est l'une des plus dures et des plus mathématiques du domaine, parce qu'un modèle de langage peut produire essentiellement n'importe quel texte, et que « bon » résiste à la définition.

11.1 Perplexité

La mesure la plus fondamentale n'a besoin d'aucun humain — elle tombe directement de l'objectif d'entraînement. Mesurez la probabilité que le modèle attribue à un ensemble de test mis de côté. Par token et exponentiée, c'est la perplexité — la surprise moyenne du modèle exprimée comme un facteur de branchement effectif. Bon marché, objective, automatique. Aveugle à presque tout ce qui compte en pratique : utilité, vérité, sécurité. Non comparable entre tokeniseurs. Le chapitre couvre aussi BLEU, ROUGE, taux d'exécution de code, scores de modèle-juge — chacun avec ses modes d'échec connus.

En une ligne : la perplexité est la mesure intrinsèque bon marché. Elle est honnête sur la prédiction et silencieuse sur tout le reste.

11.2 Calibration

Un modèle est bien calibré si sa confiance correspond à son exactitude — quand il dit qu'il est sûr à 80 %, il devrait avoir raison environ 80 % du temps. Ce n'est pas la même chose que l'exactitude. Un modèle peut être exact mais trop confiant, ou même inexact mais honnête. Pour tout usage à enjeu élevé, la calibration compte autant que l'exactitude.

On mesure cela avec un diagramme de fiabilité : binner les prédictions par confiance déclarée, vérifier l'exactitude dans chaque bin. Un modèle parfaitement calibré trace la diagonale ; le cas courant gonfle en dessous (sur-confiant). Métrique récapitulative : l'Expected Calibration Error (ECE). Le temperature scaling — diviser les logits par un scalaire appris — est une correction post-hoc simple et efficace. RLHF, fait intéressant, dégrade souvent la calibration.

11.3 Incertitude des benchmarks

Quand un modèle « obtient 87 % sur un benchmark », la question manquante est : 87 % plus ou moins combien ? L'erreur standard de l'exactitude proche de 50 % sur n questions est à peu près 1/(2√n). Pour n=1000, c'est environ 1,6 points de pourcentage — donc un score de 87 % et un de 85 % ne sont pas nécessairement différents. Dangers cumulatifs : les comparaisons multiples (testez assez de modèles sur assez de benchmarks, certains paraîtront meilleurs par hasard) et la contamination (si des questions de benchmark ont fuité dans les données d'entraînement, le score mesure la mémorisation). C'est la section que la presse IA a le plus besoin de lire.

11.4 Hallucination et géométrie de la recherche

L'hallucination — affirmation confiante d'une fausseté — est le mode d'échec qui définit le mieux les limites d'un LLM, et le plus dur à mesurer parce qu'il exige de juger de la vérité. Les métriques de fidélité testent si chaque affirmation d'une réponse est entraînée par le contexte fourni.

L'outil principal pour réduire les hallucinations est la retrieval-augmented generation : ancrer le modèle dans de vrais documents. Son opération centrale nous ramène, à propos, à la géométrie de la Partie I — la recherche du produit scalaire maximal sur les embeddings (Chapitre 3) de la requête et des passages candidats. La géométrie du Chapitre 3 devient soudain porteuse pour la production.

À garder en tête — loi de Goodhart : « quand une mesure devient une cible, elle cesse d'être une bonne mesure. » Chaque métrique de ce chapitre devient une mesure corrompue à l'instant où vous optimisez pour elle. Il n'y a pas d'échappatoire ; il n'y a que la gestion — benchmarks frais, triangulation entre plusieurs métriques, humains dans la boucle là où l'automatisation ne peut pas atteindre.

Ce que prépare le Chapitre 11

Vous repartez avec la trousse à outils de la mesure honnête : la perplexité comme mesure intrinsèque, la calibration comme la question souvent plus importante que l'exactitude, les barres d'erreur comme antidote au théâtre des benchmarks, la géométrie de la recherche comme outil de production pour le contrôle des hallucinations. La Partie III se referme ici. À partir d'ici, le livre se tourne vers ce que nous faisons réellement avec ces modèles.

Prochaine étape — Chapitre 12 : Applications des LLM dans le Monde Réel. Le premier chapitre de la Partie IV. Génération de texte, résumé, QA, traduction, raisonnement — à quoi chacun ressemble à travers les mathématiques dont nous disposons maintenant.

Vous voulez le tableau complet ? Le livre inclut la dérivation du diagramme de fiabilité, la formule de l'ECE, les mathématiques de l'erreur standard des benchmarks, et les métriques de fidélité pour les hallucinations — plus la connexion avec la géométrie des embeddings du Chapitre 3. Procurez-vous LLM Primer II sur Amazon →