Chapitre 9 — La triade d'évaluation RAG

Neuvième billet de la tournée chapitre par chapitre de LLM Primer III : Améliorer l'IA d'entreprise avec RAG. Le chapitre où trois échecs différents s'effondrent en un seul symptôme — et où le domaine invente une métrique à trois têtes qui finit par dire à l'équipe lequel des symptômes c'est.

Pourquoi ce chapitre existe

Un système RAG peut échouer à trois endroits différents, et vus de l'extérieur les échecs paraissent identiques. Le retrieveur récupère le mauvais contexte. Le modèle ignore le bon contexte. Le modèle honore le contexte mais répond à une question différente de celle qui a été posée. Chaque équipe de production a, à un moment ou un autre, essayé de corriger l'un de ces échecs en mesurant un autre. Ce chapitre porte sur le petit vocabulaire têtu qui empêche cette erreur.

C'est aussi un chapitre sur un basculement. La recherche d'information classique était évaluée contre une vérité de terrain étiquetée — des requêtes avec des documents corrects connus, précision et rappel calculés contre les étiquettes. RAG opère dans un monde où aucune telle étiquette n'existe. Les questions sont ouvertes, les réponses sont génératives, le contexte pertinent est ce dont le modèle a besoin à ce moment-là. La triade a été conçue pour ce monde. Elle mesure la cohérence entre étapes, pas l'accord avec une référence.

En une ligne : la santé tient en trois nombres, pas un seul — Pertinence du Contexte pour la recherche, Fidélité pour la génération, Pertinence de la Réponse pour l'ajustement entre question et réponse — les trois calculés sans référence par un LLM-juge que l'équipe doit garder honnête.

9.1 Pourquoi trois signaux, et pas un

L'instinct d'une équipe nouvelle est de noter la réponse finale. L'utilisateur a tapé une question, le système a produit une réponse, soit la réponse est correcte, soit non. L'instinct échoue parce que la réponse finale est un composite de chaque étape, et quand elle échoue, le composite ne dit rien sur quelle étape réparer. Le bon document a-t-il été manqué ? A-t-il été récupéré et ignoré ? A-t-il été utilisé mais en répondant à une autre question ? Trois bugs différents, trois corrections différentes, un symptôme indistinguable.

La triade sépare la chaîne aux trois endroits où l'information survit ou est perdue. Recherche, ancrage, réponse. Chacun reçoit sa propre métrique : Pertinence du Contexte, Fidélité, Pertinence de la Réponse. Ce qui rend la structure utile, ce n'est pas que les trois soient exhaustives — elles ne le sont pas — c'est qu'elles sont indépendantes. Un système peut bien noter sur l'une et mal sur une autre, et quand il le fait, l'équipe sait où chercher. Quand un nouveau modèle d'embedding est livré, la Pertinence du Contexte doit bouger. Quand un nouveau prompt est livré, la Fidélité doit bouger. Quand la métrique qui devrait bouger bouge, l'équipe sait que le changement a fonctionné. Un seul score de bout en bout effondre tout cela dans quelque chose qu'on ne peut pas déboguer.

9.2 Pertinence du Contexte — avez-vous récupéré le bon contexte ?

La Pertinence du Contexte demande si les morceaux récupérés portent sur la question, phrase par phrase, scoré par un LLM-juge. Elle capture la précision de la recherche — la fraction de la fenêtre de contexte dépensée sur du matériel pertinent. Un score élevé signifie que le retrieveur ne gaspille pas de tokens. Un score bas signifie qu'il rapporte du bruit, et le modèle paie ce bruit à la fois en latence et en qualité, parce qu'on a montré à répétition que des contextes longs et non pertinents dégradent la génération.

Ce que la Pertinence du Contexte ne capture pas, c'est le rappel — si tous les morceaux dont le modèle aurait eu besoin ont été effectivement récupérés. Un retrieveur qui rapporte un morceau parfait et rien d'autre note parfaitement, même si la réponse en exigeait deux et que le second a été manqué. Le rappel est son propre problème, mesuré contre des ensembles dorés curatés où les documents porteurs de réponse sont connus. Le chapitre nomme aussi deux artefacts à connaître : le découpage agressif gonfle la Pertinence du Contexte sans nécessairement améliorer la réponse, et la moyenne non pondérée sur un top-k fixe peut faire paraître un retrieveur mauvais alors que les morceaux non pertinents aux positions quatre à dix n'affectent guère le modèle de toute façon.

9.3 Fidélité — le modèle a-t-il honoré le contexte ?

La Fidélité, parfois appelée Groundedness, pose la question opposée : sur les affirmations que le modèle a produites, quelle fraction peut être soutenue par le contexte récupéré ? Le calcul standard décompose la réponse en affirmations atomiques et demande au juge, pour chacune, si le contexte la soutient. La décomposition est la partie qui compte. Une longue réponse évaluée comme un bloc unique tend à noter soit complètement fidèle, soit complètement infidèle, le juge se résolvant vers la direction dans laquelle le ressenti global penche. Les affirmations atomiques forcent le juge à évaluer chaque assertion indépendamment — ce qui attrape l'échec courant où une réponse en grande partie correcte contient une phrase que le contexte n'a jamais soutenue.

Le chapitre est honnête sur l'asymétrie de la Fidélité : elle pénalise l'invention mais pas l'omission. Un modèle qui refuse de répondre note parfaitement. Un modèle qui donne une réponse correcte et bien ancrée mais omet une réserve cruciale du contexte note bien aussi. C'est aussi la métrique la plus susceptible de faire remonter un problème de prompt plutôt qu'un problème de modèle. Quand la Pertinence du Contexte est haute et la Fidélité basse, la réponse est presque toujours dans le prompt système, pas dans le modèle — les instructions sont trop molles pour maintenir le modèle à l'intérieur du contexte. Resserrez le prompt avant d'accuser le modèle.

9.4 Pertinence de la Réponse et le basculement sans référence

La Pertinence de la Réponse est la plus facile à malcomprendre. Elle ne mesure pas la correction, et elle ne mesure pas l'ancrage. Elle mesure si la réponse traite la question qui a été posée. Une réponse factuellement correcte qui répond à une question légèrement différente note mal. Un refus poli note mal. Le calcul standard est une inversion astucieuse : étant donné la réponse, générer les questions auxquelles elle pourrait plausiblement répondre, puis comparer ces questions générées à la question d'origine. Si elles sont proches, la réponse est dans la cible. Si elles dérivent, le modèle s'est éloigné.

La Pertinence de la Réponse est aussi là où le basculement sans référence mord le plus. Aucune de ces métriques ne peut être calculée en comparant contre une réponse correcte étiquetée — l'espace des réponses acceptables est infini et non énumérable. Le domaine a donc convergé sur LLM-juge : un modèle de pointe note chaque métrique en utilisant un prompt documenté. La technique passe à l'échelle. Elle est peu chère. Elle corrèle grossièrement avec le jugement humain. Elle a aussi des modes d'échec bien documentés — biais de position dans les comparaisons par paires, biais de longueur, biais de famille de modèles, dérive de calibration à travers les mises à jour silencieuses de modèles, et le problème plus profond que juges et générateurs partagent des corpus d'entraînement et échouent donc de manière corrélée. La défense n'est pas technique mais opérationnelle : épingler le modèle juge et le prompt, calibrer contre un petit ensemble étiqueté à la main, router une petite fraction des sorties jugées vers une revue humaine, et traiter tout changement de juge comme un événement de re-baselining qui invalide les comparaisons historiques.

À retenir : la valeur de la triade n'est pas les scores absolus, qui sont bruyants. C'est la structure des relations entre les scores. Quand les trois bougent ensemble, le système est sain ou malade dans son ensemble. Quand ils s'écartent, l'équipe apprend où chercher. Cette puissance diagnostique est ce qu'aucun nombre unique de bout en bout ne peut fournir.

Ce que prépare le Chapitre 9

La triade donne un vocabulaire de ce qu'il faut mesurer. Elle ne dit pas comment lancer effectivement les mesures — les prompts pour le juge, la logique de décomposition, le choix d'embedding, le taux d'échantillonnage, les tableaux de bord, les alertes. Rien de tout cela ne se construit de zéro. Au cours des deux dernières années, un petit nombre de frameworks ont émergé pour rendre la triade mesurable en pratique, chacun avec ses propres opinions sur ce à quoi l'évaluation de production devrait ressembler. Le Chapitre 10 les parcourt côte à côte.

Prochaine étape — Chapitre 10 : Les frameworks d'évaluation de référence. RAGAS, TruLens, DeepEval, et les plateformes d'observabilité — à quoi sert chacun, où s'arrêtent les bibliothèques centrées métrique et où commencent les plateformes de production, et l'écart d'évaluation qu'aucun d'eux n'a encore comblé.

Vous voulez le tableau complet ? Le livre parcourt le calcul exact de chaque métrique, les modes d'échec documentés du LLM-juge avec citations, la discipline de calibration qui garde les juges honnêtes, et les méthodes d'attribution de morceaux à la frontière. LLM Primer III sur Amazon →