Chapitre 7 — Au-delà de la prédiction du prochain token

Ceci est la Partie 7 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons couvert toute la pile d'adaptation — des prompts à l'alignement. Aujourd'hui, nous étendons le LLM au-delà de la pure génération. Embeddings, recherche, mémoire hybride et le passage aux entrées multimodales.

Embeddings : le sens comme géométrie

Si la force d'un Transformer est de produire des représentations internes riches pour chaque token, la question naturelle suivante est : et si nous utilisions ces représentations directement, au lieu de comme une étape vers la génération de texte ?

C'est l'idée derrière les embeddings. Un modèle d'embedding prend un morceau de texte — un mot, une phrase, un paragraphe, un document — et produit une liste de nombres (typiquement de quelques centaines à quelques milliers) qui capture son sens. Deux morceaux de texte avec des sens similaires produisent des listes de nombres similaires. Deux avec des sens différents en produisent de différentes.

Une fois que vous avez des embeddings, vous pouvez faire des choses remarquables. Vous pouvez rechercher des documents par sens plutôt que par mot-clé : demandez « comment annuler mon abonnement » et trouvez des pages qui parlent de « mettre fin à mon plan » ou « interrompre le service » même quand aucun mot ne correspond. Vous pouvez regrouper des documents par sujet sans étiquettes. Vous pouvez détecter des doublons, trouver des quasi-correspondances et router des requêtes vers le bon système.

Idée clé : Les embeddings sont le pont entre les modèles de langage et la recherche. Ils transforment le sens en géométrie, et une fois que le sens est géométrie, chaque algorithme standard de recherche et de clustering devient disponible.

Génération versus recherche

La génération et la recherche sont souvent présentées comme des approches concurrentes, mais elles ne le sont pas. La génération invente du texte à partir de motifs intériorisés. La recherche sélectionne du texte existant depuis un corpus stocké. Chacune a ses forces.

La génération est créative, flexible et capable de produire des réponses à des questions que personne n'a jamais posées. Elle est aussi capable de produire avec assurance des réponses fausses — le modèle n'a aucun moyen de vérifier ce qu'il dit. La recherche est l'opposé : limitée à ce qui est dans la bibliothèque, mais ancrée dans du matériel source réel et vérifiable.

Le mouvement intéressant est de les combiner. Un modèle qui récupère d'abord puis génère peut produire du texte fluide, sur le sujet, personnalisé, tout en restant ancré dans de vrais documents. C'est le motif de conception central qui a émergé pour les systèmes LLM de production.

Mémoire hybride : le modèle plus une bibliothèque

Le livre traite cela comme un concept architectural majeur plutôt qu'une technique unique. L'idée est de donner au modèle deux types de mémoire. Sa mémoire paramétrique vit dans ses poids entraînés — large, dense, mais figée au moment de l'entraînement. Sa mémoire non paramétrique vit dans un stockage externe — étroit, spécifique et actualisable en temps réel.

Quand une requête arrive, le système la convertit en embedding, recherche dans le stockage externe du matériel pertinent, et transmet à la fois la requête originale et le matériel récupéré au modèle. Le modèle compose alors une réponse en utilisant les deux — sa large compréhension du langage et l'information spécifique et actuelle qu'il vient de recevoir.

Ce motif a des conséquences pratiques. Mettre à jour les connaissances sur lesquelles un système peut répondre ne nécessite plus de réentraînement ; vous mettez à jour le stockage externe. Les citations deviennent possibles parce que le système sait dans quel document il a puisé. La calibration de la confiance s'améliore parce que le modèle peut savoir s'il avait du contexte pertinent ou non.

RAG, plus en détail

L'implémentation la plus courante de ce motif hybride s'appelle Retrieval-Augmented Generation, ou RAG. Cela vaut la peine de comprendre les étapes réelles, parce que la plupart des assistants IA de production avec lesquels vous travaillerez sont des systèmes RAG sous le capot.

Le flux est direct. D'abord, vous convertissez votre base de connaissances en embeddings — documentation, messages clients, wikis internes — et stockez les embeddings dans une base de données vectorielle. Ensuite, quand une requête arrive, vous la convertissez en embedding de la même manière et trouvez les top-k morceaux les plus similaires de votre base de connaissances. Troisièmement, vous assemblez un prompt qui inclut la question de l'utilisateur et les morceaux récupérés, et l'envoyez au modèle. Quatrièmement, le modèle génère une réponse en utilisant le matériel récupéré comme contexte ancré.

Chaque étape a des subtilités qui déterminent si le système fonctionne bien ou mal. Le chunking — comment vous découpez vos documents sources — importe énormément. Le reranking — comment vous choisissez quels candidats récupérés entrent vraiment dans le prompt — importe plus que les gens ne le réalisent. Le livre détaille ce qui marche et ce qui ne marche pas, basé sur de vrais déploiements.

Important : La plupart des déploiements d'IA d'entreprise qui échouent n'échouent pas à la couche du modèle. Ils échouent à la couche de recherche. Le modèle produit une sortie qui a l'air correcte, mais le contexte récupéré ne contenait en réalité pas la bonne information, et le modèle — fluide comme jamais — a quand même fabriqué une réponse au son plausible.

Extensions multimodales

Le Chapitre 7 se conclut en étendant le cadre au-delà du texte. Les images, l'audio et la vidéo peuvent tous être tokenisés — convertis en séquences de petits morceaux que la même machinerie Transformer peut traiter. Un encodeur de vision transforme une image en séquence de patchs. Un encodeur audio transforme le son en séquence de vecteurs de caractéristiques. Les deux peuvent être alignés avec les embeddings textuels pour que le modèle puisse raisonner à travers les modalités.

La première génération de systèmes multimodaux utilisait des encodeurs séparés pour chaque modalité et cousait les sorties à une couche de fusion. La génération actuelle est plus élégante : elle traite toutes les modalités comme juste plus de types de tokens alimentés dans un seul Transformer partagé. C'est pourquoi les modèles de frontière modernes peuvent mélanger en douceur texte, images et parole dans une seule conversation.

Ce que prépare le Chapitre 7

À la fin du Chapitre 7, vous comprenez comment les LLM deviennent utiles dans la nature. Vous pouvez raisonner sur le pipeline embeddings → recherche → génération qui alimente la plupart de l'IA d'entreprise. Vous pouvez lire les annonces de modèles multimodaux et les situer correctement dans l'évolution architecturale. Et vous avez les outils conceptuels pour concevoir ou évaluer un système RAG pour votre propre travail.

Prochaine étape — Chapitre 8 : Utiliser les LLM dans les applications. Demain, nous passons à la pratique. Chatbots, résumé, génération de code, extraction de connaissances, évaluation et la montée des systèmes agentiques où le modèle est le contrôleur, pas le contrôlé.

Vous voulez le tableau complet ? Le livre parcourt le pipeline embeddings/recherche/génération en détail avec des diagrammes du flux RAG, les compromis à chaque couche et le changement architectural multimodal visualisé clairement. Procurez-vous LLM Primer I sur Amazon →

Chapitre 7 — Au-delà de la prédiction du prochain token : embeddings, recherche et multimodalité