Chapitre 11 — Recherche de pointe

Ceci est la Partie 11 d'une série qui parcourt LLM Primer I: How Generative AI Works. Hier, nous avons couvert sécurité, éthique et confiance. Aujourd'hui, nous regardons vers l'avant. Le Chapitre 11 couvre les directions de recherche qui ont le plus façonné le domaine entre 2024 et 2026, et l'une d'entre elles en particulier a tout changé.

Mixture of Experts : production, pas recherche

Jusqu'à il y a quelques années, chaque LLM basé sur Transformer activait chaque paramètre pour chaque entrée. Un modèle de 70 milliards de paramètres utilisait les 70 milliards pour prédire chaque prochain token. C'est computationnellement gaspilleur — la plupart des paramètres ne sont pas pertinents pour la plupart des entrées.

Les architectures Mixture-of-Experts (MoE) corrigent cela. Le modèle contient de nombreux sous-réseaux spécialisés, appelés experts, mais seulement quelques-uns sont activés pour une entrée donnée. Un petit réseau de gating décide quels experts appeler. Le résultat est un modèle avec un nombre total de paramètres énorme — ce qui le rend capable — mais avec un calcul par token borné — ce qui le rend efficace.

Idée clé : MoE découple la capacité du calcul. Un modèle peut avoir 600 milliards de paramètres au total tout en n'activant que 30 milliards par token. C'est l'une des principales raisons pour lesquelles les modèles de frontière ont continué de s'améliorer alors que les coûts d'inférence n'ont pas grandi proportionnellement.

L'édition 2026 traite MoE comme une réalité de production plutôt que de la recherche parce que c'est ce que c'est devenu. Plusieurs familles majeures de modèles de frontière embarquent des architectures MoE. Le livre détaille comment fonctionne le routage, quels sont les défis d'équilibrage de charge, et pourquoi ce motif architectural va probablement dominer dans un avenir prévisible.

Mécanismes de mémoire

Les LLM standards ont un type de mémoire : les paramètres. Une fois l'entraînement terminé, le savoir du modèle est figé jusqu'au prochain run d'entraînement. La recherche sur les mécanismes de recherche et de mémoire essaie de donner aux modèles un second type de mémoire — externe, actualisable et interrogeable au moment de l'inférence.

RAG, que nous avons couvert au Chapitre 7, est l'implémentation la plus courante, mais cela fait partie d'une famille plus large. Les modules de mémoire différentiables permettent au gradient de circuler à travers les opérations de recherche, pour que le modèle puisse apprendre à récupérer efficacement. Les mécanismes de mémoire à long contexte compressent les portions antérieures de la conversation pour que le modèle puisse effectivement « se souvenir » de plus que ce que sa fenêtre de contexte permet. Le livre couvre chaque direction et discute ce qui est mûr versus spéculatif.

Multimodalité native

Les premiers modèles multimodaux utilisaient des encodeurs séparés pour la vision et le langage, cousus à une couche de fusion. La génération actuelle a évolué vers quelque chose de plus élégant : tokeniser images, audio et vidéo directement, et les faire passer par le même Transformer que le texte. L'architecture ne sait ni ne se soucie de quel type de token elle traite.

C'est pourquoi les modèles de frontière modernes peuvent mélanger les modalités en douceur dans une seule conversation, pourquoi un modèle peut regarder une photo et la décrire tout en poursuivant la conversation textuelle précédente, et pourquoi certains modèles acceptent désormais la vidéo comme entrée de première classe. Le livre détaille ce que ce changement architectural implique pour le budget de contexte, la latence et les types de tâches que vous pouvez lancer à ces systèmes.

Apprentissage continu, honnêtement

Presque chaque LLM livré est figé au moment de l'entraînement. Mettre à jour ses connaissances signifie un cycle complet de réentraînement ou d'affinage. L'apprentissage continu est la direction de recherche qui essaie de laisser les modèles mettre à jour leurs paramètres de façon incrémentale, en production, sans oublier ce qu'ils savaient déjà.

C'est plus dur qu'il n'y paraît. Le principal obstacle s'appelle l'oubli catastrophique : quand vous entraînez un réseau neuronal sur de nouvelles données, il tend à écraser les motifs qu'il avait appris depuis les anciennes données. Résoudre cela de façon fiable à grande échelle reste un problème ouvert. Le livre est honnête sur ce qui fonctionne et ce qui ne fonctionne pas, et pourquoi la plupart des systèmes de production reposent encore sur la recherche plutôt que sur l'apprentissage continu quand ils ont besoin d'information à jour.

Le nouvel axe de mise à l'échelle : modèles de raisonnement

C'est la section qui m'enthousiasme le plus dans l'édition 2026. Entre 2024 et 2026, une nouvelle famille de modèles a émergé — parfois appelés modèles de raisonnement, modèles de chain-of-thought ou modèles à scaling au moment de l'inférence. Ils ont changé la façon dont le domaine pense la capacité.

Le mécanisme est direct en grandes lignes. Un modèle de raisonnement est entraîné — typiquement par une combinaison d'optimisation de préférences et d'apprentissage par renforcement sur des tâches à résultats vérifiables — à générer de longues chaînes internes de tokens intermédiaires avant d'émettre sa réponse finale. Ces tokens intermédiaires fonctionnent comme une mémoire de travail. Ils permettent au modèle de décomposer les problèmes, d'explorer des approches candidates, de vérifier sa propre arithmétique ou logique, et de réviser quand il détecte des erreurs. L'utilisateur ne voit que la réponse finale ; le modèle a utilisé la trace intermédiaire pour y arriver.

Ce qui distingue cela du simple prompting de « chain-of-thought » est où vit la capacité. Le prompting de chain-of-thought amène un modèle généraliste à raisonner en façonnant son prompt. Les modèles de raisonnement sont entraînés à raisonner — le comportement est intégré dans la politique, pas dans le prompt.

Important : Le scaling au moment de l'inférence change la forme opérationnelle du système. La latence et le coût par requête ne sont plus fixes — ils varient d'un ordre de grandeur selon combien de raisonnement le modèle décide de faire. La conception d'application doit accommoder cette variabilité, avec des politiques de streaming, d'annulation et de timeout que les modèles pré-raisonnement nécessitaient rarement.

La capacité peut désormais être augmentée le long de deux axes largement indépendants. L'axe d'entraînement détermine ce que le modèle a appris depuis les données. L'axe d'inférence détermine combien de délibération le modèle applique à une entrée particulière. Un modèle plus petit autorisé à raisonner longuement peut parfois surpasser un modèle plus grand qui répond en une seule passe. Cela recadre tout le compromis échelle-coût qui a régi la sélection de modèles.

Directions futures

Le livre conclut le Chapitre 11 avec les questions ouvertes de recherche. Efficacité — faire plus avec moins de calcul. Raisonnement — rendre le modèle plus fiable dans la pensée multi-étapes. Alignement — garder un bon comportement à mesure que la capacité grandit. Architecture — si le Transformer reste dominant ou est remplacé par quelque chose de fondamentalement différent.

Aucune percée unique n'est attendue pour dominer les prochaines années. Le progrès viendra probablement de l'intégration de nombreuses techniques, chacune contribuant un morceau. C'est un récit moins satisfaisant que « la prochaine grande chose », mais c'est l'honnête.

Ce que prépare le Chapitre 11

À la fin du Chapitre 11, vous comprenez les principales directions de recherche qui façonnent le domaine aujourd'hui. Vous pouvez lire les annonces de nouveaux modèles de frontière et situer leurs affirmations architecturales correctement. Vous avez un cadre pour penser à ce qui vient ensuite — à la fois ce qui est probable et ce qui est incertain.

Prochaine étape — Chapitre 12 : Construire votre propre système LLM. Le chapitre final du livre. Demain, nous fermons la série avec ce qu'il faut pour construire effectivement un système LLM de bout en bout — jeux de données, pipelines d'entraînement, cadres d'évaluation, la pile intégrée et les motifs d'études de cas que les déploiements réussis partagent.

Vous voulez le tableau complet ? Le Chapitre 11 dans le livre est substantiellement étendu dans l'édition 2026, avec des sections dédiées aux modèles de raisonnement et à la multimodalité native qui n'existaient pas dans la première édition. Procurez-vous LLM Primer I sur Amazon →

Chapitre 11 — Recherche de pointe : MoE, modèles de raisonnement et le nouvel axe de mise à l'échelle