Introduction aux LLM

Cette page fournit un guide facile à comprendre sur les LLM (grands modèles de langage) des bases aux applications pour les passionnés d'IA.

Total de 20 articles disponibles. | Actuellement à la page 1 de 1.

Chapitre 15 — API serverless vs infrastructure dédiée

Quinzième billet du LLM Primer VI. Le calcul du seuil de rentabilité, la ligne d'ingénierie plateforme sous-estimée, et pourquoi la posture réaliste est presque toujours hybride.

2026-05-07

Chapitre 14 — Économie du token et tarification des API

Quatorzième billet du LLM Primer VI. Pourquoi la sortie coûte 4–8× l'entrée, comment l'accumulation de contexte grossit la facture, et pourquoi les tokens de raisonnement invisibles surprennent.

2026-05-06

Chapitre 9 — Décodage spéculatif

Neuvième billet du LLM Primer VI. La faille mathématique du goulot séquentiel de l'autoregression, les brouillons EAGLE/Medusa/MTP, et l'arithmétique du moment où la spéculation paie.

2026-05-01

Chapitre 2 — Le défi du cache KV

Deuxième billet du LLM Primer VI. La formule mémoire du cache KV, les arbitrages MHA/GQA/MQA, et pourquoi l'allocation naïve détruit la concurrence avant que le calcul ne devienne le goulot.

2026-04-24

Chapitre 1 — La mécanique de la génération de tokens

Premier billet de la tournée du LLM Primer VI. La boucle autoregressive, le contraste préremplissage/décodage, et pourquoi un utilisateur seul laisse un H100 inactif à 99,7 pour cent.

2026-04-23

LLM Primer VI — Introduction de la série & index

Introduction à la tournée chapitre par chapitre du LLM Primer VI : Mettre à l'échelle les systèmes IA. L'inférence LLM traitée comme une discipline d'ingénierie où bande passante mémoire, ordonnancement et lignes de facture se rencontrent.

2026-04-22

Chapitre 10 — Mémoire de tâche à long horizon

Dixième billet de la tournée du LLM Primer IV. Mémoire à court terme par fenêtres et scratchpads ReAct, mémoire à long terme par vecteurs épisodiques et stores sémantiques, et les techniques de compaction qui maintiennent un agent productif sur des heures et des jours.

2026-04-08

Chapitre 8 — Topologies de déploiement architecturales

Huitième billet de la tournée du LLM Primer IV. Les trois topologies de déploiement qui ont émergé dans l'écosystème MCP — agent réutilisable, pureté stricte, hybride — et les quatre contraintes contraignantes qui décident laquelle convient à quel projet.

2026-04-06

Chapitre 6 — Stratégies d'orchestration fondamentales

Sixième billet de la tournée du LLM Primer IV. Les deux formes fondatrices d'orchestration — pipelines séquentiels et scatter-gather concurrent — et la question préalable que toute équipe devrait poser : un système multi-agents est-il bien la bonne réponse ?

2026-04-04

Chapitre 4 — Primitives du client : comportements agentiques et contrôle

Quatrième billet de la tournée du LLM Primer IV. Sampling, Roots et Elicitation sont les trois petits trous contrôlés que MCP perce dans le mur entre l'hôte et le serveur — chacun une capacité concédée en retour, chacun un risque accepté au nom de l'utilisateur.

2026-04-02

Chapitre 1 — La crise d'intégration de l'IA et l'essor de l'architecture agentique

Premier billet de la tournée du LLM Primer IV. Pourquoi les agents monolithiques s'effilochent à mesure que les prompts système grossissent, le problème d'intégration N fois M qui se cache en dessous, et le passage de l'ingénierie de prompt à l'ingénierie de contexte que MCP a été conçu pour rendre possible.

2026-03-30

LLM Primer IV — Introduction de la série et index

Lancement de la tournée chapitre par chapitre du Livre IV de la série LLM Primer — Concevoir la cognition de l'IA avec MCP. Pourquoi les agents ont besoin d'une couche protocolaire pour dépasser le stade de la démo, à qui ce livre s'adresse, et le calendrier des quatorze billets qui suivent, du 30 mars au 12 avril.

2026-03-29

Chapitre 11 — Évaluation, Calibration et Inférence

Chapitre 11 de la série LLM Primer II. Le chapitre où l'on demande comment quiconque peut mesurer une machine capable de dire n'importe quoi — et où l'on découvre qu'un modèle confiant est souvent un modèle mal calibré. Perplexité, calibration, barres d'erreur des benchmarks, et la géométrie de la recherche pour contrôler les hallucinations.

2026-03-13

Chapitre 10 — Mathématiques du Post-Entraînement et de l'Alignement

Chapitre 10 de la série LLM Primer II. Le chapitre où un prédicteur du prochain mot brillant mais sauvage est civilisé en assistant utile — affinage supervisé, modélisation de la récompense, RLHF tenu en laisse par KL, et la dérivation élégante de DPO qui fait disparaître tout le pipeline de RL.

2026-03-12

Chapitre 11 — Recherche de pointe : MoE, modèles de raisonnement et le nouvel axe de mise à l'échelle

Chapitre 11 de la série LLM Primer I. Les frontières de recherche qui sont désormais réalité de production — mixture-of-experts, mémoire augmentée par recherche, tokenisation multimodale native, apprentissage continu et le paradigme de scaling au moment de l'inférence qui a produit les modèles de raisonnement d'aujourd'hui. Le plus grand ajout de contenu de l'édition 2026.

2026-02-28

Chapitre 9 — Performance, mise à l'échelle et coûts : les vrais compromis d'ingénierie

Chapitre 9 de la série LLM Primer I. Les réalités opérationnelles de faire tourner les LLM à l'échelle — taille du modèle vs capacité, le compromis latence-throughput, économie des coûts, quantification et déploiement edge. Pourquoi les modèles de frontière sont souvent le mauvais choix même quand vous pouvez vous les permettre.

2026-02-26

Chapitre 4 — L'architecture Transformer : dans le moteur de l'IA moderne

Chapitre 4 de la série LLM Primer I. Une tournée du bloc Transformer — comment le self-attention, le positional encoding et les couches empilées se combinent pour produire l'architecture sur laquelle est construit chaque LLM moderne. Avec une explication claire de pourquoi le scaling des Transformers fonctionne, et ce qu'il coûte.

2026-02-21

Chapitre 3 — Réseaux neuronaux pour le langage : des RNN au self-attention

Chapitre 3 de la série LLM Primer I. Pourquoi les réseaux feedforward ne pouvaient pas gérer le langage, comment les RNN ont buté contre un mur, et ce que l'attention a changé. Une progression conceptuelle nette à travers les trois formes de réseaux neuronaux qui ont défini le NLP moderne — sans l'anxiété mathématique.

2026-02-20

Chapitre 2 — Probabilité, tokens et texte : le jeu de la devinette du mot suivant

Chapitre 2 de la série LLM Primer I. Comment les LLM convertissent le texte en tokens, pourquoi la modélisation du langage est fondamentalement un problème de probabilité, et comment l'ancienne approche par n-grammes a cédé la place à des modèles neuronaux capables de généraliser. Avec des explications en langage simple sur la perplexité et pourquoi les frontières de tokens comptent.

2026-02-19

La Série LLM Primer — Un guide de terrain de l'IA générative, construit volume après volume

La série LLM Primer — un guide de terrain en sept volumes désormais complet sur l'IA générative par Sho Shimoda. Des fondamentaux à la sécurité. Comprend Physical AI comme volume compagnon. Les 7 volumes disponibles sur Amazon.

2026-02-15