Chapitre 2 — L'analyse intelligente de documents

Deuxième billet de la tournée chapitre par chapitre de LLM Primer III : Améliorer l'IA d'entreprise avec RAG. Un système de recherche hérite de la qualité de ses entrées — et la couche d'entrée est l'endroit où vit, le plus souvent en silence, la cause la plus fréquente d'une qualité RAG décevante.

Pourquoi ce chapitre existe

La première version d'un pipeline RAG utilise presque toujours l'utilitaire PDF-vers-texte qui traîne. Du texte qui semble plausible en sort, l'index se remplit, le modèle produit des réponses qui semblent plausibles. Quelques mois plus tard, l'équipe découvre que les tableaux ont été silencieusement aplatis en prose, que les articles à plusieurs colonnes ont été entrelacés ligne par ligne, que les notes de bas de page ont été insérées dans les paragraphes, et que les légendes de figures ont été perdues. Le plafond de qualité de la recherche a été fixé par ces décisions avant même que la recherche soit configurée. Ce chapitre consiste à prendre au sérieux la couche d'entrée, parce que rien en aval ne peut récupérer ce que le parseur a jeté.

En une ligne : un PDF est une spécification de positionnement, pas un fichier texte — et un parseur qui ne comprend pas la mise en page produit la transcription du fichier plutôt que la transcription du document.

2.1 Pourquoi aplatir un PDF perd ce qui compte

Un PDF est une liste de glyphes avec des coordonnées, dessinés sur des pages de dimensions déclarées. La structure visuelle qu'un humain voit — colonnes, tableaux, légendes, encadrés — n'est stockée nulle part sous forme sémantique. Elle existe dans l'image rendue. Donc « extraire le texte d'un PDF » est plus difficile qu'il n'y paraît : l'extracteur naïf lit le flux de glyphes dans l'ordre où les marques ont été tracées, ce qui, sur une page à deux colonnes, entrelace les colonnes ligne par ligne. Ce qui en sort est un texte grammaticalement bizarre et sémantiquement cassé, composé de vrais mots du vrai document — le genre d'échec difficile à repérer par sondage.

Les tableaux sont pires. Le sens du 1 427 en ligne 3, colonne 4, c'est l'intersection du T3 2024 et de la région Nord-Est. Pour un extracteur naïf, c'est un nombre sans relation avec aucune des deux chaînes, parce que ces chaînes ont été dessinées ailleurs sur la page. Le tableau se dissout en une liste de nombres séparés par des espaces, et les requêtes sur « le chiffre d'affaires Nord-Est au T3 » ne trouvent rien — le morceau qui contient 1 427 ne contient pas Nord-Est assez près pour qu'on les associe dans l'embedding. Les formulaires connaissent le même mode d'échec : étiquettes et valeurs sortent comme des chaînes déconnectées, et l'index contient désormais des valeurs sans leurs noms de champ. L'OCR sur des documents scannés ajoute des erreurs au niveau du caractère précisément sur les termes techniques et les noms propres — l'endroit où la recherche est la plus sensible à l'orthographe.

2.2 Analyse sensible à la mise en page : remettre les signaux en place

La réponse est une classe d'outils qui traitent le document comme un artefact à deux dimensions plutôt que comme un flux de glyphes. La page est rendue en image, un modèle de détection de mise en page la segmente en régions (paragraphes, tableaux, figures, en-têtes), l'ordre de lecture est reconstruit avec des heuristiques de mise en page documentaire, et les tableaux passent par des modèles spécialisés qui récupèrent la structure de lignes et de colonnes en HTML, Markdown ou JSON. La sortie n'est plus une chaîne plate — c'est une représentation structurée qui préserve la hiérarchie, lie les légendes à leurs figures, et expose des métadonnées sur lesquelles le découpeur en aval peut s'appuyer.

Le coût est en calcul — une à plusieurs secondes par page contre des millisecondes pour l'extraction naïve, ce qui compte pour des corpus à un million de pages. Et le mode d'échec change : un extracteur naïf qui massacre un tableau produit au moins du texte. Un parseur sensible à la mise en page qui identifie mal une région produit une sortie structurée potentiellement fausse avec confiance — une figure prise pour un tableau, un en-tête détecté comme du corps de texte. L'équipe doit échantillonner des pages complexes représentatives avant de faire confiance au pipeline à grande échelle.

2.3 Le paysage actuel des outils

Le terrain s'est consolidé autour d'une demi-douzaine d'outils qui méritent d'être connus. LlamaParse est le parseur hébergé de LlamaIndex — solide sur les tableaux et les formulaires, le bon défaut si vous êtes déjà dans l'écosystème LlamaIndex et que les services managés sont acceptables. Docling est le parseur sensible à la mise en page open source d'IBM, avec le modèle TableFormer pour les tableaux complexes, et c'est le choix naturel pour les déploiements sur site où les données ne peuvent pas quitter votre infrastructure. Unstructured optimise la largeur — nombreux formats d'entrée, modèle de partitionnement par éléments typés, interface aval cohérente — et c'est le premier choix le plus sûr pour les corpus d'entreprise hétérogènes. Marker-PDF fait une chose très bien : PDF vers Markdown propre, avec une attention particulière aux titres, listes et blocs de code. Firecrawl traite le problème d'entrée côté web — URL en entrée, Markdown propre en sortie, le boilerplate retiré. DeepSeek-OCR, sorti fin 2025, encode les pages en très peu de tokens visuels pour une consommation mémoire et calcul radicalement plus faible, et devient un concurrent sérieux quand le débit domine le budget.

L'évaluation pratique ressemble à ceci : prenez cinquante documents représentatifs couvrant la difficulté du corpus, faites tourner chaque outil dessus, comparez manuellement sur les dimensions qui comptent pour votre corpus — fidélité des tableaux, ordre de lecture multi-colonnes, précision de l'OCR sur les scans, traitement des figures, débit. Le gagnant est rarement le meilleur sur toutes les dimensions. Il est le meilleur sur les dimensions qui comptent le plus pour votre corpus, à un coût que votre budget peut absorber.

2.4 L'alternative multimodale

Une piste parallèle rejette le cadrage tout entier. Si un modèle vision-langage peut lire une page assez bien pour répondre à des questions à son sujet, pourquoi convertir en texte ? Les retrieveurs multimodaux à interaction tardive comme ColPali et ColQwen2 étendent l'idée de ColBERT aux images — un embedding par patch de la page, scoré contre les tokens de la requête par agrégation max-similarity. Le retrieveur fait remonter des pages que le seul contenu textuel n'aurait pas matchées, parce que l'information pertinente était dans un tableau, une figure, ou une mise en page que l'extraction de texte aurait massacrée. Le modèle vision-langage lit la page directement.

Le coût est substantiel et mérite d'être concret. Un morceau de texte standard produit un embedding d'environ 1 024 dimensions — quelques kilo-octets. Une page encodée par ColPali produit environ un millier d'embeddings de patches d'environ 128 dimensions — un demi-méga-octet par page. La taille d'index pour un million de pages passe de gigaoctets à des centaines de gigaoctets, le scoring est plus coûteux, et la génération exige un modèle vision-langage. Pour des corpus denses en tableaux et figures, le saut est réel. Pour des corpus dominés par la prose et serrés en budget, la recherche textuelle bien analysée reste le défaut économiquement raisonnable. Les configurations hybrides — ColPali pour la recherche, texte converti pour la génération, ou inversement — sont là où la plupart du RAG multimodal de production va se poser au cours de l'année qui vient.

À retenir : la cause la plus fréquente d'une qualité RAG décevante n'est ni le retrieveur, ni le reranker, ni le prompt — c'est le parseur. Les équipes voient « le modèle hallucine » et ajustent les prompts, alors que le vrai problème, ce sont des documents corrompus trois étapes en amont. Réparez l'analyse d'abord ; rien en aval ne récupère ce qui a été perdu en amont.

Ce que prépare le Chapitre 2

Une analyse propre et sensible à la mise en page est nécessaire pour un RAG de qualité et suffisante pour rien. Un document analysé reste un document — il doit être découpé en morceaux assez petits pour être embarqués et assez grands pour vouloir dire quelque chose. Le découpeur qui ignore les indices structurels du parseur jette ce que le parseur s'est donné la peine de préserver. Les deux couches doivent être conçues ensemble, et le Chapitre 3 parcourt le spectre du découpage et les techniques de pointe qui l'ont redessiné.

Prochaine étape — Chapitre 3 : Frameworks avancés de découpage. Le spectre du découpage du taille fixe au structurel, le mythe du recouvrement, la falaise de contexte, et les techniques de recherche contextuelle et de découpage tardif qui ont changé le calcul.

Vous voulez le tableau complet ? Le livre parcourt chaque outil avec des conseils concrets de fit corpus-outil, inclut un guide de versionnement de parseur pour garder l'index cohérent à travers les mises à jour, et traite les questions de résidence et de contrôle d'accès propres au multimodal qui apparaissent sur de vrais déploiements. LLM Primer III sur Amazon →