الفصل 2 — التحليل الذكي للوثائق
المقالة الثانية من الجولة الفصلية في LLM Primer III: Enhancing Enterprise AI with RAG. نظامُ الاسترجاع يَرث جودةَ مدخلاته — وطبقة المُدخلات هي حيث يَقطن بصمتٍ السببُ الأكثر شيوعاً لخيبة جودة RAG.
لماذا يوجد هذا الفصل
النسخة الأولى من خط RAG تَستعمل دائماً أداةَ تحويل PDF إلى نصٍّ كانت تَحت يدها. يَخرج نصٌّ يَبدو معقولاً، ويَمتلئ الفهرس، ويُنتج النموذج إجاباتٍ تَبدو معقولة. بعد أشهر يَكتشف الفريق أن الجداول سُطِّحت بصمتٍ إلى نثر، وأن الأوراق متعددة الأعمدة تَداخلت سطراً بسطر، وأن الحواشي اندمجت بالفقرات، وأن تسميات الأشكال فُقدت تماماً. سقفُ جودة الاسترجاع كان قد ضُبط بهذه القرارات قبل تكوين الاسترجاع. والفصلُ عن أَخذ طبقة المُدخلات بجدية، لأن لا شيء لاحقاً يَستطيع استرداد ما تَخلَّص منه المُحلِّل.
2.1 لماذا يَفقد تسطيح PDF ما يهم
ملفُ PDF قائمةٌ من المحارف بإحداثيات، تُرسَم على صفحاتٍ ذات أبعادٍ معلَنة. البنية البصرية التي يَراها الإنسان — أعمدة، جداول، تسميات، أشرطة جانبية — ليست مَخزونةً بأيِّ شكلٍ دلالي. هي موجودة في الصورة المُصيَّرة. لذا «استخرج النص من PDF» أصعبُ مما يبدو: المُستخرِجُ الساذج يَقرأ تدفقَ المحارف بالترتيب الذي رُسمت به، فيتداخل العمودان في صفحةٍ ذات عمودين سطراً بسطر. ما يَخرج نصٌّ غريب القواعد مُكسَّر الدلالة مُؤلَّفٌ من كلماتٍ حقيقية من الوثيقة الحقيقية — نوعُ الفشل الذي يَصعب رصده في فحصٍ سريع.
الجداول أسوأ. معنى 1,427 في الصف 3 والعمود 4 هو تقاطع الربع الثالث 2024 ومنطقة الشمال الشرقي. أمام المُستخرِج الساذج، هو رقمٌ بلا علاقةٍ بأيٍّ من السلسلتَين، لأن السلسلتَين رُسمتا في مكانٍ آخر من الصفحة. يَذوب الجدول في قائمةٍ من الأرقام تَفصلها مسافات، والاستعلامات عن «إيرادات الشمال الشرقي في الربع الثالث» لا تَجد شيئاً — القطعة التي تَحوي 1,427 لا تَحوي «الشمال الشرقي» قريباً منها بما يَكفي لربطهما في التضمين. وللنماذج الشكلية الفشلُ المُماثل: تُنتَج العناوين والقيم سلاسلَ مُنفصلة، ويَحوي الفهرس قيماً بلا أسماء حقولها. ويُضيف OCR على المسحوبات الورقية أخطاءً حرفية بدقةٍ على المصطلحات التقنية والأسماء الخاصة — المكان الذي يكون فيه الاسترجاع أحسسَ ما يكون بالإملاء.
2.2 التحليل الواعي بالتخطيط: إعادة الإشارات
الاستجابة فئةٌ من الأدوات تُعامل الوثيقة بوصفها قِطعةً ثنائية الأبعاد لا تدفقاً للمحارف. تُصيَّر الصفحة صورة، ويُقسِّمها نموذج كشف تخطيطٍ إلى مناطق (فقرات، جداول، أشكال، رؤوس)، ويُعاد بناء ترتيب القراءة باستخدام حُدوس تخطيط الوثائق، وتَمر الجداول عبر نماذج متخصصة تَستعيد بنية الصفوف والأعمدة إلى HTML أو Markdown أو JSON. الخرَجُ لم يَعُد سلسلةً مسطَّحة — هو تمثيلٌ مُهيكَل يَحفظ التسلسل الهرمي، ويَربط تسميات الأشكال بأشكالها، ويَكشف بياناتٍ وصفية يَستطيع المُقطِّع التالي القَسم عليها.
الثمن حساب — ثانية إلى عدة ثوانٍ للصفحة بدل أجزاء الثانية للاستخراج الساذج، وهو مُهم لمكتباتٍ مليون الصفحة. ويَتغير نمط الفشل: مُستخرِجٌ ساذج يُشوِّش جدولاً يُنتج نصاً على الأقل. ومُحلِّلٌ واعٍ بالتخطيط يَخطئ في تَعريف منطقةٍ يُنتج مَخرَجاً مُهيكَلاً قد يكون خاطئاً بثقة — شكلٌ ظُن جدولاً، أو رأسٌ كُشف بوصفه متناً. يَحتاج الفريقُ أن يَفحص بنفسه صفحاتٍ تمثيلية معقدة قبل أن يَثق بالخط على نطاقٍ واسع.
2.3 مشهد الأدوات الحالي
تَوحَّد الميدانُ حول نصف دزينة من الأدوات يَستحق معرفتها. LlamaParse هو المُحلِّل المُستضاف من LlamaIndex — قويٌّ على الجداول والنماذج، الخيار الافتراضي الصحيح إذا كنت داخل منظومة LlamaIndex والخدمات المُدارة مقبولة. Docling هو مُحلِّل IBM مفتوح المصدر الواعي بالتخطيط، مع نموذج TableFormer الذي يُعالج بُنى الجداول المعقدة، وهو الخيار الطبيعي للنشر داخل الموقع حيث لا يَجوز للبيانات أن تَغادر بنيتك. Unstructured يُحسِّن للعَرض — صيغُ مُدخلات كثيرة، نموذج تقسيمٍ بعناصر مُصنَّفة، واجهة لاحقة موحَّدة — وهو أأمنُ خيارٍ أوَّل لمكتبات المؤسسة المتغايرة. Marker-PDF يَفعل شيئاً واحداً بإتقان: PDF إلى Markdown نظيف، مع عناية خاصة بالعناوين والقوائم وكتل الشيفرة. Firecrawl يُعالج مسألة المُدخل من جهة الويب — رابطٌ يَدخل، Markdown نظيف يَخرج، مع شطب القوالب. DeepSeek-OCR، أُطلق في أواخر 2025، يُرمِّز الصفحات إلى رموز رؤيةٍ قليلة جداً ليُخفِّض الذاكرة والحساب جذرياً، وهو المُتنافس الجدي حين يَحكم الإنتاجية الميزانية.
التقييم العملي يَبدو هكذا: خُذ خمسين وثيقةً تمثيلية تَمتد على نطاق صعوبة المكتبة، شغِّل كل أداة عليها، وقارن يدوياً على الأبعاد التي تَهم مكتبتك — أمانة الجدول، ترتيب قراءة الأعمدة المتعددة، دقة OCR على المسحوبات، معالجة الأشكال، الإنتاجية. الفائز نادراً ما يكون الأفضل في كل بُعد. هو الأفضل في الأبعاد الأكثر أهميةً لمكتبتك، بكلفةٍ تَستوعبها ميزانيتك.
2.4 البديل المتعدد الوسائط
مسارٌ موازٍ يَرفض الإطار كله. إذا كان نموذج لغة-رؤية يَستطيع قراءة صفحةٍ بما يَكفي للإجابة عن أسئلةٍ حولها، فلِمَ التحويل إلى نص أصلاً؟ تمتد المُسترجِعاتُ المتعددة الوسائط ذات التفاعل المتأخر مثل ColPali وColQwen2 فكرةَ ColBERT إلى الصور — تضمينٌ لكل بقعةٍ من الصفحة، يُسجَّل أمام رموز الاستعلام عبر تجميع الحد الأقصى للتشابه. يُظهر المُسترجِع صفحاتٍ ما كان مُحتواها النصي وحده ليُطابقها، لأن المعلومة ذات الصلة كانت في جدولٍ أو شكلٍ أو تخطيطٍ كان الاستخراج النصي ليُشوِّشه. ويَقرأ نموذج اللغة-الرؤية الصفحة مباشرة.
الكلفة كبيرة وتَستحق التحديد. قطعةٌ نصية معيارية تُنتج تضميناً واحداً بنحو 1,024 بُعداً — بضع كيلوبايتات. وصفحةٌ مُرمَّزة بـ ColPali تُنتج نحو ألف تضمين بقعٍ بنحو 128 بُعداً — نصف ميغابايت للصفحة. يَنمو حجم الفهرس لمليون صفحة من غيغابايتات إلى مئاتٍ من الغيغابايتات، يَصير التسجيل أغلى، ويَلزم التوليدَ نموذجُ لغةٍ-رؤية. لمكتباتٍ كثيفة الجداول والأشكال، الترقية حقيقية. ولمكتباتٍ نثريةٍ هيمنةً بميزانيةٍ ضيقة، استرجاع نصٍّ مُحلَّل حسناً لا يزال الافتراضي المُجدي. والتكوينات الهجينة — ColPali للاسترجاع، ونصٌّ مُحوَّل للتوليد، أو العكس — هي حيث سيَستقر مُعظم RAG متعدد الوسائط الإنتاجي في السنة المقبلة.
ما يُمهِّد له الفصل 2
تحليلٌ نظيفٌ واعٍ بالتخطيط لازمٌ لجودة RAG العالية وغير كافٍ لشيء. الوثيقة المُحلَّلة لا تزال وثيقة — يَتعين تقطيعها قطعاً صغيرة بما يَكفي للتضمين وكبيرة بما يَكفي لتُعني شيئاً. المُقطِّع الذي يَتجاهل إشارات بنية المُحلِّل يَتخلَّص مما عمل المُحلِّل ليَحفظه. الطبقتان لازم تَصميمهما معاً، والفصل 3 يَسلك طيف التقطيع والتقنيات الطليعية التي أعادت تشكيله.
التالي — الفصل 3: أطر التقطيع المتقدمة. طيف التقطيع من الحجم الثابت إلى الواعي بالبنية، خرافة التراكب، حافة السياق، وتقنيتا الاسترجاع السياقي والتقطيع المتأخر اللتان غيَّرتا الحسبة.