الفصل 3 — أطر التقطيع المتقدمة

المقالة الثالثة من الجولة الفصلية في LLM Primer III: Enhancing Enterprise AI with RAG. حيث تَعمل الخيارات الساذجة بصمتٍ أقصى على إفساد كل ما يَلي — وحيث غيَّرت تقنيتان حديثتان ما هو ممكنٌ على الجبهة.

لماذا يوجد هذا الفصل

بمجرد تحليل الوثائق، يكون القرار التالي هو الأخطر أيضاً: كيف نُكسِّرها قطعاً صغيرةً بما يَكفي للتضمين وكبيرةً بما يَكفي لتَظل تُعني شيئاً بنفسها. هذا هو التقطيع. قطعةٌ تَفصل تعريفاً عن قيده ستُسترجَع بثقةٍ وتكون خاطئة. وقطعةٌ تَحزم خمسة مواضيع غير متصلة تُمدِّد كل تضمينٍ تَلمسه. ونظام الاسترجاع المُقام فوقها لا يَستطيع استرداد إلا ما حَفظَته خطوة التقطيع، وأنماط الفشل هنا هادئة — لا يزال المُسترجِع يُعيد مرشَّحين، ولا يزال النموذج يُنتج إجاباتٍ طلِقة، ولا يَلحظ إلا المستخدمُ أن الإجابات خاطئةٌ بهدوء.

في سطر واحد: التقطيع في جوهره مشكلة تَوسيم، لا مشكلة قَطع — القطعة وحدةُ استرجاع، ووحدة الاسترجاع تَحتاج إلى سياقٍ ذاتيِّ الاحتواء يَكفي لإيجادها.

3.1 طيف التقطيع

يَنفع ترتيبُ الاستراتيجيات بقدر ما تَعرف الوثيقة. في طرفٍ، التقطيع بالحجم الثابت لا يَعرف شيئاً — احصِ الرموز، اقطع. سريع، حتمي، ومقبول للنصوص القصيرة المتجانسة أسلوبياً (محادثات، مدخلات FAQ، آراء العملاء). على وثائق تقنية مُهيكَلة هو كارثةٌ هادئة. التقطيع التراجعي يُطبِّق قائمة فواصل مُرتَّبة بالأولوية — فقرات، ثم فواصل سطور، ثم جمل، ثم كلمات — يَقطع على أعلى حدٍّ يَنطبق ضمن الحجم المُستهدف. أرخص بقليلٍ من الحجم الثابت وأحسن كثيراً. هذا الافتراضي الصحيح لمعظم الفرق.

التقطيع الدلالي يَنقل القرار من النحو إلى المعنى: ضمِّن كل جملة، اِمشِ على التَّسلسل، علِّم حدود المواضيع حيث يَنخفض تشابه الجمل المتجاورة دون عتبة. يَعمل حسناً على نثرٍ طويل حيث الإشارات البنيوية ضعيفة (تقارير محلِّلين، نصوص مقابلات) ويَعمل سيئاً على وثائق تقنية مُهيكَلة حيث الإحالات المتقاطعة الكثيفة والقوالب المُكرَّرة تُربك تضمينات الجُمل. التقطيع الواعي بالبنية يُعامل الوثيقة المُحلَّلة شجرةً ويَقطع على ضوئها — بحسب القسم، بحسب مستوى الرأس، بحسب دالَّة الشيفرة. مُطبَّقاً جيداً هو أكثر أشكال التقطيع وفاءً؛ ومُطبَّقاً دون مُحلِّلٍ واعٍ بالتخطيط أعلى يُنتج ما لا يَختلف عن التقطيع التراجعي، لأن البنية لم تُستخرج قط. هذه الأربعة بدائل، لا حُزَمٌ تَنشرها معاً.

3.2 خرافة التراكب وحافة السياق

تَنصح كل دروسٍ تعليمية تقريباً بتراكب قطعٍ بنسبة 15–20%. الحدسُ صحيحٌ بقدر ما يَذهب — التراكب يَحول دون خسائر الحدود — لكن المُنحنى يَستوي بسرعة. أول 10% يَستعيد مُعظم النفع. بعد 25% تقريباً، الدقة ثابتةٌ تقريباً بينما الكلفة تَرتفع على ثلاثة محاور: فواتير التضمين تَتناسب مع عدد القطع، وحجم الفهرس وزمن الاستعلام يَنمو، وتبدأ أعلى نتائج المُسترجِع تَكون شبه مُكرَّرات. استعلامُ مستخدمٍ يُطابق فقرةً في القطع أ وب وج؛ تَستهلَك نافذةُ السياق دون وصول معلومةٍ جديدة؛ ويُنفِق مُعيد الترتيب ميزانيته في إعادة ترتيب صيغٍ من المحتوى نفسه. فريقٌ يَمد يده إلى تراكب 30–40% عليه أن يُعامل ذلك إشارةً أن المُقطِّع خاطئ، لا أن التراكب مُنخفض جداً.

مرتبطٌ بذلك ومُتميز عنه هو حافة السياق: الانخفاضُ الحاد في جودة الاسترجاع حين تَفقد القطعةُ مُصطلحاتِ المرسى التي جَعَلتها قابلةً للإيجاد. فقرةٌ تَفتح بـ«تَعديل 2023 لسياسة 47-ب اشترط على كل الفروع أن…» ثم تَصف الشرط في جملٍ لاحقة. اقطع بعد الافتتاح، والقطعة الواصفة للشرط لم تَعُد تَذكر السياسة ولا التعديل ولا السنة. سَتُسترجَع بثقةٍ لاستعلاماتٍ غير متصلة وتُفوِّت القانونيةَ منها. الاسترجاعُ أعلى-k — إما تَطفو القطعة أو لا، دون انحدارٍ تدريجي. الحافةُ هي نمط الفشل المُهيمن في المكتبات التقنية، حيث تَحمل الضمائر والصيغ المختصرة الفاعل المُسبق طوال قسمٍ ما.

3.3 ملاءمة حجم القطعة لنوع الاستعلام

كثيراً ما يُناقَش حجم القطعة كأن لها إجابةً واحدة. ليس كذلك، لأن الإجابة الصحيحة تَتعلَّق بأيِّ استعلاماتٍ سيَستقبل النظام. استعلامُ حقيقةٍ — «ما الخصم على سياسة 47-ب في 2024؟» — يُريد 150–300 رمزاً، ضيقاً بما يَكفي للدقة، واسعاً بما يَكفي لإزالة اللبس. واستعلامُ تَعليلٍ — «لخِّص التغييرات بين 2023 و2024 واشرح كيف تُؤثر على التجديد» — يُريد 800–1,200 رمزاً للحفاظ على النسيج الرابط داخل القسم. الحجم الأمثل يَختلف بمعامل 4–8 بينهما، وحركة الإنتاج عادةً مزيج.

استجابتان مُنتجَتان. الفهرسة متعددة الحبات تُخزِّن المكتبة نفسها بأحجام قطعٍ متعددة وتُوجِّه الاستعلامات بحسب تَصنيف القصد. الاسترجاع الهرمي يُفهرس قطعاً صغيرة للدقة لكنه يُعيد أقسامها الأم للسياق — فهرسٌ واحد، يُكيَّف وقت الاستعلام، أكثر شيوعاً في الإنتاج لأنه يَنحدر بلطفٍ حين يكون تَصنيف القصد خاطئاً. نمط الوثيقة-الأم هو من أعلى التقنيات قيمةً في أدبيات الاسترجاع الإنتاجية.

3.4 الاسترجاع السياقي والتقطيع المتأخر

الجبهةُ هي إدراك أن القطعة والتضمين شاغلان قابلان للفصل. تَستغل تقنيتان حديثتان هذا الفصل في اتجاهَين متعاكسَين. الاسترجاع السياقي، الذي عممَّته Anthropic في 2024، يُرسل كل قطعةٍ مع الوثيقة كاملةً إلى LLM رخيص ويَطلب وَصفاً من جملةٍ أو جملتَين لمكان القطعة — «هذه القطعة تَناقش تغيير حسابات الخصم المُقدَّم في تعديل 2024 لسياسة 47-ب» — ثم يُلحقه بنص القطعة قبل التضمين. تَصير القطعة قابلةً للإيجاد لاستعلاماتٍ ما سَمَّاها النصُّ الكامن قط. المكاسب المُبلَّغة نحو 49% خفض في إخفاقات الاسترجاع على تقييم Anthropic، أكثر مع بحثٍ هجين وإعادة ترتيبٍ فوق ذلك. الحيلة التي تَجعله اقتصادياً هي تَخزين الموجِّهات: أَرسل الوثيقة مرةً، عالِج كل قطعةٍ مقابل النسخة المُخزَّنة.

التقطيع المتأخر، أَدخَلَته Jina AI في 2024، يُهاجم المشكلة نفسها من الجهة المُعاكسة. تَمر الوثيقة الكاملة عبر نموذج تضمينٍ طويل السياق في مرورٍ واحد، فيُنتج تضميناتٍ على مستوى الرمز سيقت بالفعل عبر الوثيقة كاملةً. عندئذٍ فقط تُقطَّع الوثيقة، ويُجمَّع تضمين كل قطعةٍ من رموزها المُسيَّقة الآن. لا استدعاءات LLM إضافية؛ تَرث التضميناتُ سياقَ الوثيقة ضمنياً. القَيد أن نموذج التضمين عليه دعمها أصلياً (jina-embeddings-v3/v4 وبعض نماذج البحث تَفعل) وأن تَلائم الوثيقة نافذة النموذج. للوثائق التي تَلائم، يُطابق التقطيع المتأخر الاسترجاع السياقي بكسرٍ من كلفة الفهرسة. وللوثائق التي لا تَلائم، الاسترجاع السياقي أعم. التقنيتان ليستا متبادلتَي الإقصاء، وأنظمة الإنتاج الجدية كثيراً ما تُشغِّل كلتَيهما مع خطوة إزالة تكرارٍ فوقهما.

يجدر بنا تذكُّره: اختبارٌ مفيدٌ لأيِّ قطعةٍ في أيِّ نظام إنتاج — لو قَرأها غريبٌ دون أيِّ سياقٍ آخر، أيستطيع قول من أيِّ وثيقةٍ أتت، وأيِّ موضوعٍ تُعالج، وأيِّ دورٍ تَلعب؟ إن كانت الإجابة لا، فالقطعة في الجهة الخاطئة من الحافة، والاسترجاع عليها يَعمل بالحظ. وُجد الاسترجاع السياقي والتقطيع المتأخر ليَجعلا الإجابة نعم على نطاقٍ واسع.

ما يُمهِّد له الفصل 3

يُحوِّل التقطيع وثيقةً مُحلَّلة إلى تَجمُّعٍ من الوحدات القابلة للاسترجاع. كل وحدةٍ تَحتاج إلى مكانٍ تَسكن فيه — مُخزَّنة، مُفهرسة، مُستعلَمة بزمن استجابةٍ مُنخفض، مُحدَّثة كلما تَغيرت المكتبة. ذاك المكانُ هو قاعدة البيانات الشعاعية، واختيار قاعدة البيانات الشعاعية قرارٌ من نوعٍ مختلف عن قرار التقطيع. التقطيع مشكلة برمجيات بكلفة برمجيات. واختيار قاعدة البيانات مشكلة برمجيات بعواقب بنيوية وتشغيلية وتنظيمية، والاختيار الخاطئ قد يَستغرق ستة أشهرٍ للتراجع.

التالي — الفصل 4: اختيار قاعدة البيانات الشعاعية المناسبة. البنى المُصمَّمة لغايتها مقابل بنى الامتدادات، والقادة المُدارون، والميدان مفتوح المصدر، والمحاور الثلاثة — الإقامة والتشغيل والكلفة الإجمالية — التي تَحسم الخيار الحقيقي عادةً.

هل تريد الصورة الكاملة؟ يَخوض الكتاب سطحَ كلفة التقطيع بصدق — كلفة وقت الفهرسة مقابل كلفة لكل استعلام، اقتران نموذج التضمين، أنماط الحبات المتعددة — ويَحوي تشخيص استدعاء النسخ المُكرَّرة وقالب موجِّه الاسترجاع السياقي اللذَين يُغلقان الحافة بنظافة في الإنتاج. عرض LLM Primer III على أمازون ←