الفصل 1 — تطوُّر بنية RAG

المقالة الأولى من الجولة الفصلية في LLM Primer III: Enhancing Enterprise AI with RAG. حيث يَتبين أن للمحدودَيتَين البنيويتَين للنموذج الأساسي — معرفةٌ مُجمَّدة وانعدام إثبات المصدر — إجابةً معماريةً واحدة، وأن هذه الإجابة قد أنبتت أربعة وجوهٍ في ثلاث سنوات.

لماذا يوجد هذا الفصل

للمُحوِّل المُدرَّب على مكتبةٍ ثابتة قَيدان لا يَمحوهما أيُّ قدرٍ إضافي من التدريب. تَنتهي معرفته يوم انتهت تلك المكتبة. ولا يستطيع أن يُخبرك من أيِّ وثيقةٍ أتت جملةٌ بعينها، لأن الجملة معدَّلٌ إحصائي على كثيرين، لا اقتباسٌ من أحد. القَيد الأول يُنتج إجاباتٍ خاطئةً بثقة عن كل ما هو حديث. والثاني يُنتج استشهاداتٍ خاطئةً بثقة. ويُنتجان معاً المرضَ المؤسسي الذي صار مألوفاً: إجابةٌ تَقرأ كأنها سُلطة وتُحيل إلى بندٍ غير موجود.

RAG هو الإجابة المعمارية على كلَيهما معاً. تَتوقف عن مطالبة النموذج بأن يعرف كلَّ شيءٍ سلفاً، وتبدأ بأن تُسلِّمه المادة ذات الصلة وقتَ الاستدلال، مُسترجَعةً من مكتبةٍ تُسيطر عليها أنت. تتحدَّث المكتبة دون إعادة تدريب. وتَصير الفقرات المُسترجَعة استشهاداتٍ لأنك أَحضرتها قصداً. وتَنكمش مهمة النموذج من الاستذكار إلى التركيب. وبقيةُ الفصل هي قصة كيف نَمَت تلك الحركة البسيطة، على مدى ثلاث سنوات، إلى أربع بنيات متزايدة القدرة.

في سطر واحد: المواقف الأربعة لـ RAG — الساذج، المُتقدِّم، الوحدي، الوكيلي — قصةٌ عن تسليم المزيد من الصلاحيات إلى LLM قراراً تلو قرار، والتعقيد التشغيلي يَتدرَّج مع كل تسليم.

1.1 RAG الساذج: ضمِّن، استرجع، احشُ

أبسط الأشكال هو ما يَصفه كل درسٍ تعليمي علني حتى اليوم. خارج الإنتاج: قسِّم المكتبة قِطعاً، ضمِّن كل قطعة، وأكتب الأشعَّة في فهرس. عند الإنتاج: ضمِّن الاستعلام، اجلب أقرب k قِطعةً، ادمجها في الموجِّه، أرسلها إلى النموذج، أعِد الإجابة مع القِطع كاستشهادات. استدعاءا دالَّةٍ وبحثُ شعاع.

العرض يعمل. والمنتج نادراً ما يَعمل. تشابه الجار الأقرب وكيلٌ للملاءمة لا قياسٌ لها، ونماذج التضمين المُدرَّبة على نصٍّ ويبٍّ عام تَخلط بين غَلَّات بستان التفاح وأرباح Apple الفصلية. وللمُقطِّع لا إشارة عن أين تنتهي الجمل أو أين تبدأ الجداول. واسترجاعٌ واحد لا يخدِم سؤالاً تَنتشر إجابته في ثلاث وثائق. وحين يفشل الاسترجاع، يُركِّب النموذج مما عاد إليه — والاستشهادات حقيقية، لكنها لا تَدعم شيئاً من الإجابة.

1.2 RAG المُتقدِّم: حُدوسٌ حول الخط نفسه

يَحتفظ الموقف الثاني بعمود الفقري ضمِّن-استرجع-ولِّد ويُضيف معالجةً قبل استدعاء الاسترجاع وبعده. تَستهدف تَحسينات ما قبل الاسترجاع الاستعلام: إعادة الصياغة، التوسعة، التفكيك، HyDE (صياغة إجابةٍ افتراضية وتضمين تلك كاستعلام). وتَستهدف تَحسينات ما بعد الاسترجاع المرشَّحين: مُرمِّز متقاطع لإعادة الترتيب يُسجِّل الاستعلام والفقرة معاً بدل تضمينهما منفصلَين، إزالة التكرار، تَرشيح بالبيانات الوصفية، ضغط السياق.

والمكاسب ليست صغيرة. مُرمِّزٌ متقاطع لإعادة الترتيب فوق مُسترجِعٍ شعاعي يَنقل ملاءمةَ أول 5 من نطاق 50–70% إلى 75–90%. وتُضيف إعادة صياغة الاستعلام خمس إلى عشر نقاطٍ أخرى حين كانت الصياغة الأصلية ملتبسة. ومُعظم أنظمة الإنتاج الموسومة ببساطة بـ«RAG» اليوم تَعمل بهذه البنية، ولفئةٍ واسعة من مشكلات المؤسسات — سؤال وجواب على التوثيق الداخلي، صرف طلبات الدعم، البحث في قاعدة المعرفة — هي المستوى الصحيح من الاستثمار. ما لا تُعطيه هذه البنية مرونة. كل استعلامٍ ما زال يَسلك الخط نفسه.

1.3 RAG الوحدي: مكوِّناتٌ قابلة للتركيب، توجيهٌ صريح

بحلول عام 2024، تَقاربت الأبحاث والأدوات على RAG الوحدي. التقنيات نفسها لا تزال حاضرة، لكنها مكشوفةٌ كمكوِّناتٍ مُنفصلة قابلة للاستبدال، والخط يُجمَّع لكل طلب. مُوجِّهٌ يُقرِّر أيَّ المسترجِعات يَستدعي — قد يكون فهرساً شعاعياً كثيفاً، أو فهرس BM25، أو مخزن SQL، أو واجهة برمجة خارجية — وتُدمَج النتائج، غالباً بدمج الرُّتب التبادلي. ويُختار مُعيد الترتيب بحسب نوع الاستعلام. ويُختار المولِّد بحسب درجة الجودة المطلوبة. صارت البنية رسماً بيانياً للمكوِّنات لا خطاً من المراحل.

عَواقبُ عمليتان. أولاً، صار النظام قابلاً للاختبار بطريقةٍ لم تكنها المواقف السابقة — كل مكوِّنٍ يُقيَّم ويُستبدل مستقلاً. ثانياً، النظام قابل للضبط بحسب فئة الاستعلام: استعلامُ حقيقةٍ يسلك مُسترجِعاً سريعاً ومولِّداً صغيراً، وتركيبٌ متعدد الوثائق يَسلك عدة مُسترجِعات وكبيراً، كلٌّ يَخدُم من مكتبة المكوِّنات نفسها. الثمن تشغيلي. حين تكون الإجابة خاطئة، صار للسؤال أين أخطأنا؟ إجاباتٌ كثيرة، ويَحتاج الفريق إلى أجهزة قياسٍ تُحدِّد الفشل في مكوِّنٍ بعينه. استثمر في القابلية للملاحظة قبل البنية الوحدية، لا بعدها.

1.4 RAG الوكيلي: LLM يُدير الخط

يَقلب الموقف الرابع افتراضاً ظَلت المواقف الثلاثة السابقة تَتقاسمه بصمت — أن LLM هو الخطوة الأخيرة. في RAG الوكيلي، يُدير LLM الخط. مع قائمة أدوات (بحث شعاعي، SQL، جلب من الويب، مُعيد ترتيب، حاسبة)، يُفكِّر النموذج، يَختار أداة، يُلاحظ النتيجة، يُفكِّر ثانية، ويَنتهي حين تكون لديه إجابة أو يَبلغ حدَّ الخطوات. لم تَعُد البنية خطاً بل صارت برنامجاً صغيراً يَكتبه النموذج من جديد لكل استعلام.

يَشتري هذا تخطيطاً متعدد الخطوات، اختياراً ديناميكياً للأدوات، وأنماط تنسيقٍ متعددة الوكلاء كالمخطِّط/المُسترجِع/الناقد/الكاتب. ويُكلِّف زمنَ استجابة، صرفَ رموز، وقابليةَ تَكرار — صار الاستعلام الواحد شجرةَ قرارات لا تَسلسلاً ثابتاً، والاستعلامات المَرَضية قد تَستهلك دوراتٍ كثيرة في التخبط قبل إنتاج إجابة. وتَحتاج أنظمة الإنتاج الوكيلية إلى ضوابط ميزانية، حدود خطوات، وسياسات مهلٍ زمنية لم تكن الخطوط الثابتة تَفكر فيها. الاستخدام الصحيح أسئلةٌ يَتغير عمقها ويَصعب التنبؤ به: تركيب أبحاث، بحثٌ قانوني في السوابق، مراجعة أدبيات. والاستخدام الخاطئ روبوتُ دعمٍ ساكن، حيث تُضيف الحلقة الوكيلية تباينات لم يَكن العمل بحاجة إليها.

يجدر بنا تذكُّره: اقرأ المواقف الأربعة كسؤالٍ واحدٍ مكرَّر — أين يَقطن الذكاء في النظام؟ في RAG الساذج، في النموذج وحده. في المُتقدِّم، أيضاً في الحُدوس حوله. في الوحدي، أيضاً في التوصيلات. في الوكيلي، في الحلقة نفسها. كل خطوةٍ تُسلِّم المزيد من الصلاحيات إلى LLM وتَدفع ثمنها تعقيداً تشغيلياً. اختر الموقف للمشكلة، لا للسنة.

1.5 RAG مقابل الضبط الدقيق

السؤال الذي يَطرحه كل فريقٍ في نهاية المطاف. الصياغة الصادقة أنهما يَحلَّان مشكلتَين مختلفتَين. يُعالج RAG مشكلات معرفة — النموذج لا يعرف س، وس يَتغير، والمستخدم يَحتاج استشهاداً. ويُعالج الضبط الدقيق مشكلات سلوك — النموذج يعرف الإجابة لكنه يُقدِّمها بصيغة خاطئة، يَرفض اتباع قالب الشركة، أو يَستطرد حيث ينبغي الإيجاز. RAG رخيصٌ في الإعداد وغالٍ لكل استعلام. والضبط الدقيق غالٍ مرةً ورخيصٌ لكل استعلام. RAG يَتطور بدقائق (غيِّر وثيقة)؛ والضبط الدقيق يَتطور بأيام. حدسٌ نافع: إذا كان الفشل أن النموذج لا يعرف، مُد يدك إلى RAG. وإذا كان أن النموذج يعرف لكنه يَفعل خطأً، مُد يدك إلى الضبط الدقيق. كثيرٌ من الأنظمة الناضجة تَفعل الاثنَين في النهاية، لكن ابدأ بـ RAG — مُعظم إخفاقات المؤسسات إخفاقات معرفة، لا إخفاقات سلوك.

ما يُمهِّد له الفصل 1

كل بنية RAG — أياً من الأربعة اخترت — تَنحدر من قدرتها على قراءة وثائقها المصدرية. خطٌّ وحديٌّ متطورٌ مع مُنسِّقٍ وكيلي ما زال يَعمل على قِطعٍ خرجت من خطوة تحليلٍ في مكانٍ ما أعلى. إذا فقدت تلك الخطوة بنية الجدول، أو خلطت ترتيبَ قراءة الأعمدة، أو استبدلت تسميات الشكل بنص OCR مشوَّش، فكل مكوِّنٍ لاحق يَستدل على مُدخلٍ فاسد. البنية تَضع سقف النظام. والمُحلِّل يَضع أرضه. وفي مُعظم أنظمة الإنتاج، الأرض أكثر أهميةً، لأن مُعظم أنظمة الإنتاج بعيدةٌ كثيراً عن السقف.

التالي — الفصل 2: التحليل الذكي للوثائق. لماذا تُدمِّر أداةُ تحويل PDF إلى نصٍّ ساذجةٌ جودةَ الاسترجاع بصمت، وما الذي يَحفظه فعلاً التحليلُ الواعي بالتخطيط، والبديل المتعدد الوسائط الذي يَسترجع على صور الصفحات مباشرة.

هل تريد الصورة الكاملة؟ يَخوض الكتاب كلَّ موقفٍ من الأربعة بأمثلة عملية تَتبع فيها استعلاماً واحداً عبر كلٍّ منها، ويَحوي مصفوفة قرار RAG-مقابل-الضبط الدقيق الكاملة، ويُعالج RAFT (الضبط الدقيق المعزز بالاسترجاع) باعتباره النمط الناضج الذي يَجمع الاثنَين. عرض LLM Primer III على أمازون ←