الفصل 9 — ثلاثية تقييم RAG

المقالة التاسعة من الجولة الفصلية في LLM Primer III: Enhancing Enterprise AI with RAG. حيث تَنطوي ثلاثة إخفاقاتٍ مختلفة في عَرَضٍ واحد — ويَخترع الميدانُ مقياساً ثلاثي الرؤوس يُخبر الفريقَ أخيراً أيُّ عَرَضٍ أيُّ.

لماذا يوجد هذا الفصل

يَستطيع نظام RAG الفشل في ثلاثة أماكن مختلفة، ومن الخارج تَبدو الإخفاقات متطابقة. المُسترجِع يَجلب السياق الخاطئ. النموذج يَتجاهل السياق الصحيح. النموذج يَحترم السياق لكنه يُجيب عن سؤالٍ مختلف عن الذي سُئل. كل فريق إنتاجٍ، في وقتٍ ما، حاول إصلاح أحد تلك الإخفاقات بينما يَقيس آخر. هذا الفصل عن المفردات الصغيرة العنيدة التي تَمنع ذلك الخطأ.

هو أيضاً فصلٌ عن تَحوُّل. كان استرجاع المعلومات الكلاسيكي يُقيَّم مقابل حقيقةٍ أرضية موسومة — استعلامات بوثائق صحيحة معلومة، دقة واستدعاء يُحسَبان مقابل الوسوم. RAG يَعمل في عالمٍ لا توجد فيه مثل تلك الوسوم. الأسئلة مفتوحة، الإجابات تَوليدية، السياق ذو الصلة هو ما يَحتاجه النموذج في تلك اللحظة. صُمِّمت الثلاثية لهذا العالم. تَقيس الاتساق بين المراحل، لا التوافق مع مرجع.

في سطر واحد: الصحة ثلاثة أرقامٍ لا واحد — ملاءمة السياق للاسترجاع، الإسناد للتوليد، ملاءمة الإجابة للملاءمة بين السؤال والإجابة — ثلاثتها تُحسَب بلا مرجعٍ بحَكم LLM يَجب على الفريق إبقاؤه أميناً.

9.1 لماذا ثلاث إشاراتٍ لا واحدة

غريزة فريقٍ جديد تَقدير الإجابة النهائية. كَتب المستخدمُ سؤالاً، أَنتج النظامُ استجابة، إما الاستجابة صحيحة أو لا. تَفشل الغريزة لأن الإجابة النهائية مُركَّبٌ من كل مرحلة، وحين تَفشل، لا يُخبرك المُركَّب شيئاً عن أيِّ مرحلةٍ تُصلِح. هل فُوِّتت الوثيقة الصحيحة؟ أَاستُرجِعت وأُهمِلت؟ أَاستُخدِمت لكن أُجيب بها عن سؤالٍ مختلف؟ ثلاثة أخطاءٍ مختلفة، ثلاثة إصلاحاتٍ مختلفة، عَرَضٌ واحد غير قابل للتمييز.

تَفصل الثلاثية الخط إلى الأماكن الثلاثة التي تَنجو فيها المعلومة أو تُفقد. استرجاع، إسناد، إجابة. كلٌّ يَحظى بمقياسه: ملاءمة السياق، الإسناد، ملاءمة الإجابة. ما يَجعل البنية نافعة ليس أن الثلاثة شاملة — ليست كذلك — بل أنها مستقلة. يَستطيع نظامٌ التَّسجيلَ جيداً على واحدٍ وسيئاً على آخر، وحين يَفعل، يَعرف الفريق أين يَنظر. حين يُشحَن نموذج تضمينٍ جديد، يَجب أن تَتحرك ملاءمة السياق. حين يُشحَن موجِّهٌ جديد، يَجب أن يَتحرك الإسناد. حين يَتحرك المقياس الذي يَجب أن يَتحرك، يَعرف الفريق أن التغيير عَمل. مقياس طرفٍ إلى طرفٍ واحد يَنطوي على كل هذا في شيءٍ لا يُمكن تَنقيحه.

9.2 ملاءمة السياق — هل استرجعت السياق الصحيح؟

تَسأل ملاءمة السياق ما إذا كانت القِطع المُستَرجَعة عن السؤال، جملةً جملة، يُسجِّلها حَكم LLM. تَلتقط دقة الاسترجاع — كسرَ نافذة السياق المَصروف على مادةٍ ذات صلة. دَرجةٌ عالية تَعني أن المُسترجِع لا يُهدِر رموزاً. دَرجةٌ منخفضة تَعني أنه يَجلب ضوضاءَ، ويَدفع النموذج ثمن تلك الضوضاء في زمن الاستجابة والجودة معاً، لأن السياقات الطويلة غير ذات الصلة أُظهرت مراراً أنها تُخفِّض جودة التوليد.

ما لا تَلتقطه ملاءمة السياق هو الاستدعاء — ما إذا كانت كل القِطع التي كان النموذج سيَحتاجها قد استُرجِعت فعلاً. مُسترجِعٌ يَجلب قطعةً واحدة مثالية ولا شيء غيرها يُسجِّل بكمال، حتى لو احتاجت الإجابة اثنتَين وفُوِّتت الثانية. الاستدعاء مشكلته الخاصة، تُقاس مقابل مجموعاتٍ ذهبية مُنسَّقة معلوم فيها الوثائق الحاملة للإجابة. الفصل يُسمي أيضاً قطعتَين أَثرتَين تَستحق معرفتهما: التقطيع العنيف يَنفخ ملاءمة السياق دون تَحسين الإجابة بالضرورة، والمتوسط غير المُرجَّح على أعلى-k ثابت قد يَجعل مُسترجِعاً يَبدو سيئاً حين تكون القِطع غير ذات الصلة في المواضع من أربعة إلى عشرة بالكاد تُؤثر على النموذج.

9.3 الإسناد — هل احترم النموذج السياق؟

الإسناد، يُسمى أحياناً الأمانة، يَسأل العكس: من بين الادعاءات التي أَنتجها النموذج، أيُّ كسرٍ يُمكن دَعمه من السياق المُستَرجَع. الحساب المعياري يُفكِّك الإجابة إلى ادعاءاتٍ ذرية ويَسأل الحَكم، لكلٍّ منها، ما إذا كان السياق يَدعمها. التفكيك هو الجزء الذي يَهم. إجابةٌ طويلة تُقيَّم ككتلةٍ واحدة تَنزع للتسجيل إما كاملة الإسناد أو كاملة عدمه، مع حسم الحَكم نحو أيِّ اتجاهٍ يَميل إليه الجوهر العام. الادعاءات الذرية تُجبر الحَكم على تقييم كل تأكيدٍ مستقلاً — وهو ما يُمسك الفشل الشائع حيث تَحوي إجابةٌ صحيحة في مُعظمها جملةً واحدة لم يَدعمها السياق قط.

الفصل صادقٌ عن تَضارب الإسناد: يَعاقب الاختراع لا الإغفال. نموذجٌ يَرفض الإجابة يُسجِّل بكمال. ونموذجٌ يُعطي إجابةً صحيحةً ومُسنَدة لكنه يَترك تَحفظاً حاسماً من السياق يُسجِّل حسناً أيضاً. وهو أيضاً المقياس الأكثر احتمالاً لإظهار مشكلة موجِّهٍ لا مشكلة نموذج. حين تكون ملاءمة السياق عالية والإسناد منخفض، تكون الإجابة شِبه دائماً في موجِّه النظام، لا في النموذج — التعليمات أَلين من أن تُبقي النموذج داخل السياق. اِشدُد الموجِّه قبل أن تَلوم النموذج.

9.4 ملاءمة الإجابة والتَّحوُّل بلا مرجع

ملاءمة الإجابة أَسهل الثلاثة سوء فهم. لا تَقيس الصحة، ولا تَقيس الإسناد. تَقيس ما إذا كانت الإجابة تُعالج السؤال الذي سُئل. استجابةٌ صحيحة وقائعياً تُجيب عن سؤالٍ مختلفٍ قليلاً تُسجِّل سيئاً. ورفضٌ مُهذَّب يُسجِّل سيئاً. الحساب المعياري قَلبٌ ذكي: مع الإجابة، وَلِّد الأسئلة التي يُمكن لها أن تكون استجابةً معقولة لها، ثم قارن تلك الأسئلة المُولَّدة بالأصلي. إن كانت قريبة، فالإجابة على الهدف. إن انجرفت، فالنموذج تاه.

ملاءمة الإجابة هي حيث يَعَض التَّحوُّل بلا مرجعٍ أقوى. لا يُمكن حساب أيٍّ من هذه المقاييس بمقارنتها بإجابةٍ صحيحة موسومة — فضاء الإجابات المقبولة لانهائي وغير قابلٍ للعد. لذا تَقارب الميدانُ على LLM-كحَكم: نموذج جبهةٍ يُقدِّر كل مقياسٍ باستخدام موجِّهٍ موثَّق. التقنية تَتسع. هي رخيصة. وتَرتبط تقريباً بحُكم البشر. ولها أيضاً أنماط فشلٍ موثَّقة — انحياز موقعي في المقارنات الزوجية، انحياز للطول، انحياز عائلة النموذج، انجراف معايرةٍ عبر تحديثات نموذجٍ صامتة، والمشكلة الأعمق أن الحَكَم والمولِّد يَتقاسمان مكتبات تدريبٍ ولذلك يَفشلان بطرقٍ مُرتبطة. الدفاع ليس تقنياً بل تشغيلياً: ثَبِّت نموذج الحَكم وموجِّهه، عايِر مقابل مجموعةٍ صغيرة مَوسومة يدوياً، وَجِّه كسراً صغيراً من المَخرَجات المُقيَّمة إلى مراجعةٍ بشرية، وعامل أيَّ تَغييرٍ في الحَكم حدث إعادة خط أساسٍ يُلغي المقارنات التاريخية.

يجدر بنا تذكُّره: قيمة الثلاثية ليست الدرجاتُ المُطلَقة، التي تَكون مَشوبة. هي بنيةُ العلاقات بين الدرجات. حين تَتحرك الثلاث معاً، النظام صحيٌّ أو مريضٌ ككل. وحين تَتحرك متفرقة، يَتعلم الفريق أين يَنظر. تلك القوة التشخيصية ما لا يَستطيع أيُّ رقمٍ منفرد من طرفٍ إلى طرف تَوفيرَها.

ما يُمهِّد له الفصل 9

تُعطي الثلاثية مفرداتٍ لما يُقاس. لا تَقول كيف تُشغَّل القياسات فعلاً — موجِّهات الحَكم، منطق التفكيك، اختيار التضمين، معدل العَيِّنة، اللوحات، التنبيهات. لا شيء من ذلك يُبنى من الصفر. على مدى السنتَين الماضيتَين، نَشأ عددٌ صغير من الأُطر لجَعل الثلاثية قابلة للقياس عملياً، كلٌّ بآرائه عن كيف ينبغي أن يَشعر تقييم الإنتاج. يَسلك الفصل 10 خلالها جنباً إلى جنب.

التالي — الفصل 10: أطر التقييم الرائدة. RAGAS وTruLens وDeepEval ومنصات القابلية للملاحظة — لما الغرض من كلٍّ منها، أين تَنتهي مكتبات المقياس-أولاً وتبدأ منصات الإنتاج، وفجوة التقييم التي لم تَسدها أيٌّ منها بعد.

هل تريد الصورة الكاملة؟ يَخوض الكتاب الحساب الدقيق لكل مقياس، وأنماط فشل LLM-كحَكم الموثَّقة مع استشهاداتٍ، وانضباط المعايرة الذي يُبقي الحَكَم أميناً، وطُرُق إسناد القِطع على الجبهة. عرض LLM Primer III على أمازون ←