الفصل 10 — أطر التقييم الرائدة

المقالة العاشرة من الجولة الفصلية في LLM Primer III: Enhancing Enterprise AI with RAG. حيث تَحظى الثلاثية بصندوق أدوات — ثمانية أُطرٍ في نوعَين — واعترافٍ صادقٍ واحد بالجزء من التقييم الذي لم تَحُلَّه أيٌّ منها بعد.

لماذا يوجد هذا الفصل

قالت ثلاثية الفصل 9 ما يُقاس. ولم تَقُل شيئاً عن كيفية تَشغيل تلك القياسات في الإنتاج فعلاً. المقاييس مفاهيم. وتنفيذاتُها موجِّهاتٌ للحَكم، منطق تفكيكٍ للادعاءات، خيارات تضمينٍ للتشابه، استراتيجيات أَخذ عَيِّناتٍ للكلفة، لوحات، تنبيهات، وحلقات مراجعةٍ بشرية. لا فريقَ يَبني كل ذلك من الصفر.

انقسمت الأُطر على محورٍ يُعرَف. على جانب، مكتبات المقياس-أولاً — RAGAS وTruLens وDeepEval — تَحسب الثلاثية بمنهجيةٍ موثَّقة قابلة للتكرار. وعلى الجانب الآخر، منصات القابلية للملاحظة — Braintrust وLangSmith وPhoenix وGalileo وOpik — تَبدأ من آثار الإنتاج وتُدمج التقييم ميزةً واحدة في تدفقٍ أكبر. الاختيار بينهما أقل مقارنة ميزاتٍ وأكثر سؤالاً عما يَحتاج الفريق النظامَ ليَفعله في اليوم التالي للشَّحن.

في سطر واحد: اختر مكتبة مقياس-أولاً لأرقامٍ قابلة للدفاع، اختر منصة قابلية ملاحظةٍ للتدفق حولها، واقبل أن تَقييم طبقة الاسترجاع لا يزال مسؤولية الفريق لأن لا إطارٌ سَد فجوة التقييم بعد.

10.1 مكتبات المقياس-أولاً — RAGAS وTruLens وDeepEval

RAGAS أَقربُ شيءٍ يَملكه الميدان إلى تنفيذٍ مرجعي للثلاثية. مجموعة مقاييس مُحافِظة، موجِّهات موثَّقة، كل استدعاء LLM مكشوف. خط الأمانة سلسلةٌ ذات مرحلتَين — فَكِّك الإجابة إلى ادعاءات، افحص كل ادعاءٍ مقابل السياق — وقائمة الادعاءات الوسيطة تَعود في النتيجة، فيَستطيع مهندسٌ الإشارة إلى الادعاء بعينه الذي قَرَّر الإطار أنه غير مَدعوم. للأبحاث، الصناعات المُنظَّمة، أو أيِّ فريقٍ يَحتاج للدفاع عن منهجيته، RAGAS هو الافتراضي. الكلفة أنه يَشعر أكاديمياً. يَحسب المقاييس؛ ولا يَشحن لوحة.

TruLens يَقع بين مكتبة المقياس ومنصة القابلية للملاحظة. تركيزه على القياس: يَلف الإطار التطبيقَ على مستوى الدالَّة، يَلتقط كل استدعاء استرجاعٍ وكل استجابة نموذجٍ في أثرٍ مُهيكَل، ثم يُشغِّل الثلاثية على الآثار. مقاييس الثلاثية مكشوفةٌ دوالَّ تَغذية راجعة — وحداتٌ صغيرة قابلة للتركيب، يَسهل كتابة خاصتك. TruLens الاختيار الصحيح حين تَتجاوز حاجات التقييم في الفريق المجموعة المعيارية، أو حين يَتمحور التدفق حول فحص الإخفاقات الفردية لا اللوحات المُجمَّعة.

DeepEval يَأخذ موقفاً ثالثاً: تقييمٌ كـ pytest. تُكتَب حالات الاختبار وتُشغَّل بواجهة pytest-كأمر سطر؛ الإخفاقات تَحجب طلب الدمج؛ مجموعة المقاييس الأعرض من الثلاثة، تَحوي فحوصات تَحيُّز وسُمية وهلوسة إلى جانب الثلاثية. التَّضارب أن العرض يَأتي بصرامةٍ غير متساوية. اختر مقياساً من القائمة دون قراءة تنفيذه وقد تَنتهي مُبلِّغاً أرقاماً لا تَعني ما تَظن. الانضباط الصحيح أن تَختار مجموعةً صغيرة، اِقرأ الموجِّهات، عايِر مقابل وسومٍ يدوية، وعامل الباقي إلهاماً.

10.2 منصات القابلية للملاحظة — Braintrust وLangSmith وPhoenix وGalileo وOpik

تُجيب مكتبات المقياس-أولاً «كيف أَحسب الثلاثية». وتُجيب منصات القابلية للملاحظة «كيف أُشغِّل نظام RAG في الإنتاج». تَنطلق من افتراض أن الفريق سيَكتب موجِّهات، يُقارن نسخ نماذج، يَستوعب آثاراً، ويُراقب لوحاتٍ للمستقبل المنظور. التقييم ميزةٌ واحدة؛ إصدار الموجِّهات، استكشاف الآثار، اختبار A/B، والتنبيه جزءٌ متساوٍ من القيمة.

Braintrust يَقود بتجربة المُطوِّر — التجربة، سجلٌّ مُصدَّر لسلوك النموذج على مجموعة بيانات، مع فُرَقات درجاتٍ جنباً إلى جنب في واجهةٍ مُمتعة بصدق. LangSmith الخيار الطبيعي للفرق العميقة في LangChain؛ يَتوقع أن يكون في مركز قياس التطبيق ويُكافئ ذلك الالتزام بعمق. Phoenix، من Arize، الخيار مفتوح المصدر، مُتميِّز بتحليلِ انجراف التضمين وعنقدته اللذَين تَغفل عنهما الأخريات — جدير للفرق التي لا تَستطيع إرسال الآثار إلى نقطة SaaS. Galileo المنصة المُركَّزة على المؤسسات، بدرجةِ صحةٍ ملكية ونشرٍ داخل الموقع للصناعات المُنظَّمة. Opik، من Comet، أحدث الداخلين، مفتوح المصدر أولاً مثل Phoenix، مَصقول مثل Braintrust، مع الميزة الإضافية تَوحيد قابلية الملاحظة لـ LLM وML الكلاسيكي تحت منصةٍ واحدة.

الاختيار بين الخمسة أقل عن الميزات وأكثر عن الملاءمة التنظيمية. متجر LangChain يَمُد يده إلى LangSmith. فريق هندسة منتجٍ جديد يَمُد يده إلى Braintrust. فريقٌ مفتوح المصدر أولاً يَمُد يده إلى Phoenix. مؤسسةٌ مُنظَّمة تَمُد يدها إلى Galileo. متجر Comet يَمُد يده إلى Opik. جودة المقياس عبر الخمسة قابلة للمقارنة بشكلٍ عام — كلها تُنفِّذ الثلاثية، كلها تَستخدم LLM-كحَكم، كلها تَحمل القيود الأساسية نفسها التي سَمَّاها الفصل 9. الفروق تدفقات عمل، لا قياسات.

10.3 فجوة التقييم ونمط الحلقات الثلاث

هنا الحقيقة المُحرِجة التي جولة الأُطر طَفَّت عليها. كل أداةٍ أعلاه تقريباً تُقيِّم عند طبقة الاستدلال: مع افتراض أن الاسترجاع قد حدث، هل احترم النموذج القِطع، هل لاءَمت الإجابة السؤال، هل كانت القِطع في الموضوع. لا واحدة منها، بأيِّ معنىً عميق، تُخبرك ما إذا كان الاسترجاع قد وَجد القِطع الصحيحة في المقام الأول. مَخرَج المُسترجِع مُدخَل طبقة الاستدلال، ومقاييس طبقة الاستدلال تَقيس المَخرَج لا المُدخَل. إذا فَوَّت الاسترجاع وثيقةً مهمة باستمرار، تَبقى الأمانة عالية (احترم النموذج ما أُعطي)، وتَبقى ملاءمة الإجابة عالية (لاءَم الإجابة شكل السؤال)، ويَحصل المستخدمون على الإجابة الخاطئة على أيِّ حال.

هذه فجوة التقييم. السبب البنيوي أن تَقييم طبقة الاستدلال بلا مرجع، بينما يَحتاج تَقييم طبقة السياق الصارم معرفة ما هي القِطع الصحيحة — يَتطلب ذلك إما مجموعةً موسومة أو توليفية. الالتفافات — تَوليد أسئلةٍ توليفي، فحوصات إبرةٍ في كومة قش، وكلاء تأثيرٍ خَلفي، تَدقيق استرجاعٍ مَشروط بالاستعلام، استرجاعٌ مقابل الذات — كلها نافعة وكلها ناقصة. الخلاصة الصادقة أن تَقييم طبقة السياق هو الجبهة المفتوحة وعلى الفرق توقع استثمار بعضٍ من هندستها مباشرةً في جودة الاسترجاع. الأُطر تُساعد على حلقة الاستدلال؛ تَترك حلقة الاستدلال للفريق في الغالب.

النمط الذي تَتقارب عليه الفرق الناضجة ثلاث حلقاتٍ لا واحدة. الحلقة الداخلية: مكتبة مقياس-أولاً (عادةً RAGAS أو DeepEval) تُشغِّل الثلاثية على مجموعة انحدارٍ ثابتة عند كل تغييرٍ ذي معنى، سريعة وحتمية، مُوجَّهة لإمساك الانحدارات. الحلقة الخارجية: منصة قابلية ملاحظةٍ تُعالج تَخزين آثار الإنتاج، حساب المقاييس على الخط مقابل حركةٍ مُعَيَّنة، اللوحات، والتنبيهات — مُوجَّهة لانجرافٍ ستُفوِّته مجموعة الانحدار. الحلقة البطيئة: دالَّة مراجعةٍ بشرية صغيرة تُعايِر حُكام LLM، تَدقق الآثار المُعلَّمة، وتُصين مجموعة الانحدار مع تَطور المُنتج. فريقٌ بالحلقة الداخلية فقط يَشحن إنتاجاً منجرفاً. فريقٌ بالحلقة الخارجية فقط يَرى الانجراف لكنه لا يَستطيع تَنقيحه. فريقٌ بكلتَيهما دون مراجعةٍ بشرية يَثق بحُكَّامٍ يَنزلقون بهدوء. الثلاث ضرورية، وقيمة الأُطر هي كم تَجعل من كل حلقةٍ سهلاً.

يجدر بنا تذكُّره: الانضباط الذي يُمَيِّز الفرق التي تَشحن RAG موثوقاً هو مُعاملة التقييم بوصفه هندسة. المقاييس شيفرة. مجموعات الاختبار أصولُ بيانات. الحُكَّام اعتماديات. المعايرة صيانةٌ مُتكررة. الأُطر تَجعل ممارسة هذا الانضباط أرخص؛ ولا واحدة منها تَستبدله.

ما يُمهِّد له الفصل 10

بين ثلاثية الفصل 9 وأُطر الفصل 10، يَمتلك الفريق ما يَحتاجه لـ قياس نظام RAG: مفردات، محاسبة صادقة لما تُغفله المفردات، ومجموعة صغيرة من الأدوات تُحوِّل القياسات إلى لوحات. سيكون النظام مَقروءاً. لكن القياس نصف قصة الإنتاج. نظامٌ يُقاس ولا يُصان سيَنحدر على أيِّ حال، لأن الوثائق تَتغير والمستخدمون يَتغيرون والنماذج الكامنة تَتغير. معرفة أن الجودة هَبطت ليست مُماثلة للقدرة على استعادتها.

التالي — الفصل 11: التحديثات المستمرة وتحسين الخط. CDC والفهرسة التزايدية، التَّخزين المؤقت الدلالي وتَدريج النماذج، وحلقة التَّغذية الراجعة الرباعية المراحل التي تُحوِّل قياسات الإنتاج إلى نوع النظام الذي يَتحسن فعلاً كلما طال تَشغيله.

هل تريد الصورة الكاملة؟ يَحمل الكتاب المقارنة إطاراً-بإطار أبعد — تَوليد بيانات اصطناعية، بنية كلفة، قابلية نقل الموجِّهات، تبعات الإقفال لنموذج بيانات كل منصة — ويَسلك نشراً مَلموساً ثلاثي الحلقات استعملته فرقٌ عَملت معها. عرض LLM Primer III على أمازون ←