الفصل 4 — اختيار قاعدة البيانات الشعاعية المناسبة

المقالة الرابعة من الجولة الفصلية في LLM Primer III: Enhancing Enterprise AI with RAG. الجزء من نظام RAG الذي يَنمو أسرع، ويُكلِّف أغلى عند الحجم، ويُقيِّد الفريق أشد — يُختار على معايير تقنية ويُحسَم على معايير تشغيلية.

لماذا يوجد هذا الفصل

قاعدة البيانات الشعاعية هي طبقة التخزين لنظام الاسترجاع، والاختيار قرارٌ متعدد المحاور — أداء، إقامة بيانات، شكل الفريق التشغيلي، الكلفة الإجمالية للملكية على مدى حياة النظام. خيارٌ خاطئ يُقيِّد لسنواتٍ مقبلة، لأن نَقل مليار تضمينٍ بين أنظمة مشروعٌ لا يَتولاه أيُّ فريقٍ بخفة. المقارنات التقنية نافعة، لكن الخيار عادةً يُحسَم على المحاور الثلاثة التي تَتجنَّبها المقارنات التقنية: أين يَجوز للبيانات أن تَقطن، وما يَستطيع الفريق تَشغيله، وما يُكلِّفه النظام على مدى حياته.

في سطر واحد: قاعدة البيانات الشعاعية الصحيحة هي التي يُلائم شكلها التشغيلي شكلَ الفريق وقصة إقامتها يُلائم المحيط التنظيمي — أداء المعايير الخام لا يكاد يكون القيدَ المُلزِم.

4.1 البنى: المُصمَّمة لغايتها مقابل الامتدادات

القرار الأول، وغالباً غير المُسمَّى، بين تَبني نظامٍ جديد مُصمَّم لأعباء العمل الشعاعية وبين تَمديد نظامٍ يُشغِّله الفريق فعلاً. قاعدة بيانات مُصمَّمة لغايتها — Pinecone وQdrant وMilvus وWeaviate وVespa — مُهندَسة من الفهرس إلى الخارج. مُخطِّط الاستعلام، تَخطيط التخزين، نموذج النَّسخ، والواجهة كلها مُصمَّمة لاستعلامات الجار الأقرب التقريبي على أشعةٍ عالية الأبعاد. أسقفُ أداءٍ أعلى، خصوصاً على استعلامات الترشيح-مع-الشعاع الهجينة؛ ونظامٌ آخر للتشغيل.

نهجُ الامتداد — pgvector وElasticsearch dense_vector وMongoDB Atlas Vector Search وRedis مع RediSearch — يُضيف البحث الشعاعي إلى قاعدة بيانات يُشغِّلها الفريق أصلاً. لا مصادقةٌ جديدة، ولا إجراء نسخٍ احتياطي، ولا دوريةُ مناوبة، ولا إيقاعُ ترقيع. سقفُ الأداء يَضبطه نظام المضيف وعادةً ما يكون أعلى بكثير مما تَحتاجه التطبيقات تحت نطاق عشرات الملايين من الأشعة. القرار نادراً ما يكون سؤال أداءٍ خالصاً. هو سؤالٌ عن أين يُريد الفريق صرف ميزانيته التشغيلية — فريقٌ يُشغِّل قاعدةَ Postgres واحدة لا يُريد تَشغيل قاعدةٍ ثانية؛ وفريقٌ يُشغِّل عشر خدماتِ بيانات لا يَرمش لإحدى عشرة.

4.2 القادة المُدارون: Pinecone وVertex

Pinecone هي قاعدة البيانات الشعاعية المُدارة الكلاسيكية. بساطةٌ تشغيلية، زمن استجابةٍ قابل للتنبؤ، SDK ناضج، وطبقةٌ بدون خادمٍ تَفصل التخزين عن الحساب وتُسعِّر على الاستخدام الفعلي لا على السعة المُخصَّصة. الافتراضي الصحيح للنشرات الجديدة، إلا إذا كانت أعباء العمل تَستفيد تحديداً من سعةٍ محجوزة. الثمن هو القيد المعماري الذي يَحمله أيُّ نظامٍ مُدارٍ ملكي — التضمينات قابلة للنقل من حيث المبدأ، لكن كلفة التصدير وإعادة الفهرسة حقيقية. Vertex AI Vector Search هو عرض Google، مَبنيٌّ على مكتبة ScaNN التي تُشغِّل بحث Google للتشابه على نطاقٍ واسع. سقفُ نطاقٍ أعلى، تَكاملٌ وثيق مع باقي GCP — نماذج تضمين وIAM وCloud Monitoring — والالتزامُ الاستراتيجي المُقابل بسحابةٍ واحدة. Azure AI Search يَشغل الموضع نفسه للفرق الملتزمة بـ Microsoft. الاختيار بين الثلاثة المنصِّيّة يَتبع غالباً الالتزام السحابي القائم، وهو معقولٌ ما دام الفريق قد تَحقَّق من النطاق والإقامة.

4.3 مفتوح المصدر: Qdrant وMilvus وWeaviate

الفئة مفتوحة المصدر للفرق التي تُريد السيطرة على بنيتها التحتية — للكلفة أو الإقامة أو لأسبابٍ استراتيجية — ولديها القدرة التشغيلية لتَشغيل أنظمةٍ موزَّعة. Qdrant هو الأصغر والأكثر تركيزاً: مكتوبٌ بـ Rust، قابل للنشر كثنائيٍّ واحد، مُهندَسٌ للبحث الشعاعي مُنخفض زمن الاستجابة مع دعمٍ قويٍّ للترشيح والكَمَّنة. قابلٌ للوصول بما يَكفي ليَعمل في دقائق؛ الخيار الصحيح لأصغر بصمةٍ تشغيلية ممكنة. Milvus هو الأكبر والأكثر توجهاً للمؤسسات — بنية أصلية للسحابة تَفصل الحساب والتخزين والبيانات الوصفية، مع أعلى سقف نطاقٍ في الفئة (مكتبات بمليارٍ، فهارسُ مُسرَّعة بـ GPU، تخزينٌ متعدد المستويات). تعقيدٌ تشغيلي ملموس، يُخفِّفه Zilliz Cloud. Weaviate يَقع بينهما — أغنى ميزاتٍ من Qdrant، أقل تعقيداً من Milvus، مع وحداتٍ مُدمَجة للتضمين وإعادة الترتيب وتعدُّد المستأجرين. منصةُ بحثٍ لا مجرد فهرس بحث. الثلاثة مُرخَّصة بـ Apache في صميمها مع عروضٍ مُدارة مدفوعة، والمعايير في حدود معاملٍ ثابتٍ صغير من بعضها. القرار ملاءمة، لا أداءً خاماً.

4.4 المُضمَّن وPostgres: Chroma وpgvector

مُعظم نشرات RAG الحقيقية تَخدم عشرات الاستعلامات في الثانية على بضع مئات الآلاف من الأشعة، لا ملايين في الثانية على مليارات. لهذه الأعباء، الأداة الصحيحة تَعمل داخل عملية التطبيق أو بجانبها. Chroma هو الخيار المُضمَّن — داخل العملية افتراضياً، يَستديم إلى قرصٍ محلي، أبسط حالةٍ لا تَستلزم تكويناً. صحيحٌ للنماذج الأولية، والأدوات التي تَشحن بياناتها معها، ونشرات الإنتاج التي تَلائم آلةً واحدة. pgvector يُضيف نوع شعاعٍ، ومُعامِلات مسافة، وفهرسة HNSW/IVFFlat إلى Postgres. لمكتبات حتى عشرة ملايين شعاعٍ تقريباً على مضيفٍ حسن التَّجهيز، pgvector خيار إنتاجٍ موثوق وأبسط الخيارات تشغيلياً للفرق التي تُشغِّل Postgres أصلاً. يَصير البحث الشعاعي استعلام SQL على جدولٍ يَفهمه ORM القائم؛ الانضمامات مع البيانات الوصفية المُهيكَلة من الدرجة الأولى. الفضيلة الخفية لهذه الخيارات أنها تُخفِّض كلفة تَغيير الرأي — الهجرة إلى نظامٍ موزَّع، إن حَدثت، محدودة.

4.5 الإقامة والتشغيل والكلفة — المحاور التي تَحسم فعلاً

المحاور التشغيلية الثلاثة تَستحق التسمية لأنها حيث تُحسَم قرارات الإنتاج فعلاً. إقامة البيانات تُضيِّق قائمة المرشَّحين قبل أن تكون أيُّ مقارنةٍ تقنية ذات معنى. حماية البيانات في الاتحاد الأوروبي، وتنظيمات الخدمات المالية، والتزامات السحابة السيادية — هذه قيودٌ غير قابلة للتفاوض، والسؤال الأول لأيِّ مُزوِّدٍ أيَّ المناطق يَدعم وما التزاماته التعاقدية لمعالجة البيانات. مَزْلَقٌ خاص: التضمينات بياناتٌ مُشتقَّة، لكنها تَبقى بياناتٍ شخصية تحت مُعظم الأُطر التنظيمية لأنها قابلة للقَلب أو الاستخدام لاسترجاع الأصل عبر بحث التشابه. عقدٌ يُغطي الوثائق الخام لكنه غامضٌ عن التضمينات ناقص.

الشكل التشغيلي هو قدرةُ الفريق ذاته. فريقٌ من ثلاثة مهندسين يُشغِّلون خدمة تطبيقٍ واحدة عليه أن يَختار الخيار الذي يُضيف أقل سطحٍ تشغيلي — pgvector، Pinecone أو Qdrant Cloud مُدارَيْن، Chroma مُضمَّن. وفريقٌ من ثلاثين يَستوعب تعقيد نظامٍ موزَّع مفتوح المصدر لمكاسب الكلفة والقدرة. الخطأ اختيار نظامٍ غير مُلائمٍ للقدرة الفعلية للفريق على تَشغيله. الكلفة الإجمالية على مدى حياة النظام تَشمل التَّوفير، المراقبة، النسخ الاحتياطي، تَدريبات الاسترداد، تَخطيط السعة، عمل الترقية، والكلفة التناسبية لزمن المناوبة. الصياغة الصادقة تَسأل الكلفة في ثلاثة سيناريوهات — العبء الحالي، 10×، 100× — لأن ميل المُنحنى يَهم بقدر نقطة البداية.

يجدر بنا تذكُّره: اُكتب مُذكِّرة قرارٍ من صفحةٍ واحدة قبل الاختيار. سَمِّ متطلبات الإقامة غير القابلة للتفاوض، القدرة التشغيلية للفريق بعباراتٍ ملموسة، والكلفة المُتوقَّعة على أُفق ثلاث سنوات بثلاثة أحجام عبء. فعل الكتابة يُظهر افتراضاتٍ كانت لتَبقى ضمنية، والفرق التي تُعمِّم المُذكِّرة على مراجعٍ شكَّاكٍ أو اثنَين عادةً ما تَلتقط مشكلةً جوهرية واحدة على الأقل قبل الالتزام. المُذكِّرة، مُؤرشَفةً ومُحدَّثةً سنوياً، أرخصُ تأمينٍ ضد إعادة التَّقاضي على قراراتٍ اتُّخذت حسناً.

ما يُمهِّد له الفصل 4

قاعدة البيانات الشعاعية تُحدِّد ما تَستطيع طبقة التخزين أن تَحمل، وكم بسرعةٍ تُستعلَم، وأيَّ أنماط الترشيح والبيانات الوصفية تَدعم. لا تُحدِّد أيٌّ من هذه الخصائص بمفردها جودة الاسترجاع — تُحدِّد ما يُمكن بناؤه فوقها. وما يُبنى فوقها هو خط الاسترجاع، حيث تَتراكم المكاسب: بحثٌ هجين يَجمع الأشعة الكثيفة مع BM25، دمج الرُّتب التبادلي عبر مُسترجِعاتٍ متغايرة، إعادة ترتيبٍ بمُرمِّزٍ متقاطع، وطبقة فهم الاستعلام التي تَجسر بين كيف يَسأل المستخدمون وكيف تُجيب الوثائق.

التالي — الفصل 5: هندسة خط الاسترجاع. كيف يَجتمع البحث الشعاعي الكثيف واستعلام الكلمات المفتاحية عبر دمج الرُّتب التبادلي، وخطوة إعادة الترتيب بالمُرمِّز المتقاطع التي تَسد مُعظم فجوة الجودة المتبقية، وطبقة فهم الاستعلام التي تَسد الباقي.

هل تريد الصورة الكاملة؟ يَخوض الكتاب كل نظامٍ مُرشَّح بنماذج كلفةٍ ملموسة عند ثلاثة أحجام عبء، ويَحوي قائمة تَحقق إقامةٍ تَنجو من مراجعةٍ أمنية، ويُعالج Vespa باعتباره مُحرِّك الهجين المَدفوع برسومات الترتيب الذي تَتطور إليه ببطء بقية الفئة. عرض LLM Primer III على أمازون ←