دعامات
يعرض تعريف البيانات (أو DESC اختصارًا) المخطط الجديد من فهرس محدد، مع سطر لكل سمة أو خاصية. تشمل أنواع البيانات المُقدمة JSON، وأنواع البيانات العددية المدمجة، والسلاسل النصية. تدعم الخدمات نماذج البيانات التالية: INTN وINT8N وFLAOTN. تشمل الأنواع الفرعية المُحددة: FAISS_Mark وFAISS_L1 وHNSW_L1 وHNSW_L2 وHNSW_Dot وSQ4 وSQ8.
قم بإعداد العرض الجديد مع المبيعات
بالنسبة لعمليات البحث غير المتعلقة بالهوية، تُؤخذ في الاعتبار جميع الصفوف الحية (الفريدة) التي تم تنسيقها (سواءً عن طريق فهم فهرس السمة، أو بسبب المسح الكامل). بما أن مهلة الانتظار تساوي صفرًا، فمن المحتمل أن يتم رفع وضع الحصار الجديد تلقائيًا. يتم السماح بإنشاء سجلات WAL (سجلات الإنشاء المستقبلية) افتراضيًا، وبالتالي تتم عمليات الكتابة بشكل أكثر أمانًا تلقائيًا، حيث يتم استعادة البيانات التي تم البحث عنها من خلال إعادة تشغيل سجلات WAL.
عناكب HNSW
- تتيح لك آلية "تاريخ التنبؤ" الجديدة كلياً إنهاء الأسئلة بشكل قاطع عندما تتجاوز ميزانيتها المخصصة للتسليم (الافتراضي).
- (لأن عملية إنشاء فهرس متجه الحجز الزائد لا تنجح أبداً.)
- هل ينبغي حقاً أن تعتمد الأوزان على محتويات مجال آخر، كما أشرنا بوضوح إلى حصر استفساراتنا الخاصة لمساعدتك في تحديد العناوين؟
- في محطة البحث SNIPPET(DOCUMENT(), …) يتم استدعاء برامج البحث عن النصوص الكاملة مرة أخرى أثناء البحث.
- عند ضبطه على 1، يقوم الفهرس بتحليل سطر sign up_file الأصلي كقائمة من الأعمدة، ويمكنك إجراء عمليات فحص واحدة مقابل أحدث مخطط.
أثناء البحث والتصنيف، يصنف Sphinx جميع الكلمات المفتاحية للاستعلام وفقًا لأنواع اهتمامات متعددة. في الإصدار 3.5، يُتيح لك الوصول إلى جميع مؤشرات مستوى المجتمع، سواء من دليل الوظائف أو هوية المهنة. وبالتالي، داخل كل من الدوال المعرفة من قبل المستخدم (UDFs) وتصنيف المصطلحات، ستحصل على هذه النتائج، وقد تحتاج إلى تفسيرها كقيم فارغة (null). يتم تجاهل هذه القيم الفارغة في أداء JSON. أخيرًا، نقاط المهنة أكثر تفصيلًا، حيث يتم حسابها لكل مجتمع.
نجرب بالفعل أعلى قيم mem_restriction داخليًا، لعدد من تنزيل تطبيق Booi السنوات تقريبًا. ومع ذلك، هناك عدد من المشكلات (الاختيارية) التي قد تفضل تجاهلها، ولا سيما sql_query_place و join_attrs. اختياري، والقيمة الافتراضية هي 0، والتعريف هو nolimit.
لا يقتصر نظام التنسيق الأحدث على ضبط حالات الكلمات المفتاحية المتوافقة، بل يتعداه إلى تحديد سبب التوافق. لا توجد كلمات مفتاحية حشو في المنطقة "I" على الإطلاق، وهي مطلوبة للمطابقة، أليس كذلك؟ لذا، فهو يشير إلى أن المسار الأول لمنطقة أخرى (المنطقة "B") مناسب، ولكن كيف يتوافق المسار الثاني للمنطقة الأخيرة الجديدة (المنطقة "I")؟ تُنتج الدالة ZONESPANLIST() قائمة بجميع التطابقات التي طابقها مُشغّل ZONESPAN، باستخدام تنسيق نصي بسيط. بينما تحسب الدالة VSUM() جميع عناصر متجه المطابقة.
يؤدي إعداد الملفات الجديدة إلى توفير
بما في ذلك، يتم التعامل مع خدمات الخطوة الثالثة التي تحمل علامات UINT وBIGINT وDrift_Range باستخدام 24 بايت لكل سطر إجمالاً (4+8+بضعة بايتات على التوالي). المستندات عبارة عن قائمة بحقول نصية مُعنونة وخصائص مُخصصة. وهذا يعني أنها تتصل مباشرةً بقاعدة البيانات، وتعمل مع استعلامات SQL، وتستخرج النتائج، وتُنشئ فهارس نصية كاملة.
البحث: صيغة السؤال
بالتأكيد، في المثال المذكور، استغرقت كل عملية بحث 0.011 ثانية فقط من وقت وحدة المعالجة المركزية، لكن إجمالي عمليات البحث استغرقت 7.5 مليون ثانية فقط أثناء إعادة التشغيل الأخيرة (لدعم 661 مليون استعلام). بتفعيل خيار –cpustats، ستظهر لك عدادات عامة إضافية في "عرض الموقع"، ويمكنك عرض نتائج كل استعلام في "عرض بيانات الإنتاجية"، بالإضافة إلى معلومات إضافية حول سجل الاستعلامات البطيئة، تمامًا مثل خيار –iostats. مع أكثر من 100 مليون مجموعة بيانات، لن يكون الأمر سريعًا! بدلاً من المجموعات المدربة مسبقًا على البيانات التي اخترتها يدويًا، لا يقوم Sphinx حاليًا بإعادة تجميع مجموعة البيانات المدخلة بالكامل. لتعطيل ذاكرة التخزين المؤقت للاستعلامات، اضبط حد نسبها (akaqcache_max_bytes) على 0.
