خوارزميات

الذاكرة مقابل الدقة: كيف أنقذتنا مرشحات بلوم (Bloom Filters) من جحيم التحقق من التفرد في البيانات الضخمة؟

أبو عمر 17 مايو، 2026 2 دقائق قراءة

السلام عليكم يا جماعة الخير،

خليني أحكيلكم قصة صارت معي قبل كم سنة. كنا شغالين على نظام ضخم لتسجيل المستخدمين، نظام بستقبل آلاف طلبات التسجيل في الدقيقة الواحدة. واحدة من أبسط وأهم المهام كانت التحقق من أن “اسم المستخدم” الجديد مش محجوز من قبل. بسيطة، صح؟ هيك أنا فكرت في البداية.

في الأيام الأولى، كان استعلام SQL بسيط زي SELECT 1 FROM users WHERE username = ? كافي وزيادة. لكن مع نمو قاعدة البيانات لتضم عشرات الملايين من المستخدمين، صارت هاي العملية البسيطة عنق زجاجة حقيقي. كل طلب تسجيل جديد كان يعمل ضغط هائل على قاعدة البيانات، وصار المستخدم الجديد يستنى ثواني طويلة بس عشان يعرف إذا اسمه متاح أو لأ. صار الوضع لا يطاق، والنظام “بِشَرِّق” (يختنق) تحت الضغط. جربنا حلول الكاش التقليدية، خزنّا أشهر الأسماء في Redis، لكن مع العدد الهائل من المستخدمين، كانت الذاكرة “بتصيح” من الوجع. حسيت حالي محشور في زاوية، إما أداء بطيء أو تكلفة ذاكرة فلكية. لحد ما بيوم، واحد من الشباب الصغار في الفريق حكالي: “أبو عمر، سمعت عن إشي اسمو Bloom Filter؟”. ومن يومها، تغير كل شيء.

ما هو الجحيم الذي كنا فيه؟ (مشكلة التحقق من التفرد)

قبل ما نغوص في الحل، خلينا نفهم أبعاد المشكلة اللي معظم المطورين بواجهوها عند التعامل مع البيانات الضخمة (Big Data). المشكلة الأساسية هي: “كيف يمكنني التحقق بسرعة وبأقل استهلاك للموارد من وجود عنصر معين داخل مجموعة بيانات ضخمة جداً؟”

هذه المشكلة تظهر في سيناريوهات كثيرة:

تسجيل المستخدمين: التحقق من تفرد اسم المستخدم أو البريد الإلكتروني.
أنظمة التوصية: التأكد من عدم عرض نفس المقال أو المنتج للمستخدم مرة أخرى.
عناكب الويب (Web Crawlers): معرفة ما إذا كان قد تم زيارة رابط URL هذا من قبل لتجنب التكرار.
الأمان: التحقق من أن عنوان IP معين ليس ضمن قائمة سوداء ضخمة.

الحلول التقليدية لها عيوبها القاتلة:

التحقق المباشر من قاعدة البيانات: بطيء جداً مع نمو البيانات، ويسبب ضغطاً هائلاً (I/O intensive) على الأقراص الصلبة وقاعدة البيانات.
تخزين كل البيانات في الذاكرة (RAM): استخدام هياكل مثل HashSet أو Dictionary سريع جداً للبحث (O(1) في المتوسط)، لكنه “بياكل الرام أكل”. تخيل تخزين 100 مليون اسم مستخدم في الذاكرة! هذا الأمر مكلف وغير عملي لمعظم التطبيقات.

هنا يأتي دور التفكير خارج الصندوق، وهنا تظهر عبقرية هياكل البيانات الاحتمالية.

طوق النجاة: لنتعرف على مرشحات بلوم (Bloom Filters)

مرشح بلوم هو هيكل بيانات احتمالي (Probabilistic)، وهاي الكلمة هي مفتاح كل شيء. هو مصمم ليكون فائق الكفاءة من حيث استهلاك الذاكرة والسرعة، مقابل تضحية صغيرة جداً بالدقة.

ببساطة، مرشح بلوم هو عبارة عن مصفوفة من البتات (bit array) حجمها m، وجميع قيمها تبدأ بـ 0. بالإضافة إلى ذلك، لدينا عدد k من دوال التجزئة (hash functions) المستقلة.

العمليات الأساسية فيه بسيطة جداً: الإضافة والتحقق.

كيف نضيف عنصراً لمرشح بلوم؟ (عملية الإضافة)

لما بدنا نضيف عنصر جديد (مثلاً، اسم المستخدم “abu_omar”)، نتبع الخطوات التالية:

نمرر العنصر “abu_omar” على كل دالة من دوال التجزئة الـ k.
كل دالة تجزئة ستعطينا ناتجاً مختلفاً، نستخدم هذا الناتج كفهرس (index) في مصفوفة البتات.
نذهب إلى هذه الفهارس الـ k في المصفوفة ونغير قيمة البت من 0 إلى 1.

وهيك بنكون “سجلنا” وجود العنصر في الفلتر. لاحظ أننا لا نخزن العنصر نفسه أبداً، بل مجرد “بصمة” له في مصفوفة البتات.

كيف نتحقق من وجود عنصر؟ (عملية التحقق)

الآن، لنفترض أن مستخدماً جديداً يحاول التسجيل بالاسم “abu_omar”. كيف نتحقق؟

نمرر العنصر “abu_omar” على نفس دوال التجزئة الـ k.
نحصل على k فهارس في مصفوفة البتات.
نتحقق من قيمة البتات في هذه الفهارس.
إذا كان أي بت منها قيمته 0: نكون متأكدين 100% أن هذا العنصر لم يتم إضافته من قبل. مستحيل! لأنه لو تمت إضافته، لكانت كل هذه البتات قد تحولت إلى 1. هذا يسمى “سلبي حقيقي” (True Negative).
إذا كانت كل البتات قيمتها 1: هنا نقول أن العنصر “على الأغلب” موجود.

الضيف غير المرغوب فيه: الإيجابيات الكاذبة (False Positives)

لماذا نقول “على الأغلب”؟ لأنه قد تحدث حالة “إيجابي كاذب” (False Positive). هذا يعني أن الفلتر قد يخبرنا أن عنصراً ما موجود، وهو في الحقيقة غير موجود. والسبب في ذلك هو أن البتات التي أشرت إليها دوال التجزئة لهذا العنصر الجديد قد تكون تحولت إلى 1 بسبب إضافة عناصر أخرى مختلفة تماماً.

أهم خاصية في مرشح بلوم: يمكن أن يعطي نتائج “إيجابية كاذبة” (False Positives)، ولكنه لا يمكن أبداً أن يعطي نتائج “سلبية كاذبة” (False Negatives). إذا قال لك الفلتر “هذا العنصر غير موجود”، فصدّقه، هو صادق 100%. أما إذا قال “موجود”، فهنا يجب أن تتحقق مرة أخرى من المصدر الأساسي (قاعدة البيانات مثلاً).

كود يا أبو عمر! خلينا نشوف مثال عملي

حتى تتضح الصورة، خلينا نشوف مثال بسيط باستخدام لغة Python ومكتبة pybloom_live التي تسهل علينا الحياة. أولاً، قم بتثبيت المكتبة:

pip install pybloom-live

والآن، لنكتب الكود:


# استيراد المكتبات اللازمة
from pybloom_live import BloomFilter
import hashlib # سنحتاجه لتوليد بعض البيانات

# 1. تهيئة مرشح بلوم
# سنقوم بإنشاء فلتر يتسع لـ 100 مليون عنصر (تقريباً)
# مع نسبة خطأ (false positive rate) تبلغ 0.1% (أو 1 من كل 1000)
# المكتبة ستقوم بحساب حجم مصفوفة البتات وعدد دوال التجزئة الأمثل تلقائياً
capacity = 100000000
error_rate = 0.001

# 'usernames.bloom' هو اسم الملف الذي سيتم فيه حفظ الفلتر على القرص الصلب
# هذا يسمح للفلتر بالبقاء حتى بعد إعادة تشغيل البرنامج
usernames_filter = BloomFilter(capacity=capacity, error_rate=error_rate, filename='usernames.bloom')

print(f"حجم الفلتر: {usernames_filter.num_bits / 8 / 1024 / 1024:.2f} MB")
print(f"عدد دوال التجزئة: {usernames_filter.num_hashes}")

# 2. إضافة بعض أسماء المستخدمين الموجودة بالفعل في نظامنا
existing_users = ["abu_omar", "ahmad_123", "sara.dev", "palestine_forever"]
for user in existing_users:
    usernames_filter.add(user)
    print(f"تمت إضافة المستخدم: {user}")

# --- مرحلة التحقق ---

# 3. التحقق من اسم مستخدم موجود بالفعل
user_to_check_1 = "abu_omar"
if user_to_check_1 in usernames_filter:
    print(f"nالفلتر يقول: '{user_to_check_1}' على الأغلب موجود. (صحيح)")
else:
    print(f"الفلتر يقول: '{user_to_check_1}' غير موجود قطعاً. (خطأ)")

# 4. التحقق من اسم مستخدم جديد وغير موجود
user_to_check_2 = "new_user_xyz"
if user_to_check_2 in usernames_filter:
    # هذه الحالة قد تكون "إيجابي حقيقي" أو "إيجابي كاذب"
    print(f"الفلتر يقول: '{user_to_check_2}' على الأغلب موجود. (هذه قد تكون نتيجة إيجابية كاذبة!)")
    print("--> يجب الآن التحقق من قاعدة البيانات للتأكد.")
else:
    # هذه الحالة مؤكدة 100%
    print(f"الفلتر يقول: '{user_to_check_2}' غير موجود قطعاً. (صحيح)")
    print("--> يمكن حجز الاسم مباشرة دون الرجوع لقاعدة البيانات.")

# تذكر إغلاق الفلتر لحفظ التغييرات في الملف
usernames_filter.close()

في قصتنا الأصلية، هذا الكود غيّر المعادلة. أصبح سير العمل كالتالي:

عند طلب تسجيل اسم مستخدم جديد، نتحقق منه أولاً في مرشح بلوم.
إذا قال الفلتر “غير موجود قطعاً”، نسمح بالتسجيل مباشرة. هذا يحدث في 99.9% من الحالات، وبسرعة فائقة!
إذا قال الفلتر “على الأغلب موجود”، عندها فقط، وفقط في هذه الحالة النادرة، نذهب ونتحقق من قاعدة البيانات.

بهذه الطريقة، خففنا الضغط على قاعدة البيانات بنسبة تزيد عن 99.9%، وحصلنا على أداء صاروخي بتكلفة ذاكرة بسيطة جداً (في المثال أعلاه، حوالي 143 ميغابايت لتخزين بصمة 100 مليون عنصر!).

متى نستخدم مرشحات بلوم؟ (حالات عملية من الميدان)

هذا الأسلوب ليس مجرد خدعة نظرية، بل يُستخدم على نطاق واسع في أكبر الشركات التقنية:

متصفح Google Chrome: يستخدم مرشح بلوم لتخزين قائمة بالمواقع الضارة. قبل زيارة أي موقع، يتحقق المتصفح من الفلتر. إذا قال “غير ضار قطعاً”، يسمح بالمرور فوراً. إذا قال “قد يكون ضاراً”، يقوم بإجراء فحص أعمق وأبطأ.
قواعد البيانات الموزعة (مثل Apache Cassandra و RocksDB): تستخدم مرشحات بلوم لتجنب البحث في القرص الصلب (وهي عملية بطيئة) عن مفتاح غير موجود. قبل البحث في الملفات على القرص، يتم سؤال الفلتر.
شبكات توصيل المحتوى (CDNs): تستخدمها للتحقق مما إذا كان عنصر ما موجوداً في الكاش الرئيسي أم لا، لتجنب “one-hit wonders” (العناصر التي يتم طلبها مرة واحدة فقط ثم لا تُطلب مجدداً).

نصائح من الكيس: كيف تضبط مرشح بلوم الخاص بك؟

عندما تقرر استخدام مرشح بلوم، هناك متغيران أساسيان عليك تحديدهما:

السعة المتوقعة (n): عدد العناصر التي تتوقع تخزينها في الفلter.
معدل الخطأ المقبول (p): نسبة الإيجابيات الكاذبة التي يمكنك تحملها (e.g., 1%, 0.1%).

بناءً على هذين الرقمين، يمكنك حساب حجم مصفوفة البتات الأمثل (m) وعدد دوال التجزئة الأمثل (k).

نصيحة عملية: ما توجع راسك بالحسابات المعقدة. معظم المكتبات البرمجية (مثل pybloom_live) تقوم بهذا العمل عنك. أنت فقط تزودها بالسعة ومعدل الخطأ، وهي تتكفل بالباقي. القاعدة العامة هي: كلما أردت معدل خطأ أقل، ستحتاج إلى ذاكرة أكبر.

محدودية مهمة: مرشح بلوم القياسي لا يدعم عملية الحذف. إذا قمت بحذف عنصر عن طريق تحويل بتاته من 1 إلى 0، قد تتسبب في إتلاف “بصمة” عنصر آخر يعتمد على نفس هذه البتات. هناك أنواع متقدمة مثل “Counting Bloom Filter” تسمح بالحذف، لكنها تستهلك ذاكرة أكبر.

الخلاصة: متى تضحي بالدقة من أجل السرعة؟ 🚀

مرشحات بلوم هي مثال رائع على قوة التفكير الاحتمالي في عالم الهندسة. هي تعلمنا درساً مهماً: أحياناً، التضحية بجزء صغير جداً من الدقة يمكن أن يمنحك مكاسب هائلة في الأداء واستهلاك الموارد.

اسأل نفسك دائماً عند تصميم نظامك: هل أنا بحاجة إلى دقة 100% في كل خطوة؟ أم يمكنني تحمل نسبة خطأ صغيرة جداً (يمكن التعامل معها) مقابل الحصول على نظام أسرع وأكثر كفاءة بعشرات المرات؟

إذا كان جوابك هو الخيار الثاني، وكان لديك مشكلة في التحقق من وجود عنصر في مجموعة ضخمة، فمرشح بلوم هو “صاحبك الانتيم” الجديد.

يعطيكم العافية يا جماعة الخير، وإلى اللقاء في مقالة تقنية أخرى. 😉

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

خوارزميات

من الجحيم إلى النعيم: كيف أنقذتنا خوارزمية LSH من “لعنة الأبعاد” في نظام التوصيات؟

أتذكر جيدًا ذلك اليوم الذي كادت فيه أنظمة التوصيات لدينا أن تنهار تحت وطأة "لعنة الأبعاد". في هذه المقالة، أشارككم قصة حقيقية عن كيف كانت...

30 مايو، 2026 قراءة المزيد

خوارزميات

التجزئة المتسقة (Consistent Hashing): الخوارزمية التي أنقذتنا من فوضى توسيع الخوادم

أتذكر جيداً ذلك اليوم الذي كاد أن ينهار فيه كل شيء بسبب إضافة خادم جديد. في هذه المقالة، أشارككم قصة حقيقية عن كيفية انتقالنا من...

6 مايو، 2026 قراءة المزيد

خوارزميات

كانت مساراتنا عشوائية ومكلفة: كيف أنقذتنا خوارزمية دكسترا من جحيم التخمين؟

أشارككم قصة حقيقية عن مشروع كاد أن يفشل بسبب التخطيط العشوائي للمسارات، وكيف كانت خوارزمية دكسترا (Dijkstra) طوق النجاة الذي حوّل الفوضى إلى نظام. سنغوص...

25 مايو، 2026 قراءة المزيد

خوارزميات

كان البحث عن بياناتنا كالبحث عن إبرة في كومة قش: كيف أنقذتنا جداول التجزئة (Hash Tables) من جحيم البحث الخطي؟

في هذه المقالة، أشارككم قصة حقيقية من معاناتنا مع بطء البحث في البيانات وكيف كانت جداول التجزئة (Hash Tables) هي طوق النجاة. سنتعمق في فهم...

25 مايو، 2026 قراءة المزيد

خوارزميات

تطبيقي كان متاهة: كيف أنقذتني خوارزمية A* (A-Star) من كابوس المسارات الضائعة؟

أشارككم قصتي مع تطبيق لوجستي كاد أن يفشل بسبب مساراته غير الفعالة، وكيف كانت خوارزمية A* هي طوق النجاة. سنتعمق في شرح الخوارزمية خطوة بخطوة،...

28 مارس، 2026 قراءة المزيد

خوارزميات

بحثي كان يستغرق دهراً: كيف أنقذتني ‘جداول التجزئة’ (Hash Tables) من جحيم البحث الخطي؟

أتذكر مشروعاً كاد أن يفشل بسبب بطء البحث في البيانات، حيث كانت كل عملية تستغرق وقتاً طويلاً ومزعجاً. في هذه المقالة، أشارككم قصتي وكيف كانت...

1 أبريل، 2026 قراءة المزيد

خوارزميات

كان البحث عن ‘الأقرب’ يجمّد الخريطة: كيف أنقذتنا الأشجار الرباعية (Quadtrees) من جحيم القوة الغاشمة؟

أشارككم قصة حقيقية من واقع العمل، كيف تسبب بحث بسيط عن أقرب نقطة على الخريطة في تجميد تطبيق كامل. نستكشف معًا جحيم خوارزمية "القوة الغاشمة"...

7 مايو، 2026 قراءة المزيد

خوارزميات

فلاتر بلوم (Bloom Filters): كيف أنقذتنا من جحيم استعلامات قاعدة البيانات المكلفة؟

في إحدى ليالي الإطلاق المحمومة، كانت قاعدة بياناتنا على وشك الانهيار بسبب استعلام بسيط. أروي لكم كيف أنقذتنا خوارزمية بسيطة وعبقرية تُدعى "فلتر بلوم" (Bloom...

20 أبريل، 2026 قراءة المزيد

خوارزميات

كانت توصياتنا عشوائية وبلا هدف: كيف أنقذتنا خوارزمية ‘الجوار الأقرب’ (k-NN) من جحيم التخمين؟

هل تعاني من أنظمة توصيات فاشلة تقدم اقتراحات لا علاقة لها بالمستخدم؟ في هذه المقالة، أشارككم قصة حقيقية حول كيف انتقلنا من التخمين العشوائي إلى...

12 مايو، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد