خوارزميات

كان التحقق من وجود البيانات يقتل قاعدة بياناتنا: كيف أنقذنا ‘فلتر بلوم’ (Bloom Filter) من جحيم الاستعلامات غير الضرورية؟

أبو عمر 12 مايو، 2026 2 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله. معكم أخوكم أبو عمر.

بتذكر قبل كم سنة، كنا شغالين على نظام ضخم لإدارة المحتوى، وكان فيه ميزة بتسمح للمستخدمين باختيار “اسم مستخدم” فريد، زي تويتر أو انستغرام. في البداية، الأمور كانت “عال العال”. المستخدم يدخل الاسم، ونحن بنعمل استعلام (query) بسيط على قاعدة البيانات لنتأكد إنه الاسم مش مأخوذ. إشي بسيط، صح؟

لكن لما كبر النظام وصار عنا ملايين المستخدمين، بدأت الكارثة. كل محاولة تسجيل، وكل مستخدم جديد “بجرّب حظه” بأسماء مختلفة، كانت تعني استعلامًا جديدًا يضرب قاعدة البيانات. تخيل معي آلاف المستخدمين في نفس الدقيقة بجربوا أسماء مثل “ahmad”, “mohammad”, “user123″… وكلها أسماء مأخوذة. قاعدة البيانات المسكينة كانت بتقضي 90% من وقتها وجهدها بترد على استعلامات نتيجتها “نعم، هذا الاسم موجود”، أو الأسوأ، استعلامات عن أسماء غريبة جدًا نتيجتها “لا، هذا الاسم غير موجود”، وهذا كله قبل حتى ما تتم عملية التسجيل الفعلية!

صارت الاستعلامات تتكدس، والأداء نزل في الحضيض، والسيرفرات “ولّعت معنا”. قعدنا ليالي نحاول نعمل تحسين (optimization)، نضيف فهارس (indexes)، ونعمل كاش (caching) للأسماء الشائعة. لكن المشكلة كانت أعمق. كنا بنضرب أغلى مورد عنا (قاعدة البيانات) بس عشان نجاوب على سؤال بسيط: “هل هذا الإشي موجود؟”. وفي يوم من أيام اليأس، وإحنا بنبحث عن حلول غير تقليدية، لمعت الفكرة في بال واحد من الفريق: “يا جماعة، شو رأيكم نستخدم فلتر بلوم؟”. وقتها، تغير كل شيء.

شو القصة؟ لما سؤال “هل هذا موجود؟” يصبح كابوسًا

المشكلة التي واجهناها تُعرف تقنيًا بـ “فحص الوجود على بيانات ذات حجم هائل” (High-Cardinality Existence Checks). ببساطة، لديك مجموعة ضخمة جدًا من البيانات (ملايين أسماء المستخدمين، مليارات الروابط، إلخ)، وتحتاج أن تتحقق بسرعة فائقة إذا كان عنصر معين موجودًا ضمن هذه المجموعة أم لا.

الطريقة التقليدية، كما فعلنا في البداية، هي الاستعلام المباشر:

SELECT 1 FROM users WHERE username = 'some_random_username' LIMIT 1;

هذا الاستعلام، حتى مع وجود فهرس (index) على حقل `username`، يصبح مكلفًا جدًا تحت الضغط العالي. كل استعلام يستهلك موارد: اتصال بقاعدة البيانات، بحث في الفهرس، وقد يتطلب قراءة من القرص الصلب. عندما يكون 99% من هذه الاستعلامات عن عناصر غير موجودة أصلًا، فأنت فعليًا تحرق مواردك على لا شيء.

الحل اللي أنقذنا: فلتر بلوم… مش فلتر قهوة!

فلتر بلوم (Bloom Filter) هو ليس فلترًا بالمعنى الحرفي، بل هو هيكل بيانات احتمالي (Probabilistic Data Structure) فائق الكفاءة من حيث المساحة، ومصمم للإجابة على سؤال واحد فقط: “هل هذا العنصر ربما يكون في المجموعة؟”.

لاحظ كلمة “ربما”. هنا يكمن سحره ومفتاح فهمه. فلتر بلوم يمكنه أن يجيب بإحدى إجابتين:

“هذا العنصر غير موجود بالتأكيد” (Definitely Not Present). وهذه الإجابة صحيحة بنسبة 100%. لا يوجد شيء اسمه “سلبي كاذب” (False Negative).
“هذا العنصر قد يكون موجودًا” (Possibly Present). هذه الإجابة تحتمل نسبة خطأ صغيرة جدًا يمكن التحكم بها، وتُسمى “إيجابي كاذب” (False Positive).

الفكرة هي أننا نستخدمه كحارس بوابة أمام قاعدة بياناتنا. قبل أن نسأل قاعدة البيانات المكلفة، نسأل فلتر بلوم السريع والرخيص جدًا. إذا قال “غير موجود بالتأكيد”، نتوقف ونرجع للمستخدم مباشرة. لقد وفرنا استعلامًا كاملاً! أما إذا قال “قد يكون موجودًا”، عندها فقط، نسمح للطلب بالمرور والتحقق من قاعدة البيانات للتأكد.

كيف بيشتغل هالإشي العبقري؟ (The Nitty-Gritty)

فلتر بلوم يتكون من مكونين أساسيين:

مصفوفة بتات (Bit Array): تخيلها كسلسلة طويلة جدًا من الأصفار (0s)، بحجم `m`.
عدة دوال هاش (Hash Functions): عدد `k` من دوال الهاش المستقلة والسريعة.

عندما نريد إضافة عنصر (مثل اسم مستخدم جديد `aboomar`) إلى الفلتر، نقوم بالآتي:

نمرر العنصر `aboomar` على كل دالة من دوال الهاش الـ `k`.
كل دالة هاش ستعطينا رقمًا (مؤشرًا) مختلفًا ضمن نطاق حجم المصفوفة `m`.
نذهب إلى هذه المؤشرات في مصفوفة البتات ونغير قيمتها من 0 إلى 1.

وعندما نريد التحقق من وجود عنصر (مثل `jad`):

نمرر العنصر `jad` على نفس دوال الهاش الـ `k`.
نحصل على `k` مؤشرات جديدة.
ننظر إلى البتات في هذه المؤشرات داخل المصفوفة.
إذا كان واحد فقط من هذه البتات لا يزال 0، فهذا يعني أن هذا العنصر “غير موجود بالتأكيد”. لأنه لو كان موجودًا، لكانت كل هذه البتات قد تحولت إلى 1 عند إضافته.
إذا كانت كل البتات في هذه المؤشرات تساوي 1، فهذا يعني أن العنصر “قد يكون موجودًا”. لماذا “قد يكون”؟ لأنه من المحتمل أن تكون هذه البتات قد تم تحويلها إلى 1 بسبب عناصر أخرى مختلفة تمامًا تصادف أنها أعطت نفس المؤشرات بعد عملية الهاش. هذا هو الـ “إيجابي الكاذب” (False Positive).

يلا نبرمج: فلتر بلوم بسيط بلغة بايثون

لنفهم الموضوع بشكل عملي، دعونا نكتب نسخة مبسطة جدًا من فلتر بلوم باستخدام بايثون. سنستخدم مكتبة `mmh3` لدوال الهاش السريعة و `bitarray` للتعامل مع مصفوفة البتات بكفاءة.


# أولاً، قم بتثبيت المكتبات اللازمة
# pip install mmh3 bitarray

import mmh3
from bitarray import bitarray

class BloomFilter:
    def __init__(self, size, hash_count):
        """
        size: حجم مصفوفة البتات (m)
        hash_count: عدد دوال الهاش (k)
        """
        self.size = size
        self.hash_count = hash_count
        # إنشاء مصفوفة بتات كلها أصفار
        self.bit_array = bitarray(self.size)
        self.bit_array.setall(0)

    def add(self, item):
        """إضافة عنصر إلى الفلتر"""
        for i in range(self.hash_count):
            # نستخدم دالة mmh3 مع "seed" مختلف لمحاكاة دوال هاش متعددة
            digest = mmh3.hash(item, i) % self.size
            self.bit_array[digest] = True

    def __contains__(self, item):
        """التحقق من وجود عنصر (بطريقة بايثون الأنيقة 'in')"""
        for i in range(self.hash_count):
            digest = mmh3.hash(item, i) % self.size
            if not self.bit_array[digest]:
                # إذا وجدنا بت واحد قيمته صفر، فالعنصر غير موجود بالتأكيد
                return False
        # إذا كانت كل البتات واحد، فالعنصر قد يكون موجودًا
        return True

# --- مثال عملي ---

# لنفترض أن لدينا 1000 عنصر ونريد نسبة خطأ 1%
# يمكن استخدام معادلات جاهزة لحساب الحجم وعدد الدوال الأمثل
# لكن للتبسيط، سنختار قيمًا تقديرية
item_count = 1000
filter_size = 10000  # m
hash_count = 7       # k

bloom = BloomFilter(filter_size, hash_count)

# إضافة بعض أسماء المستخدمين الموجودة في قاعدة البيانات
usernames_in_db = ["aboomar", "palestine_dev", "algorithm_master", "jad"]
for name in usernames_in_db:
    bloom.add(name)
    print(f"تمت إضافة '{name}' إلى الفلتر.")

# --- الآن مرحلة التحقق ---

# 1. التحقق من اسم موجود بالفعل
print("n--- التحقق من أسماء موجودة ---")
test_name_1 = "aboomar"
if test_name_1 in bloom:
    print(f"الفلتر يقول: '{test_name_1}' قد يكون موجودًا. (صحيح ✅)")
else:
    print(f"الفلتر يقول: '{test_name_1}' غير موجود بالتأكيد. (خطأ ❌)")

# 2. التحقق من اسم غير موجود على الإطلاق
print("n--- التحقق من أسماء غير موجودة ---")
test_name_2 = "new_user_12345"
if test_name_2 in bloom:
    # هذا هو احتمال الإيجابي الكاذب (False Positive)
    print(f"الفلتر يقول: '{test_name_2}' قد يكون موجودًا. (إيجابي كاذب محتمل ⚠️)")
else:
    # هذه هي الحالة الأكثر شيوعًا والتي توفر علينا الموارد
    print(f"الفلتر يقول: '{test_name_2}' غير موجود بالتأكيد. (صحيح ✅)")

نصيحة من الخبير: لا تخترع العجلة في الإنتاج

الكود أعلاه ممتاز لأغراض تعليمية، لكن في بيئة الإنتاج الحقيقية، من الأفضل دائمًا استخدام مكتبات موثوقة ومُختبرة جيدًا. هذه المكتبات غالبًا ما تكون مكتوبة بلغات أسرع مثل C وتوفر واجهات سهلة للغات مثل بايثون أو جافا.

في بايثون: مكتبة pybloomfiltermmap3 خيار ممتاز وقوي.
في جافا: مكتبة Google Guava توفر تطبيقًا رائعًا لفلتر بلوم.

المفاضلات والمقايضات: متى يكون فلتر بلوم مناسبًا؟

فلتر بلوم ليس حلاً سحريًا لكل المشاكل. استخدامه يعتمد على فهمك للمقايضات.

القاعدة الذهبية: استخدم فلتر بلوم عندما يكون الضرر الناتج عن “الإيجابي الكاذب” (False Positive) مقبولاً أو يمكن التعامل معه، وعندما تكون تكلفة التحقق من المصدر الأساسي (قاعدة البيانات) عالية جدًا.

في مثالنا، ما هو ضرر الإيجابي الكاذب؟ إذا حاول مستخدم تسجيل اسم `random_user` غير الموجود، والفلتر بالخطأ قال “قد يكون موجودًا”، فكل ما سيحدث هو أننا سنقوم باستعلام واحد إضافي لقاعدة البيانات، والتي ستؤكد أنه غير موجود، وسيتمكن المستخدم من التسجيل. ضرر بسيط جدًا مقابل آلاف الاستعلامات التي وفرناها.

نصيحة عملية: كيف تتعامل مع الإيجابيات الكاذبة (False Positives)

التعامل معها بسيط جدًا وهو أساس قوة هذا النمط:

الخطوة 1: تحقق من العنصر في فلتر بلوم.
الخطوة 2: إذا كانت النتيجة “غير موجود بالتأكيد”، انتهى الأمر. أرجع الإجابة للمستخدم ووفرت على نفسك استعلامًا. هذه هي الغالبية العظمى من الحالات.
الخطوة 3: إذا كانت النتيجة “قد يكون موجودًا”، عندها فقط، قم بالتحقق من المصدر الحقيقي (قاعدة البيانات، القرص الصلب، الشبكة). هذه هي “شبكة الأمان” الخاصة بك.

بهذه الطريقة، يعمل فلتر بلوم كمرشح أولي يزيل “الضوضاء” ويسمح فقط للحالات التي تستحق التحقق بالمرور.

وين بنشوف فلتر بلوم في حياتنا اليومية؟

هذه الخوارزمية العبقرية مستخدمة في الكثير من الأنظمة التي نتعامل معها يوميًا:

متصفحات الويب: يستخدم Google Chrome فلتر بلوم لتحديد المواقع الضارة. المتصفح يحمل فلتر بلوم صغير يحتوي على المواقع الضارة المعروفة. عند زيارتك لأي موقع، يتم فحصه أولاً مقابل الفلتر. إذا قال الفلتر “غير موجود”، فأنت بأمان. إذا قال “قد يكون موجودًا”، يقوم المتصفح بإجراء فحص أكثر تفصيلاً عبر الإنترنت.
قواعد البيانات الموزعة: أنظمة مثل Apache Cassandra و Google Bigtable تستخدم فلاتر بلوم لتجنب البحث في الأقراص الصلبة عن بيانات غير موجودة، مما يسرّع عمليات القراءة بشكل هائل.
أنظمة التوصية بالمحتوى: لمنع اقتراح مقال أو فيديو شاهده المستخدم من قبل.

الخلاصة: فكّر “احتماليًا” لتوفير الموارد 💡

في عالم البرمجة، غالبًا ما نكون مهووسين بالحصول على إجابات دقيقة 100%. لكن قصة فلتر بلوم تعلمنا درسًا مهمًا: أحيانًا، التضحية بجزء ضئيل جدًا من الدقة يمكن أن يمنحنا مكاسب هائلة في الأداء وتوفير الموارد.

في المرة القادمة التي تواجه فيها مشكلة تتطلب التحقق من وجود شيء ما ملايين المرات، توقف لحظة قبل أن ترهق قاعدة بياناتك. اسأل نفسك: هل يمكنني تحمل نسبة خطأ صغيرة جدًا؟ إذا كانت الإجابة “نعم”، فربما يكون فلتر بلوم هو البطل الذي ينتظره نظامك.

تذكروا دائمًا يا جماعة، أفضل الحلول هي ليست دائمًا الأكثر تعقيدًا، بل الأكثر ذكاءً في استخدام الموارد المتاحة. والله ولي التوفيق.

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

خوارزميات

كانت كل عملية فحص تضرب قاعدة البيانات: كيف أنقذنا ‘مرشح بلوم’ (Bloom Filter) من جحيم الاستعلامات غير الضرورية؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، وكيف أنقذتنا خوارزمية بسيطة وعبقرية تُدعى "مرشح بلوم" (Bloom Filter) من انهيار قاعدة البيانات تحت وطأة الاستعلامات المتكررة....

13 مايو، 2026 قراءة المزيد

خوارزميات

كان البحث عن بياناتنا كالبحث عن إبرة في كومة قش: كيف أنقذتنا جداول التجزئة (Hash Tables) من جحيم البحث الخطي؟

في هذه المقالة، أشارككم قصة حقيقية من معاناتنا مع بطء البحث في البيانات وكيف كانت جداول التجزئة (Hash Tables) هي طوق النجاة. سنتعمق في فهم...

25 مايو، 2026 قراءة المزيد

بودكاست

خوارزميات

تجزئة البيانات وتوليد المعرفات الموزعة: قصة حلول مبتكرة لمشاكل معقدة

عندما تنمو البيانات بشكل هائل، يصبح تجزئتها ضرورة حتمية. لكن كيف نضمن توليد معرفات فريدة عبر خوادم متعددة؟ نستعرض في هذا المقال استراتيجيات التجزئة وخوارزمية...

10 يناير، 2026 قراءة المزيد

خوارزميات

قاعدة بياناتنا كانت تجيب على ‘هل هذا موجود؟’ ببطء قاتل: كيف أنقذنا ‘مرشح بلوم’ (Bloom Filter) من جحيم الاستعلامات المكلفة؟

أتذكر تلك الليلة جيدًا، كوب القهوة البارد بجانبي وشاشة المراقبة أمامي تصرخ بالأحمر. كانت استعلامات التحقق من وجود اسم مستخدم تقتل قاعدة بياناتنا ببطء. في...

14 أبريل، 2026 قراءة المزيد

خوارزميات

من كارثة توصيات الطرق إلى سحر ‘دكسترا’: كيف أنقذتنا الخوارزميات من جحيم المسارات غير المثالية

في هذه المقالة، يشارك أبو عمر، مطور برمجيات فلسطيني، قصة حقيقية عن فشل نظام توصيات المسارات في أحد المشاريع، وكيف كانت "خوارزمية دكسترا" هي المنقذ....

19 أبريل، 2026 قراءة المزيد

خوارزميات

كنا نرهق قاعدة بياناتنا بأسئلة ‘هل هذا موجود؟’: كيف أنقذنا ‘مرشح بلوم’ (Bloom Filter) من جحيم الاستعلامات غير الضرورية؟

في هذه المقالة، أشارككم قصة حقيقية عن كيفية مواجهتنا لمشكلة استعلامات "التحقق من الوجود" التي كانت ترهق قاعدة بياناتنا، وكيف كان "مرشح بلوم" (Bloom Filter)...

23 مايو، 2026 قراءة المزيد

خوارزميات

البحث عن أقرب سائق كان يجمد التطبيق: كيف أنقذتنا ‘شجرة كيه-دي’ (k-d tree) من جحيم البحث الشامل؟

أشارككم قصة حقيقية من مسيرتي كمبرمج، عندما كان تطبيقنا ينهار تحت ضغط البحث عن أقرب سائق. اكتشفوا كيف أنقذتنا خوارزمية "شجرة كيه-دي" (k-d tree) من...

29 أبريل، 2026 قراءة المزيد

خوارزميات

الذاكرة مقابل الدقة: كيف أنقذتنا مرشحات بلوم (Bloom Filters) من جحيم التحقق من التفرد في البيانات الضخمة؟

أنا أبو عمر، وفي هذه المقالة سأشارككم قصة من الميدان عن معاناتنا مع التحقق من البيانات في الأنظمة الضخمة، وكيف كانت هياكل البيانات الاحتمالية، وتحديداً...

17 مايو، 2026 قراءة المزيد

خوارزميات

كان التحقق من تفرد البيانات يقتل أداءنا: كيف أنقذنا ‘مرشح بلوم’ (Bloom Filter) من جحيم الاستعلامات المكلفة؟

في إحدى الليالي الطويلة والمُرهقة، كان أداء نظامنا ينهار تحت ضغط استعلامات التحقق من التفرد. في هذه المقالة، أسرد لكم كيف أنقذنا هيكل بيانات احتمالي...

29 مايو، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد