خوارزميات

قاعدة بياناتنا كانت تحتضر: كيف أنقذتنا “فلاتر بلوم” من جحيم التحقق من التكرار؟

أبو عمر 2 مايو، 2026 1 دقائق قراءة

قهوة باردة وأنين الخوادم: حكاية من قلب الخندق

أذكر ذلك المساء جيداً، كانت الساعة قد تجاوزت الثانية بعد منتصف الليل. أنا وفريق العمل كنا في حالة استنفار قصوى. أطلقنا قبل أسابيع خدمة جديدة لتقصير الروابط، وبدأت الخدمة تحقق نجاحاً لم نتوقعه. لكن مع هذا النجاح، بدأت تظهر وحوش لم تكن في الحسبان. كانت خوادم قاعدة البيانات “بتونّ” وتئن من الألم، وكأنها تستغيث. مؤشرات استخدام المعالج والذاكرة كانت في المنطقة الحمراء بشكل دائم، وزمن استجابة الخدمة بدأ يتدهور بشكل مخيف.

المشكلة كانت واضحة كشمس فلسطين في عز الصيف: كلما أراد مستخدم إنشاء رابط قصير جديد، كان نظامنا بحاجة للتأكد أولاً أن هذا الرابط المُختصر (مثلاً `mysite.com/xyz123`) غير موجود مسبقاً في قاعدة البيانات. هذا يعني أن كل عملية “إضافة” كان يسبقها عملية “بحث” أو SELECT. مع ملايين الروابط المخزنة، أصبحت عملية البحث هذه عنق الزجاجة الذي يخنق النظام بأكمله. جربنا كل الحلول التقليدية: تحسين الفهارس (Indexes)، زيادة موارد الخوادم… لكن كل هذا كان كمن يضع ضمادة على جرح ينزف بغزارة. كنا في جحيم حقيقي من عمليات التحقق من التكرار.

في ليلة من تلك الليالي الطويلة، وبينما كنت أحدق في شاشة سجلات الأخطاء (Error Logs) وعينيّ نصف مغمضتين، لمعت في ذهني فكرة من محاضرة قديمة في الجامعة عن “هياكل البيانات الاحتمالية”. تذكرت اسماً غريباً: “فلتر بلوم” (Bloom Filter). قلت لزميلي مازحاً: “شو رأيك نجرب حل سحري؟ يمكن يزبط”. لم أكن أدرك وقتها أن هذه “المزحة” ستكون هي الحل الذي سينقذ مشروعنا بأكمله.

ما هو وحش “التحقق من التكرار” الذي كان يلتهم مواردنا؟

قبل أن نغوص في الحل، دعونا نفهم المشكلة بعمق أكبر. تخيل أن لديك مكتبة ضخمة تحتوي على ملايين الكتب. كلما أردت إضافة كتاب جديد، عليك أن تبحث في كل فهارس المكتبة لتتأكد أن هذا الكتاب (بنفس العنوان والطبعة) غير موجود. في البداية، عندما تكون الكتب قليلة، العملية سريعة. لكن عندما تمتلئ الرفوف، يصبح البحث مهمة شاقة ومستهلكة للوقت.

هذا بالضبط ما كان يحدث في قاعدة بياناتنا. كل استعلام SELECT * FROM urls WHERE short_code = '...'; كان يجبر قاعدة البيانات على البحث في فهرس ضخم. ومع آلاف الطلبات في الثانية، كانت قاعدة البيانات تقضي معظم وقتها في البحث بدلاً من إضافة البيانات الجديدة. هذا يسمى “I/O bottleneck” أو “عنق زجاجة الإدخال/الإخراج”، وهو عدو الأداء الأول في الأنظمة الكبيرة.

المنقذ الساحر: ما هي “فلاتر بلوم”؟

فلتر بلوم هو هيكل بيانات احتمالي (Probabilistic Data Structure) فائق الكفاءة من حيث المساحة، مصمم ليجيب على سؤال واحد فقط: “هل هذا العنصر عضو في هذه المجموعة؟”.

لكن هنا تكمن الخدعة: إجابته ليست دائماً دقيقة 100%.

إذا قال الفلتر: “هذا العنصر بالتأكيد ليس موجوداً“، فهو صادق 100%.
إذا قال الفلتر: “هذا العنصر قد يكون موجوداً“، فهنا يوجد احتمال صغير أن تكون الإجابة خاطئة (وهو ما يسمى “False Positive” أو “الإيجابية الكاذبة”).

الأمر الأهم هو أنه لا يعطي أبداً نتيجة “سلبية كاذبة” (False Negative). أي أنه مستحيل أن يقول لك “العنصر غير موجود” بينما هو في الحقيقة موجود.

نصيحة من أبو عمر: فكر في فلتر بلوم كحارس أمن سريع جداً يقف على باب قاعدة البيانات. لا يعرف كل الأسماء الموجودة بالداخل، لكنه يحمل “قائمة اشتباه”. إذا لم يكن اسمك في قائمته، يسمح لك بالمرور فوراً (لأنك بالتأكيد جديد). أما إذا كان اسمك في قائمته، فإنه يوقفك ويقول: “انتظر، دعني أتأكد من المدير بالداخل”. هذا “التأكد من المدير” هو استعلام الـ SELECT الذي نود تقليله.

كيف يعمل هذا السحر من الداخل؟

يعتمد فلتر بلوم على مكونين رئيسيين:

مصفوفة بتات (Bit Array): تخيل أنها سلسلة طويلة جداً من الأصفار، مثلاً `[0, 0, 0, 0, … , 0]`.
عدة دوال هاش (Hash Functions): وهي دوال رياضية تحوّل أي مُدخل (مثل نص الرابط القصير) إلى رقم فريد (أو شبه فريد) ضمن نطاق معين.

عملية الإضافة (Add)

عندما نضيف عنصراً جديداً (مثلاً الرابط القصير `xyz123`) إلى الفلتر:

نمرر العنصر `xyz123` على كل دوال الهاش (لنقل 3 دوال).
كل دالة هاش ستعطينا ناتجاً مختلفاً (وهو عبارة عن رقم يمثل “موقع” أو “index” في مصفوفة البتات). مثلاً:
- hash1('xyz123') -> 15
- hash2('xyz123') -> 120
- hash3('xyz123') -> 542
نذهب إلى هذه المواقع في مصفوفة البتات ونغير قيمتها من `0` إلى `1`.

الآن، مصفوفة البتات أصبحت تحمل “بصمة” هذا العنصر.

عملية التحقق (Check)

عندما نريد التحقق من وجود عنصر ما (مثلاً `abc987`):

نمرر العنصر `abc987` على نفس دوال الهاش الثلاث.
ننظر إلى المواقع الناتجة في مصفوفة البتات.
إذا كان واحد على الأقل من هذه المواقع قيمته `0`، فهذا يعني أن هذا العنصر لم تتم إضافته من قبل. إجابة مؤكدة 100% بأنه “غير موجود”.
إذا كانت كل المواقع الناتجة قيمتها `1`، فهذا يعني أن العنصر “قد يكون موجوداً”. لماذا “قد يكون”؟ لأنه من المحتمل أن تكون هذه المواقع قد تم تحويلها إلى `1` بواسطة عناصر أخرى مختلفة تصادف أن بصماتها تتقاطع في هذه النقاط. وهذا هو مصدر “الإيجابية الكاذبة”.

مثال برمجي بسيط (باستخدام بايثون)

لتقريب الصورة، إليك مثال بسيط باستخدام مكتبة `pybloom_live` في بايثون. (يمكنك تثبيتها بـ `pip install pybloom-live`).


from pybloom_live import BloomFilter

# لنقم بإنشاء فلتر بلوم يتسع لـ 10,000 عنصر تقريباً
# مع نسبة خطأ (false positive) تبلغ 1%
# المكتبة ستقوم تلقائياً بحساب حجم مصفوفة البتات وعدد دوال الهاش المثالي.
capacity = 10000
error_rate = 0.01

bloom = BloomFilter(capacity=capacity, error_rate=error_rate)

# لنضف بعض الروابط القصيرة التي لدينا بالفعل في قاعدة البيانات
existing_short_urls = ["aBcDeF", "xYz123", "pQrStU"]

for url in existing_short_urls:
    print(f"إضافة الرابط '{url}' إلى الفلتر...")
    bloom.add(url)

print("n--- بدأ التحقق ---n")

# 1. التحقق من رابط موجود بالفعل
url_to_check_1 = "xYz123"
if url_to_check_1 in bloom:
    print(f"الفلتر يقول: الرابط '{url_to_check_1}' قد يكون موجوداً. (صحيح)")
else:
    print(f"الفلتر يقول: الرابط '{url_to_check_1}' غير موجود. (خطأ)") # هذا لن يحدث

# 2. التحقق من رابط جديد وغير موجود بالتأكيد
url_to_check_2 = "newLink"
if url_to_check_2 in bloom:
    print(f"الفلتر يقول: الرابط '{url_to_check_2}' قد يكون موجوداً. (إيجابية كاذبة محتملة)")
else:
    print(f"الفلتر يقول: الرابط '{url_to_check_2}' بالتأكيد غير موجود. (صحيح)")

# 3. مثال على احتمالية الإيجابية الكاذبة
# (قد لا تحدث في هذا المثال البسيط، لكنها ممكنة في نظام حقيقي)
url_to_check_3 = "someOther"
if url_to_check_3 in bloom:
    # هذا يعني أننا الآن فقط سنذهب لقاعدة البيانات لنتأكد
    print(f"الفلتر يقول: الرابط '{url_to_check_3}' قد يكون موجوداً. سنتحقق الآن من قاعدة البيانات.")
else:
    print(f"الفلتر يقول: الرابط '{url_to_check_3}' بالتأكيد غير موجود. لا داعي للذهاب لقاعدة البيانات.")

العودة إلى أرض المعركة: كيف طبقنا الحل؟

بعد أن استوعبنا الفكرة، قمنا بتغيير منطق إنشاء الروابط القصيرة في نظامنا ليتبع الخطوات التالية:

عند بدء تشغيل التطبيق، نقوم بتحميل فلتر بلوم في الذاكرة (إما من ملف أو من مخزن بيانات سريع مثل Redis) يحتوي على بصمات كل الروابط القصيرة الموجودة حالياً.
عندما يطلب مستخدم رابطاً قصيراً جديداً:
1. أولاً، نتحقق من وجود الرابط في فلتر بلوم.
2. إذا قال الفلتر “غير موجود”: هذا رائع! هذا يعني بنسبة 100% أن الرابط جديد. نقوم بإضافته مباشرة إلى قاعدة البيانات، ثم نضيفه إلى فلتر بلوم في الذاكرة. (تخطينا استعلام الـ SELECT المكلف!).
3. إذا قال الفلتر “قد يكون موجوداً”: هنا فقط، وفقط في هذه الحالة، نقوم بتنفيذ استعلام SELECT على قاعدة البيانات للتأكد بشكل قاطع.
  - إذا وجدناه فعلاً، نخبر المستخدم أن الرابط محجوز.
  - إذا لم نجده (وهذه هي حالة الإيجابية الكاذبة)، نقوم بإضافته إلى قاعدة البيانات.

النتيجة كانت مذهلة. أكثر من 99% من محاولات إنشاء الروابط كانت لروابط جديدة وفريدة. هذا يعني أننا تخلصنا من أكثر من 99% من استعلامات SELECT التي كانت تخنق قاعدة بياناتنا. انخفض الحمل على الخوادم بشكل هائل، وعادت سرعة الاستجابة إلى طبيعتها. قاعدة البيانات ارتاحت وأخذت نفساً عميقاً، ونحن أيضاً. 😉

الخلاصة يا جماعة الخير ونصائح عملية

فلتر بلوم ليس حلاً لكل المشاكل، لكنه أداة عبقرية في جعبة المبرمج لحالات استخدام محددة. تذكر هذه النقاط:

✅ متى تستخدمه؟ عندما تحتاج إلى التحقق من وجود عنصر في مجموعة كبيرة جداً بسرعة، وتستطيع تحمل نسبة صغيرة من الإيجابيات الكاذبة. أمثلة: التحقق من أسماء المستخدمين المتاحة، حظر المواقع الضارة، تجنب عرض الأخبار المكررة للمستخدم.
❌ متى لا تستخدمه؟ عندما لا تستطيع تحمل أي إيجابيات كاذبة على الإطلاق، أو عندما تحتاج إلى حذف عناصر من المجموعة (فلتر بلوم القياسي لا يدعم الحذف، لكن هناك أنواع أخرى مثل “Counting Bloom Filter” تدعمه بتكلفة أكبر في المساحة).
🔧 الموازنة مهمة: حجم الفلتر وعدد دوال الهاش يحددان نسبة الخطأ. كلما زاد الحجم وزادت الدوال، قلت نسبة الخطأ، لكن زاد استهلاك الذاكرة والمعالج. استخدم حاسبات متوفرة على الإنترنت لتحديد القيم المثلى لمشروعك.

في عالم البرمجة، الحلول الأكثر أناقة ليست دائماً الأكثر تعقيداً. أحياناً، العودة إلى الأساسيات والخوارزميات الكلاسيكية يمكن أن تقدم حلولاً بسيطة وفعالة لمشاكل حديثة ومعقدة. لا تستهينوا أبداً بقوة هياكل البيانات البسيطة، فقد تكون هي طوق النجاة الذي لم تكونوا تتوقعونه. 🚀

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

خوارزميات

كنا نرهق قاعدة البيانات بسؤال ‘هل هذا موجود؟’: كيف أنقذنا ‘فلتر بلوم’ من جحيم الاستعلامات غير الضرورية؟

في هذه المقالة، أسرد لكم قصة حقيقية من واقع العمل، كيف أنقذنا نظامنا من ضغط الاستعلامات الهائل باستخدام هيكل بيانات بسيط وعبقري يُدعى "فلتر بلوم"....

21 مايو، 2026 قراءة المزيد

خوارزميات

كان البحث عن ‘الشبيه’ في بياناتنا مثل البحث عن إبرة في الكون: كيف أنقذتنا ‘التجزئة الحساسة للموقع’ (LSH) من جحيم المقارنات الكاملة؟

في هذه المقالة، أشارككم قصة حقيقية من معركتنا مع البيانات الضخمة وكيف كانت خوارزمية التجزئة الحساسة للموقع (LSH) هي طوق النجاة. سنغوص في تفاصيل هذه...

22 مايو، 2026 قراءة المزيد

خوارزميات

بحثي كان أعمى وبطيء: كيف أنقذتني ‘مرشحات بلوم’ (Bloom Filters) من جحيم التحقق المكلف؟

أشارككم قصة حقيقية من مسيرتي كمبرمج، عندما كادت استعلامات التحقق البسيطة أن تدمر أداء نظام كامل. سأشرح لكم كيف كانت خوارزمية "مرشح بلوم" (Bloom Filter)...

4 أبريل، 2026 قراءة المزيد

بودكاست

خوارزميات

هياكل البيانات الاحتمالية: كيف تقلل استهلاك الذاكرة مع الحفاظ على الدقة؟

اكتشف كيف يمكن لهياكل البيانات الاحتمالية، مثل مرشحات بلوم و HyperLogLog، أن تحدث ثورة في طريقة تعاملك مع البيانات الضخمة. تعلم كيف تحقق دقة عالية...

9 يناير، 2026 قراءة المزيد

خوارزميات

حساباتنا كانت تعيد اختراع العجلة: كيف أنقذتنا ‘البرمجة الديناميكية’ من جحيم التكرار الحاسوبي؟

أشارككم قصة من قلب المعركة البرمجية، كيف كاد التكرار أن يقتل أداء نظامنا، وكيف ظهرت "البرمجة الديناميكية" كالمنقذ. في هذه المقالة، سنغوص في هذا المفهوم...

24 أبريل، 2026 قراءة المزيد

خوارزميات

كانت قاعدة بياناتنا تستنزفها الأشباح: كيف أنقذتنا ‘مرشحات بلوم’ من جحيم الاستعلامات الضائعة؟

في عالم البرمجة، ليست كل المشاكل تتطلب حلولاً دقيقة 100%. أشارككم قصة من قلب المعركة التقنية، وكيف أنقذنا هيكل بيانات احتمالي بسيط يُدعى 'مرشح بلوم'...

9 مايو، 2026 قراءة المزيد

خوارزميات

كنا نرهق قاعدة بياناتنا بأسئلة ‘هل هذا موجود؟’: كيف أنقذنا ‘مرشح بلوم’ (Bloom Filter) من جحيم الاستعلامات غير الضرورية؟

في هذه المقالة، أشارككم قصة حقيقية عن كيفية مواجهتنا لمشكلة استعلامات "التحقق من الوجود" التي كانت ترهق قاعدة بياناتنا، وكيف كان "مرشح بلوم" (Bloom Filter)...

23 مايو، 2026 قراءة المزيد

خوارزميات

A*: نجم الذكاء الاصطناعي الذي يضيء طريق الحلول (شرح عملي ببايثون)

اكتشف خوارزمية A*، النجم الساطع في عالم الذكاء الاصطناعي، وكيف تساعد في إيجاد المسار الأمثل. دليل شامل مع أمثلة بايثون عملية لتطبيقها في مشاريعك.

27 ديسمبر، 2025 قراءة المزيد

خوارزميات

مساراتي كانت متاهة: كيف أنقذتني خوارزمية دايكسترا من البحث العشوائي عن أقصر طريق؟

أشارككم قصة شخصية عن التيه في التخطيط وكيف تحولت الفوضى إلى نظام بفضل خوارزمية 'دايكسترا'. سنتعلم معًا، خطوة بخطوة وبالكود، كيف تجد هذه الخوارزمية العبقرية...

27 مارس، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد