من التوقف التام إلى النجاة: كيف أنقذتنا استراتيجية “الضوء المرشد” (Pilot Light) يوم انقطعت السحابة؟

أبو عمر 4 يونيو، 2026 1 دقائق قراءة

يا جماعة، السلام عليكم ورحمة الله وبركاته، معكم أخوكم أبو عمر.

خلوني أحكيلكم قصة صارت معي ومع فريقي قبل فترة، قصة فيها شوية توتر، وعرق بارد، وبالآخر درس مهم جدًا في عالم الحوسبة السحابية. كان يوم ثلاثاء عادي، الصبحيات، الواحد بيشرب قهوته وبيراجع مهام اليوم. فجأة، وبدون سابق إنذار، تلفوني وفريق العمل كله صار يرن ويعطي تنبيهات زي المطر الغزير. نظام المراقبة تبعنا (Monitoring System) كان بيصرخ بأعلى صوته: “كل شي واقع! كل شي لا يستجيب!”.

أول فكرة خطرت ببالنا كلنا: “أكيد في حدا من الشباب عمل شي غلط بالكود ونشره على الإنتاج”. بدأنا السباق مع الزمن، كل واحد فينا يفتش ويدور ويحاول يعرف شو المصيبة اللي صارت. لكن بعد دقائق من الفحص والتدقيق، اكتشفنا الحقيقة المرة: المشكلة مش منّا، المشكلة أكبر بكثير. المنطقة السحابية (Cloud Region) الكاملة اللي عليها كل بنيتنا التحتية من سيرفرات وقواعد بيانات… ببساطة “ماتت” أو انقطعت عن الخدمة.

هون بيجي الشعور اللي ما بتمناه لألد أعدائي. شعور العجز التام. كل شغلك، كل تعبك، كل بياناتك، موجودة في مكان ما بتقدر توصله. بالنسبة لشركتنا، هذا كان يعني توقف كامل للبزنس، خسارة مالية كل دقيقة، وفقدان لثقة العملاء. لكن وسط كل هالجحيم، كان في صوت هادي براسي بحكي: “إحنا عاملين حسابنا لهيك يوم”. وهون بدأت قصة نجاح استراتيجية “الضوء المرشد”.

ما هو التعافي من الكوارث (Disaster Recovery)؟ وليش هو مش مجرد “نسخ احتياطي”؟

قبل ما ندخل في تفاصيل استراتيجيتنا، خلينا نكون على نفس الصفحة. كثير من الناس بيفكروا إن “النسخ الاحتياطي” (Backup) هو نفسه “التعافي من الكوارث” (Disaster Recovery أو DR). هالحكي مش دقيق.

النسخ الاحتياطي هو مجرد نسخ بياناتك وحفظها في مكان آمن. لكن التعافي من الكوارث هو الخطة الكاملة اللي بتجاوب على سؤال: “لو كل شي تدمر، كيف بنرجع نشتغل؟ وبأسرع وقت ممكن وبأقل خسارة ممكنة؟”.

هون بيجي عنا مصطلحين مهمين جدًا لازم كل مهندس يعرفهم:

RTO (Recovery Time Objective): أقصى مدة زمنية مسموح فيها لتطبيقك يكون خارج الخدمة. (يعني، كم لازم نكون سريعين عشان نرجع؟ دقائق؟ ساعات؟).
RPO (Recovery Point Objective): أقصى كمية بيانات ممكن نخسرها. (يعني، لو رجعنا، هل بنقبل نخسر بيانات آخر 5 دقائق؟ أو آخر ساعة؟ أو آخر يوم؟).

استراتيجية الـ DR اللي بتختارها بتعتمد بشكل مباشر على أهداف الـ RTO والـ RPO تبعت البزنس تبعك.

استراتيجيات التعافي من الكوارث السحابية: من الأبطأ للأسرع

في عالم السحابة، في عدة استراتيجيات مشهورة للتعافي من الكوارث، كل وحدة الها تكلفتها وتعقيدها وسرعتها. خليني ألخصلكم إياها بشكل بسيط:

1. النسخ الاحتياطي والاستعادة (Backup and Restore)

هاي أبسط طريقة وأرخصها. بتاخذ نسخة احتياطية من بياناتك (مثلاً قاعدة البيانات) وملفاتك وبتحطها في منطقة سحابية تانية. لو صارت كارثة، بتروح على المنطقة الجديدة، وبتنشئ بنية تحتية جديدة من الصفر، وبتعمل استعادة للبيانات من النسخة الاحتياطية. مشكلتها: بطيئة جدًا (RTO عالي بالساعات أو الأيام).

2. الضوء المرشد (Pilot Light) – بطل قصتنا

هون بتبلش الأمور تصير أذكى. الفكرة مأخوذة من سخان المي القديم اللي فيه شعلة صغيرة (Pilot Light) دايماً شغالة. لما تحتاج مي سخنة، هاي الشعلة الصغيرة بتشعل اللهب الكبير فورًا.

في عالم السحابة، هاد معناه إنك بتشغل نسخة مصغرة جدًا من بنيتك التحتية الأساسية في منطقة سحابية أخرى (منطقة التعافي). هاي النسخة المصغرة ممكن تكون مجرد قاعدة بيانات ثانوية بتقرأ البيانات من القاعدة الأساسية بشكل مستمر (Read Replica) وبعض الإعدادات الأساسية. أما السيرفرات والتطبيقات بتكون “مطفية” بس جاهزة للتشغيل على شكل قوالب (Templates/AMIs).

لما تصير الكارثة في المنطقة الأساسية، كل اللي عليك تعمله هو “إشعال اللهب الكبير”:

ترقية قاعدة البيانات الثانوية لتصير أساسية (Promote).
تشغيل السيرفرات والتطبيقات من القوالب الجاهزة.
تحويل الـ DNS عشان يوجه المستخدمين للمنطقة الجديدة.

ميزتها: توازن ممتاز بين التكلفة وسرعة التعافي (RTO بالدقائق).

3. الاستعداد الدافئ (Warm Standby)

هاي نسخة مطورة من الـ Pilot Light. بدل ما تكون السيرفرات مطفية، بتكون شغالة ولكن على حجم أصغر ( مثلاً سيرفر واحد بدل عشرة). يعني نسخة مصغرة ولكن شغالة بالكامل من تطبيقك في منطقة التعافي. لما تصير الكارثة، كل اللي عليك تعمله هو تكبير حجم هاي النسخة (Scale-up) وتحويل الـ DNS. ميزتها: أسرع من الـ Pilot Light (RTO ممكن يكون أقل من 10 دقائق)، لكنها أغلى شوي.

4. المواقع المتعددة النشطة (Multi-Site Active-Active)

هذا هو الحل الأقوى والأغلى والأكثر تعقيدًا. هون بيكون عندك نسختين كاملتين من تطبيقك شغالات بنفس الوقت في منطقتين مختلفتين، والمستخدمين بيتوزعوا عليهم. لو منطقة وقعت، النظام تلقائيًا بيحول كل المستخدمين للمنطقة التانية بدون أي تدخل وبدون أي توقف. ميزتها: RTO و RPO شبه صفر! لكنها تتطلب تصميم هندسي معقد جدًا وتكلفة عالية.

كيف طبقنا استراتيجية “الضوء المرشد” بالتفصيل؟

نرجع لقصتنا. الحمد لله، كنا مستثمرين وقت وجهد في بناء استراتيجية Pilot Light قوية. إليكم المكونات الأساسية اللي أنقذتنا:

1. البنية التحتية ككود (Infrastructure as Code – IaC)

هاي أهم نقطة على الإطلاق. كل بنيتنا التحتية (السيرفرات، الشبكات، قواعد البيانات، اللود بالانسر) كانت مكتوبة على شكل كود باستخدام أداة مثل Terraform. كان عنا ملفات Terraform جاهزة لمنطقة التعافي (DR Region)، قادرة على بناء كل شي بضغطة زر.

نصيحة أبو عمر: إذا ما بتستخدم IaC اليوم، أنت بتلعب بالنار. ابدأ اليوم بتعلم Terraform أو AWS CloudFormation أو Pulumi. حياتك حتصير أسهل بمليون مرة، ومش بس في حالات الكوارث.

2. مزامنة البيانات بشكل مستمر

ما في فايدة من بنية تحتية جديدة لو البيانات قديمة. استخدمنا الخدمات السحابية الأصلية لهذا الغرض:

لقواعد البيانات (RDS): استخدمنا خاصية Cross-Region Read Replica. كان عنا نسخة طبق الأصل من قاعدة بياناتنا الأساسية في منطقة التعافي، والبيانات بتتزامن بشكل شبه فوري.
للملفات (S3): استخدمنا خاصية Cross-Region Replication. أي ملف كان يرفعه المستخدم على السيرفر الأساسي، كان بيتم نسخه تلقائيًا لـ S3 Bucket في منطقة التعافي.

3. أتمتة عملية الفشل والعودة (Automated Failover)

لما وقعت المنطقة الأساسية، ما قعدنا نشتغل يدويًا. كان عنا سكربت (Script) جاهز بيعمل الخطوات التالية بالترتيب:

التحقق من الكارثة: السكربت بيتأكد إن المنطقة الأساسية فعلًا خارج الخدمة.
ترقية قاعدة البيانات: بيقوم بترقية الـ Read Replica في منطقة التعافي لتصير قاعدة بيانات أساسية قابلة للكتابة.
بناء البنية التحتية: بيستدعي Terraform عشان يبني السيرفرات واللود بالانسر وكل شي في منطقة التعافي.
تحديث الـ DNS: بيقوم بتغيير سجلات الـ DNS (باستخدام خدمة مثل AWS Route 53) عشان يوجه كل الترافيك على اللود بالانسر الجديد في منطقة التعافي.

وهذا مثال بسيط جدًا على كيف ممكن يبدو جزء من كود Terraform لتعريف S3 Bucket مع تفعيل النسخ عبر المناطق:


# --- Primary Region Bucket ---
resource "aws_s3_bucket" "primary" {
  provider = aws.primary_region
  bucket   = "my-app-primary-bucket-123"
  
  versioning {
    enabled = true
  }
}

# --- DR Region Bucket ---
resource "aws_s3_bucket" "dr" {
  provider = aws.dr_region
  bucket   = "my-app-dr-bucket-456"

  versioning {
    enabled = true
  }
}

# --- Replication Configuration ---
resource "aws_s3_bucket_replication_configuration" "replication" {
  provider = aws.primary_region
  bucket   = aws_s3_bucket.primary.id
  role     = aws_iam_role.replication_role.arn

  rule {
    id       = "replicate-all"
    status   = "Enabled"
    priority = 1

    destination {
      bucket        = aws_s3_bucket.dr.arn
      storage_class = "STANDARD"
    }

    delete_marker_replication {
      status = "Disabled"
    }
  }
}

هذا الكود بيضمن إنه أي ملف في الـ bucket الأساسي بيتم نسخه للـ bucket في منطقة التعافي.

الخلاصة: الوقاية خير من قنطار علاج 🚀

في ذلك اليوم المشؤوم، بدل ما نقضي ساعات أو أيام في حالة هلع وضياع، فريقنا كان هادئًا ومنظمًا. شغلنا سكربت الأتمتة، وخلال أقل من 20 دقيقة، كان موقعنا وتطبيقنا قد عاد للعمل بشكل كامل من منطقة سحابية أخرى، وبخسارة بيانات تساوي صفر (RPO=0) وزمن توقف قليل جدًا (RTO ~ 20 دقيقة).

الدرس اللي تعلمناه وأتمنى الكل يتعلمه: الكوارث السحابية نادرة، لكنها تحدث. وانقطاع منطقة سحابية كاملة ليس مجرد خيال علمي. الاستثمار في خطة تعافي من الكوارث جيدة ليس رفاهية، بل هو جزء أساسي من الهندسة الاحترافية للمنظومات الحديثة.

نصيحة أخيرة من أخوكم أبو عمر: لا تنتظر وقوع الكارثة لتفكر في الحل. ابدأ اليوم. قيم تطبيقاتك، حدد الـ RTO والـ RPO المناسب لها، واختر استراتيجية الـ DR الصحيحة. استراتيجية “الضوء المرشد” (Pilot Light) هي نقطة بداية ممتازة تجمع بين التكلفة المعقولة والأداء القوي لمعظم الشركات. وتذكر دائمًا: الخطة التي لم يتم اختبارها هي مجرد أمنية. اختبر خطتك بانتظام! 💪

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

الحوسبة السحابية

كل نقرة في لوحة التحكم كانت قنبلة موقوتة: كيف أنقذتني ‘البنية التحتية كشيفرة’ (IaC) من كارثة محققة؟

أشارككم قصة حقيقية عن كارثة كادت أن تدمر مشروعاً كاملاً بسبب نقرة خاطئة في لوحة التحكم السحابية. اكتشفوا كيف أنقذتني منهجية "البنية التحتية كشيفرة" (IaC)...

17 مارس، 2026 قراءة المزيد

الحوسبة السحابية

كانت خوادمنا تلتهم الميزانية: كيف أنقذتنا ‘الحوسبة بلا خوادم’ (Serverless) من جحيم الإدارة والتكاليف؟

أنا أبو عمر، وهذا سرد لتجربتي مع الانتقال إلى الحوسبة بلا خوادم (Serverless). سأشارككم كيف تخلصنا من كابوس إدارة الخوادم وتكاليفها الباهظة، وحولنا تركيزنا بالكامل...

1 مايو، 2026 قراءة المزيد

الحوسبة السحابية

تطبيقي كان على بعد خطأ واحد من الانهيار: كيف أنقذتني استراتيجية Multi-AZ من جحيم نقطة الفشل الوحيدة؟

كنت أظن أن تطبيقي محصّن ضد الفشل، حتى جاءت تلك الليلة المشؤومة التي كادت أن تقضي على كل شيء. في هذه المقالة، أشارككم قصتي مع...

1 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

من “شغّال عندي” إلى الإنتاجية: كيف أنقذتنا الحاويات (Containers) من جحيم اختلاف البيئات

قصة من قلب المعاناة في عالم تطوير البرمجيات، وكيف غيرت تقنيات مثل Docker و Kubernetes طريقة عملنا إلى الأبد. نغوص في رحلة من الفوضى إلى...

27 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

كانت خوادمنا مكلفة ونائمة: كيف أنقذتنا ‘الحوسبة بدون خوادم’ (Serverless) من جحيم الفواتير المنتفخة؟

أشارككم قصة حقيقية من واقع تجربتي كمبرمج، حيث كانت فواتير الخوادم تستنزف ميزانيتنا. اكتشفوا معنا كيف كانت بنية "الحوسبة بدون خوادم" أو Serverless طوق النجاة...

18 مايو، 2026 قراءة المزيد

الحوسبة السحابية

كل نقرة في واجهة السحابة كانت مغامرة: كيف أنقذتنا ‘البنية التحتية كشيفرة’ (IaC) من جحيم التكوينات اليدوية؟

أتذكر جيداً تلك الليلة التي كادت نقرة خاطئة أن تدمر إطلاق مشروعنا بالكامل. في هذه المقالة، أشارككم قصة انتقالنا من فوضى الإعداد اليدوي على السحابة...

20 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

سيرفراتنا كانت تلتهم ميزانيتنا وهي خاملة: كيف أنقذتنا ‘الحوسبة بدون خوادم’ (Serverless) من جحيم الفواتير المنتفخة؟

أشارككم قصة حقيقية من تجربتي كمبرمج، وكيف انتقلنا من سيرفرات مكلفة تعمل 24/7 إلى بنية "بدون خوادم" (Serverless) وفرت علينا أكثر من 90% من التكاليف....

19 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

تطبيقاتنا كانت خاملة وندفع ثمنها: كيف أنقذتنا البنية غير الخادومية (Serverless) من جحيم الموارد المهدرة؟

أشارككم قصة حقيقية من تجربتي كمبرمج، وكيف كانت فواتير الحوسبة السحابية تستنزف ميزانيتنا بسبب خوادم خاملة. اكتشفوا معنا كيف كانت البنية غير الخادومية (Serverless) طوق...

24 أبريل، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد