طلباتي كانت تختفي بين الخدمات: كيف أنقذني ‘التتبع الموزع’ (Distributed Tracing) من جحيم تحليل الأعطال؟

أبو عمر 3 أبريل، 2026 2 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله.

اسمحوا لي اليوم أحكي لكم قصة صارت معي قبل كم سنة، قصة علّمتني درس ما بنساه. كنا في الشركة شغالين على إطلاق منصة تجارة إلكترونية جديدة، وكلها مبنية على معمارية الخدمات المصغرة (Microservices). كان عنا خدمة للمنتجات، وخدمة للسلة، وخدمة للطلبات، وخدمة للدفع، وغيرهم كثار… الوضع كان تمام والكل مبسوط بالإنجاز.

إجا اليوم الموعود، يوم “الجمعة البيضاء”، والضغط على الموقع كان هائل. فجأة، بدأت توصلنا شكاوى من المستخدمين: “دفعت الفلوس وانسحبت من حسابي، بس الطلب مش موجود في حسابي!”. ندخل على نظام إدارة الطلبات، وفعلاً، الطلب مش موجود. نروح على سجلات خدمة الدفع، نلاقي عملية الدفع ناجحة. نروح على سجلات خدمة الطلبات، ما في أثر للطلب هاد بالذات. ضاعت الطاسة، زي ما بنحكي.

قعدنا أيام وليالي نحاول نربط السجلات (logs) بين الخدمات المختلفة. كل خدمة بتسجل بمعزل عن الثانية، وكمية السجلات كانت مرعبة. كنا زي اللي بدور على إبرة في كومة قش، بل في عدة أكوام قش! كل فريق يتهم الفريق الثاني، والضغط من الإدارة كان يزيد. “وين راحت الطلبات يا أبو عمر؟ شو القصة؟”. شعرت وقتها بعجز حقيقي، وبدأ الشك يتسلل لنفسي: هل كانت فكرة الخدمات المصغرة قراراً صائباً أصلاً؟

ومن رحم هذه المعاناة، وُلد الحل الذي أنقذنا، والذي أصبح اليوم جزءاً لا يتجزأ من أي نظام أقوم ببنائه: التتبع الموزع (Distributed Tracing).

لماذا تفشل الطرق التقليدية في عالم الخدمات المصغرة؟

في الأنظمة القديمة المتجانسة (Monolithic)، كانت الحياة أبسط. كل الكود موجود في مكان واحد. لما يصير خطأ، بتفتح ملف السجلات (log file)، وبتقرأ التسلسل الزمني للأحداث من فوق لتحت، وبتعرف وين المشكلة. بسيط ومباشر.

لكن مع الخدمات المصغرة، اختلف الوضع تماماً. الطلب الواحد من المستخدم (مثلاً، إتمام عملية شراء) ممكن يمر على 5 أو 10 أو حتى 20 خدمة مختلفة قبل ما يكتمل. كل خدمة لها سجلاتها الخاصة، وسيرفراتها الخاصة، وقواعد بياناتها الخاصة. لما تحدث مشكلة، السؤال بصير:

في أي خدمة حدث الخطأ؟
ما هو المسار الكامل الذي سلكه هذا الطلب تحديداً عبر الخدمات؟
أي خدمة هي التي تسببت في بطء الاستجابة؟ هل هي خدمة (أ) أم خدمة (ب) التي نادتها؟

محاولة الإجابة على هذه الأسئلة باستخدام السجلات التقليدية وحدها هو جحيم حقيقي. وهنا يأتي دور بطل قصتنا.

ما هو التتبع الموزع (Distributed Tracing)؟

بكل بساطة، تخيل أن كل طلب يدخل نظامك هو طرد بريدي. التتبع الموزع هو نظام التتبع الذي يتيح لك رؤية رحلة هذا الطرد من لحظة إرساله، مروراً بكل محطات الفرز والتوزيع، حتى وصوله إلى وجهته النهائية. لو ضاع الطرد أو تأخر، يمكنك بسهولة رؤية آخر محطة كان فيها وتحديد مكان المشكلة.

تقنياً، يقوم التتبع الموزع على ربط كل العمليات التي تشكل طلباً واحداً عبر الخدمات المختلفة باستخدام مُعرّفات فريدة. دعونا نفهم المكونات الأساسية:

Trace: يمثل الرحلة الكاملة للطلب عبر جميع الخدمات. له مُعرّف فريد يسمى Trace ID.
Span: يمثل عملية واحدة محددة داخل هذه الرحلة (مثلاً، استدعاء HTTP لخدمة الدفع، أو استعلام لقاعدة البيانات). كل Span له مُعرّف فريد خاص به (Span ID) ويحتوي أيضاً على Trace ID لربطه بالرحلة الكاملة.
Parent-Child Relationship: كل Span (باستثناء الأول) يكون له أب (Parent Span). هذا يسمح لنا ببناء شجرة هرمية تظهر كيف استدعت العمليات بعضها البعض.
Context Propagation: هذه هي الآلية السحرية. عندما تقوم خدمة (أ) باستدعاء خدمة (ب)، فإنها تقوم بتمرير “السياق” (Context) الذي يحتوي على Trace ID و Span ID الخاص بالأب، غالباً عبر هيدرز الـ HTTP (مثل traceparent). خدمة (ب) تقرأ هذا السياق وتعرف أنها جزء من رحلة أكبر، فتقوم بإنشاء Span جديد خاص بها وتربطه بالأب.

مثال لتوضيح الفكرة

مستخدم يضغط “إتمام الشراء”.
خدمة الواجهة الأمامية (API Gateway) تستقبل الطلب. هنا تبدأ الرحلة:
- يتم إنشاء Trace ID فريد (مثلاً: abc-123).
- يتم إنشاء أول Span (الأب) لهذه العملية (مثلاً: span-A).
الـ API Gateway يستدعي خدمة الطلبات (Order Service) لإنشاء طلب جديد.
- يتم تمرير Trace ID: abc-123 و Parent ID: span-A في هيدر الطلب.
خدمة الطلبات تستقبل الطلب، وتقرأ السياق:
- تنشئ Span جديداً خاصاً بها (span-B) مع نفس الـ Trace ID وتجعل span-A أباه.
- تقوم بحفظ الطلب في قاعدة البيانات (وهذه يمكن أن تكون Span فرعية أخرى!).
خدمة الطلبات تستدعي خدمة الدفع (Payment Service):
- تمرر Trace ID: abc-123 و Parent ID: span-B في الهيدر.
خدمة الدفع تقوم بمعالجة الدفع وتُرجع النتيجة.

كل هذه الـ Spans (A, B, C…) تُرسَل إلى نظام مركزي يقوم بتجميعها وعرضها لك على شكل مخطط زمني (Gantt chart)، يوضح لك مسار الطلب بدقة، وكم من الوقت استغرقت كل خطوة.

نصيحة من أبو عمر: لا تفكر في التتبع الموزع كأداة لتحليل الأخطاء فقط، بل هو أداة لفهم أداء النظام. من خلاله، ستكتشف عنق الزجاجة (bottlenecks) والمشاكل الكامنة قبل أن تتحول إلى كوارث.

أدوات الشغل: كيف نبدأ؟

في الماضي، كان لكل شركة (مثل Google, Uber) نظامها الخاص. لكن اليوم، المجتمع التقني اتفق على معيار موحد ومفتوح المصدر هو OpenTelemetry (OTel). هذا هو الخيار الذي أنصح به بشدة اليوم.

OpenTelemetry يوفر لك مجموعة من المكتبات (SDKs) لكل لغات البرمجة تقريباً. مهمتها هي:

Instrumentation: “تعديل” مكتباتك الشائعة (مثل Express, Flask, HttpClient, JDBC) بشكل تلقائي لإنشاء الـ Spans وتمرير السياق دون تدخل كبير منك.
Data Exporting: إرسال بيانات التتبع (Traces)، والمقاييس (Metrics)، والسجلات (Logs) إلى أي نظام خلفي (Backend) تريده.

أما بالنسبة للأنظمة الخلفية التي تستقبل وتخزن وتعرض هذه البيانات، فأشهر الخيارات مفتوحة المصدر هي:

Jaeger: بدأ في شركة Uber، وهو قوي جداً ومشهور.
Zipkin: بدأ في تويتر، وهو أيضاً خيار ممتاز وبسيط.

وهناك أيضاً حلول سحابية مدفوعة مثل Datadog, New Relic, Honeycomb وغيرها.

مثال عملي بسيط باستخدام Node.js و OpenTelemetry

لنفترض أن لدينا خدمة بسيطة مكتوبة بـ Node.js و Express. انظر كم هو سهل إضافة التتبع الموزع الأساسي.

أولاً، نقوم بإنشاء ملف إعداد لـ OpenTelemetry (مثلاً tracing.js):


// tracing.js
const { NodeSDK } = require('@opentelemetry/sdk-node');
const { ConsoleSpanExporter } = require('@opentelemetry/sdk-trace-node');
const {
  getNodeAutoInstrumentations,
} = require('@opentelemetry/auto-instrumentations-node');
const { JaegerExporter } = require('@opentelemetry/exporter-jaeger');

// إعداد الـ Exporter الذي سيرسل البيانات إلى Jaeger
// يمكن استبداله بـ ConsoleSpanExporter للطباعة في الكونسول فقط
const exporter = new JaegerExporter({
  // يمكن تكوين endpoint هنا
  // endpoint: 'http://localhost:14268/api/traces',
});

const sdk = new NodeSDK({
  // بدلاً من ConsoleSpanExporter، نستخدم JaegerExporter
  traceExporter: exporter, 
  // هذه هي الخطوة السحرية: تقوم بتفعيل التتبع التلقائي لمكتبات Node.js الشائعة
  instrumentations: [getNodeAutoInstrumentations()],
});

// بدء تشغيل الـ SDK
sdk.start();

console.log('Tracing initialized');

// للتعامل مع إغلاق العملية بأمان
process.on('SIGTERM', () => {
  sdk.shutdown()
    .then(() => console.log('Tracing terminated'))
    .catch((error) => console.log('Error terminating tracing', error))
    .finally(() => process.exit(0));
});

الآن، كل ما عليك فعله هو تشغيل هذا الملف قبل تشغيل تطبيقك الرئيسي:


node -r ./tracing.js your-main-app.js

هذا كل شيء! بمجرد القيام بذلك، ستقوم مكتبة OpenTelemetry تلقائياً بالآتي:

لكل طلب HTTP وارد إلى سيرفر Express، ستقوم بإنشاء Span جديد.
إذا كان الطلب يحتوي على هيدر تتبع (قادم من خدمة أخرى)، فستقوم بربط الـ Span الجديد به.
عندما يقوم كودك بإجراء طلب HTTP خارجي (باستخدام http أو axios مثلاً)، ستقوم تلقائياً بحقن هيدرز التتبع في الطلب الصادر.

الآن، عندما تذهب إلى واجهة Jaeger، سترى رسماً بيانياً جميلاً يوضح لك رحلة كل طلب عبر خدماتك المختلفة، مع أزمنة دقيقة لكل خطوة.

الخلاصة: من الظلام إلى النور

التتبع الموزع ليس مجرد أداة تقنية فاخرة، بل هو تغيير جذري في طريقة تفكيرنا وتصحيحنا للأخطاء في الأنظمة الحديثة. إنه ينقلك من التخمين والبحث اليائس في أكوام السجلات، إلى رؤية واضحة ومبنية على البيانات لمسار كل طلب في نظامك.

بالنسبة لقصتي، بعد أن طبقنا التتبع الموزع (استخدمنا Jaeger وقتها)، استغرقنا أقل من 10 دقائق لتحديد المشكلة. اكتشفنا أن خدمة الدفع كانت أحياناً تتأخر في الرد لأكثر من 30 ثانية، وكانت خدمة الطلبات لديها مهلة زمنية (timeout) أقصر، فتفشل وتلغي العملية قبل أن يصلها الرد الإيجابي من خدمة الدفع. لولا التتبع الموزع، لربما بقينا نبحث عن السبب لأسابيع.

نصيحتي الأخيرة لك: لا تنتظر حتى تقع الكارثة. إذا كنت تبني أو تدير نظاماً يعتمد على الخدمات المصغرة، فاجعل “قابلية المراقبة” (Observability) – والتي يعتبر التتبع الموزع أحد أركانها الثلاثة مع السجلات والمقاييس – أولوية قصوى من اليوم الأول. ستشكر نفسك لاحقاً على هذا القرار. 🚀

أتمنى لكم كل التوفيق في مشاريعكم، وإذا عندكم أي سؤال، أنا جاهز.

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

البنية التحتية وإدارة السيرفرات

الذكاء الاصطناعي في التوظيف: كيف تبني هويتك التقنية وتجد أفضل المواهب؟ 🚀

اكتشف كيف يُحدث الذكاء الاصطناعي ثورة في التوظيف، من غربلة السير الذاتية إلى بناء هوية تقنية جاذبة للمواهب. تعلم من تجارب واقعية ونصائح عملية لتطبيق...

23 ديسمبر، 2025 قراءة المزيد

البنية التحتية وإدارة السيرفرات

سيرفراتي كانت فريدة كرقاقات الثلج: كيف أنقذتني “البنية التحتية كشيفرة” (IaC) من جحيم الخوادم المستعصية؟

هل تعاني من خوادم فريدة من نوعها يصعب استنساخها أو إدارتها؟ في هذه المقالة، أشارككم قصتي مع "الخوادم الثلجية" وكيف كانت "البنية التحتية كشيفرة" (IaC)...

3 أبريل، 2026 قراءة المزيد

البنية التحتية وإدارة السيرفرات

خادمي انهار في صمت: كيف أنقذني التسجيل المركزي (Centralized Logging) من جحيم التحقيق الأعمى؟

أشارككم قصة حقيقية عن انهيار خادم في منتصف الليل، وكيف كان التحقيق في المشكلة كالبحث عن إبرة في كومة قش. هذه التجربة علمتني أن التسجيل...

1 أبريل، 2026 قراءة المزيد

بودكاست

البنية التحتية وإدارة السيرفرات

إطلاق العنان لقدرات Linux الكامنة: دليل شامل لضبط النواة (Kernel Tuning)

هل يعاني خادم Linux الخاص بك من الاختناق؟ اكتشف كيف يمكنك تحسين أداء نظامك عن طريق ضبط النواة! دليل عملي يشرح كيفية التعامل مع حدود...

27 ديسمبر، 2025 قراءة المزيد

البنية التحتية وإدارة السيرفرات

الذكاء الاصطناعي وتنمية المهارات: كيف نصنع موظفين خارقين بتقنيات المستقبل؟ 🚀

اكتشف كيف يمكن للذكاء الاصطناعي أن يحوّل فرق العمل إلى وحدات إنتاجية فائقة، من خلال تدريب مخصص، وتحليل دقيق للأداء، وتطوير مستمر للمهارات. تجربة شخصية...

23 ديسمبر، 2025 قراءة المزيد

البنية التحتية وإدارة السيرفرات

الذكاء الاصطناعي في التعليم: ثورة قادمة أم مجرد فقاعة؟ (تجربتي من فلسطين)

استكشف كيف يُحدث الذكاء الاصطناعي ثورة في التعليم، من خلال تجارب شخصية ونصائح عملية من مبرمج فلسطيني، مع أمثلة توضيحية حول كيفية الاستفادة من هذه...

23 ديسمبر، 2025 قراءة المزيد

بودكاست

البنية التحتية وإدارة السيرفرات

Apache أم Nginx: أبو عمر يفك شيفرة أشهر خوادم الويب ويختار الأنسب لمشروعك

في هذه المقالة، أشارككم تجربتي الشخصية مع خوادم الويب Apache و Nginx، وأشرح بأسلوب قصصي وعملي كيف يعمل كل منهما، ومتى تختار أحدهما على الآخر....

12 يناير، 2026 قراءة المزيد

بودكاست

البنية التحتية وإدارة السيرفرات

FinOps في عصر الذكاء الاصطناعي: كيف تتغلب على ضبابية التكاليف وتُحكم السيطرة على ميزانيتك السحابية؟

اكتشف كيف غيّر الذكاء الاصطناعي قواعد اللعبة في الإدارة المالية السحابية (FinOps). تعرّف على التحديات الجديدة، مثل تسعير الرموز (Tokens) وتخصيص تكاليف وحدات GPU المشتركة،...

2 يناير، 2026 قراءة المزيد

البنية التحتية وإدارة السيرفرات

الذكاء الاصطناعي والأمن السيبراني: درع شركتك ضد الهجمات المتطورة (دليل شامل)

اكتشف كيف يمكن للذكاء الاصطناعي أن يحمي شركتك من التهديدات السيبرانية المتزايدة. تعلم كيف تطبق حلول الذكاء الاصطناعي في الأمن السيبراني، وتجنب المخاطر المحتملة، وتضمن...

24 ديسمبر، 2025 قراءة المزيد

آخر المدونات

التوسع والأداء العالي والأحمال

طلبات المستخدمين كانت تنتظر في طابور لا ينتهي: كيف أنقذتني ‘قوائم انتظار الرسائل’ (Message Queues) من جحيم تجربة المستخدم البطيئة؟

أشارككم قصة حقيقية عن مشروع كاد أن يفشل بسبب بطء الاستجابة، وكيف كانت "قوائم انتظار الرسائل" (Message Queues) هي طوق النجاة. سنتعمق في هذا المفهوم،...

3 أبريل، 2026 قراءة المزيد

التكنلوجيا المالية Fintech

حساباتي البنكية كانت جزرًا معزولة: كيف أنقذتني ‘الخدمات المصرفية المفتوحة’ من جحيم إدارة الأموال اليدوية؟

أنا أبو عمر، مطور برمجيات فلسطيني، وهذه قصتي مع إدارة الأموال اليدوية التي كانت كابوسًا شهريًا. سأشارككم كيف حولت "الخدمات المصرفية المفتوحة" (Open Banking) هذا...

3 أبريل، 2026 قراءة المزيد

ادارة الفرق والتنمية البشرية

فريقي كان يخشى قول ‘لا أعرف’: كيف أنقذتني ‘السلامة النفسية’ من جحيم الأخطاء الصامتة؟

أشارككم قصة حقيقية من مسيرتي كقائد فريق تقني، حين كاد الخوف من الاعتراف بالجهل أن يكلفنا الكثير. اكتشفوا معي مفهوم "السلامة النفسية" وكيف حوّل فريقنا...

3 أبريل، 2026 قراءة المزيد

اختبارات الاداء والجودة

خدماتي كانت تتحدث لغات مختلفة: كيف أنقذني اختبار العقود (Contract Testing) من جحيم التكامل الهش؟

في عالم الخدمات المصغرة، يمكن أن يتحول التكامل بين الخدمات إلى كابوس. أشارككم قصة من تجربتي وكيف أنقذني "اختبار العقود" (Contract Testing) من هذا الجحيم،...

3 أبريل، 2026 قراءة المزيد

أدوات وانتاجية

التزاماتي البرمجية كانت قنابل موقوتة: كيف أنقذتني خطافات Git (Git Hooks) من جحيم كسر البناء الرئيسي؟

أتذكر جيداً ذلك اليوم الذي كدت فيه أن أكسر البناء الرئيسي للمشروع بسبب خطأ بسيط. في هذه المقالة، أشارككم قصتي مع خطافات Git (Git Hooks)...

3 أبريل، 2026 قراءة المزيد

أتمتة العمليات

تنبيهاتي كانت تضيع في بحر الإيميلات: كيف أنقذني ChatOps من فوضى إدارة الحوادث والنشر؟

في هذه المقالة، أشارككم قصة حقيقية عن كيفية تحولي من مطاردة التنبيهات في صندوق بريد إلكتروني فوضوي إلى إدارة مركزية وفعالة للحوادث وعمليات النشر. سأغوص...

3 أبريل، 2026 قراءة المزيد

نصائح برمجية

وداعاً لـ NullPointerException: كيف أنقذني نمط ‘الكائن الفارغ’ من جحيم التحقق المستمر؟

أنا أبو عمر، وفي هذه المقالة سأشارككم قصة حقيقية من تجربتي مع أخطاء `null` التي كادت أن تدمر مشروعاً كاملاً. سأشرح لكم كيف أنقذني نمط...

3 أبريل، 2026 قراءة المزيد

معمارية البرمجيات

منطق البرمجي السجين: كيف حررتني المعمارية السداسية (Hexagonal Architecture) من قيود أطر العمل؟

أشارككم قصتي مع مشروع كاد أن ينهار بسبب التبعيات، وكيف أنقذتني "المعمارية السداسية" أو "Ports and Adapters". اكتشفوا معي كيف تحررون منطقكم البرمجي من سجن...

3 أبريل، 2026 قراءة المزيد

خوارزميات

خوارزمية A*: كيف أنقذتني من جحيم المسارات الغبية وشخصياتي التي تصطدم بالجدران

أشارككم تجربتي الشخصية مع خوارزميات إيجاد المسار، وكيف انتقلت من شخصيات ألعاب غبية تصطدم بالجدران إلى مسارات ذكية وفعالة باستخدام خوارزمية A*. دليل شامل للمبتدئين...

3 أبريل، 2026 قراءة المزيد

لماذا تفشل الطرق التقليدية في عالم الخدمات المصغرة؟

ما هو التتبع الموزع (Distributed Tracing)؟

مثال لتوضيح الفكرة

أدوات الشغل: كيف نبدأ؟

مثال عملي بسيط باستخدام Node.js و OpenTelemetry

الخلاصة: من الظلام إلى النور

سجل دخولك لعمل نقاش تفاعلي

مراجعة رأيك قبل النشر

آراء من النقاشات

مقالات ذات صلة

آخر المدونات