ذكاء اصطناعي

كنا نغرق في بحر البيانات: كيف أنقذنا ‘الإشراف الضعيف’ (Weak Supervision) من جحيم التسمية اليدوية؟

أبو عمر 21 مايو، 2026 2 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله.

اسمحولي اليوم أحكيلكم قصة صارت معي ومع فريقي قبل فترة، قصة فيها شوية يأس، وشوية قهوة، وكثير من الكود. كنا شغالين على مشروع طموح لتحليل مشاعر العملاء لمنتج جديد، وعندنا كنز… أو بالأحرى، جبل ضخم من البيانات: مئات الآلاف من التعليقات والمراجعات على وسائل التواصل الاجتماعي ومنتديات النقاش. المشكلة؟ كلها بيانات خام، غير مسماة (unlabeled). يعني مجرد نصوص مرمية قدامنا، ما بنعرف أيها إيجابي وأيها سلبي.

اجتمعنا في المكتب، والكل متحمس. واحد من الشباب، الله يجزيه الخير، فتح ملف إكسل وبدأ يحسب: “لو كل واحد فينا سمّى (label) ٥٠٠ تعليق في اليوم… وبافتراض إنه ما أكلنا ولا شربنا ولا نمنا… بنخلص بعد ٨ شهور!”.

ساد صمت رهيب في الغرفة. ٨ شهور؟ والمشروع لازم يتسلم بعد شهرين! وقتها حسيت حالي بغرق حرفيًا. كل هاي البيانات اللي المفروض تكون كنز، تحولت لعبء ثقيل. فكرة إني أقضي أنا وفريقي شهور طويلة في عمل روتيني ممل ومضنٍ زي تسمية البيانات كانت كابوس. زي ما بنحكي عنا في فلسطين، “شغلانة بتجيب الجلطة”.

في ليلة من الليالي، وأنا بقلّب في الأوراق البحثية وبشرب فنجان القهوة الثالث، لمحت مصطلح ما كان جديد عليّ، بس عمري ما جربته بشكل جدي: Weak Supervision أو “الإشراف الضعيف”. قرأت عنه أكثر، وشعرت بشعاع من الأمل. هل ممكن يكون هذا هو طوق النجاة اللي بنستناه؟ هل ممكن نعلّم الآلة بدون ما نكون إحنا نفسنا “المعلمين” اللي بنصحح كل واجب؟

ومن هنا بدأت رحلتنا اللي بدي أشارككم تفاصيلها اليوم. رحلة أنقذتنا من جحيم التسمية اليدوية وفتحت عيوننا على طريقة تفكير جديدة كليًا في التعامل مع البيانات.

ما هو الإشراف الضعيف (Weak Supervision)؟ وليش هو طوق النجاة؟

عشان نفهم الإشراف الضعيف، خلينا نرجع خطوة لورا. في عالم تعلم الآلة، الطريقة التقليدية هي “التعلم المُشرَف” (Supervised Learning). تخيل إنك بتعلّم طفل صغير يميز بين القطط والكلاب. بتجيبله آلاف الصور (بيانات)، وبتقوله على كل صورة: “هاي قطة”، “هذا كلب” (تسميات – labels). بعد فترة، بيصير الطفل قادر يميز لحاله. هاي الطريقة ممتازة، بس مشكلتها إنها بتحتاج “مُشرِف” (إنت) يقعد يسمّي كل صورة وصورة. وهذا هو بالضبط عنق الزجاجة في 90% من مشاريع الذكاء الاصطناعي اليوم: توفير بيانات مُسماة بجودة عالية وبكميات كبيرة.

الإشراف الضعيف بيجي ويقول: “طيب، شو رأيك لو ما اعتمدنا على مُشرِف واحد خبير، واعتمدنا على مجموعة من “المساعدين” اللي كل واحد فيهم عنده فكرة عن الموضوع، بس مش خبير 100%؟”.

الإشراف الضعيف هو جسر بين عالمين:

التعلم المُشرَف (Supervised Learning): يحتاج بيانات مسماة بدقة 100%، وهذا مكلف وبطيء.
التعلم غير المُشرَف (Unsupervised Learning): لا يحتاج أي تسميات، ولكنه غالبًا ما يُستخدم لاكتشاف الأنماط وليس للمهام التصنيفية المحددة.

الإشراف الضعيف هو فن استخدام مصادر تسمية “ضعيفة” (noisy)، “غير دقيقة”، أو “غير مباشرة” لإنشاء تسميات احتمالية (probabilistic labels) لكميات هائلة من البيانات، ومن ثم استخدام هذه التسميات لتدريب نموذج تعلم آلة قوي.

الفكرة عبقرية ببساطتها: بدلًا من السعي وراء الكمال في كل تسمية، نحن ن abraza (نحتضن) الفوضى والضوضاء، ونبني نظامًا يستخلص الحقيقة من بينها.

كيف بنولّد هاي التسميات “الضعيفة”؟ مصادر القوة في ضعفها

هنا يكمن جوهر الموضوع. من وين نجيب هاي التسميات “الضعيفة” أو “غير الدقيقة”؟ المصادر كثيرة، والإبداع هو سيد الموقف. هذه بعض الطرق اللي استخدمناها وما زلنا نستخدمها:

1. الوظائف الكاشفة (Labeling Functions – LFs): قلب الإشراف الضعيف النابض

هذا هو السلاح السري والأقوى. الوظيفة الكاشفة هي ببساطة دالة برمجية (مجموعة من الأكواد) بتكتبها بنفسك عشان تحاول تخمن تسمية نقطة البيانات. هي عبارة عن قاعدة بسيطة أو “حدس” برمجي. لا يشترط أن تكون صحيحة دائمًا، وهذا هو جمالها!

في مشروعنا لتحليل المشاعر، كانت بعض وظائفنا الكاشفة كالتالي:

LF based on Keywords: لو النص بيحتوي على كلمات مثل “ممتاز”، “رائع”، “شكراً”، “مبدعين”، فمن المرجح أنه إيجابي.
LF based on Negative Keywords: لو النص بيحتوي على كلمات مثل “سيء”، “مشكلة”، “بطيء”، “للأسف”، “خيبة أمل”، فمن المرجح أنه سلبي.
LF based on Regular Expressions: كنا نبحث عن أنماط معينة، مثل وجود علامتي استفهام أو أكثر مع كلمة “متى” (مثل “متى يوصل الطلب؟؟”)، وهذا قد يدل على استفسار أو عدم رضا (سلبي).
LF based on an External Model: استخدمنا نموذج تحليل مشاعر جاهز (pre-trained)، لكنه لم يكن دقيقًا للهجتنا العامية. بدلًا من اعتماده كحل نهائي، استخدمناه كوظيفة كاشفة! يعطينا تخمينًا، ونحن نأخذه بعين الاعتبار مع باقي الوظائف.

الفكرة هي أن تكتب العديد من هذه الوظائف، كل واحدة تغطي جانبًا صغيرًا من المشكلة. كل وظيفة كاشفة هي “خبير ضعيف” يساهم برأيه.

2. الاستدلال على البنية (Harnessing Data Structure)

أحيانًا، البيانات نفسها تحمل أدلة. في بعض المواقع، تجد أقسامًا مثل “قسم الشكاوى” أو “قسم الشكر والتقدير”. أي تعليق يُنشر في قسم الشكاوى هو على الأغلب سلبي. هذه معلومة هيكلية يمكن تحويلها لوظيفة كاشفة قوية جدًا.

3. الاستعانة بمصادر خارجية (Crowdsourcing) ولكن بذكاء

يمكن استخدام منصات مثل Amazon Mechanical Turk للحصول على تسميات من البشر. لكن بدلًا من أن تطلب من 3-5 أشخاص تسمية كل عنصر لضمان الجودة (وهذا مكلف)، يمكنك أن تطلب من شخص واحد فقط تسمية كل عنصر. النتيجة ستكون “ضعيفة” وغير موثوقة 100%، لكنها مصدر آخر من مصادر الإشراف الضعيف.

من الفوضى إلى النظام: نموذج التسمية (Label Model)

طيب يا أبو عمر، صار عنا لكل تعليق مجموعة من التسميات المتضاربة من وظائفنا الكاشفة. وحدة بتقول “إيجابي”، والثانية بتقول “سلبي”، والثالثة ما عندها رأي (abstain). شو نعمل بهاي الفوضى؟

هنا يأتي دور “نموذج التسمية” (Label Model). هذا هو العقل المدبر للعملية. هو نموذج إحصائي (غالبًا ما يكون نموذجًا توليديًا – generative model) يقوم بالآتي:

يأخذ مخرجات جميع الوظائف الكاشفة لكل نقاط البيانات.
يحلل أداء هذه الوظائف: يكتشف أيها أكثر دقة، وأيها يميل إلى التصويت معًا، وأيها يميل إلى التعارض.
“يوازن” بين آراء كل الخبراء الضعفاء، ويعطي وزنًا أكبر للوظائف التي يثق بها أكثر.
في النهاية، يُنتج تسمية واحدة “موحدة” لكل نقطة بيانات. لكنها ليست تسمية قاطعة (إيجابي/سلبي)، بل هي تسمية احتمالية (مثلاً: 90% إيجابي، 10% سلبي).

هذه التسميات الاحتمالية هي الذهب الخالص. الآن أصبح لدينا مئات الآلاف من التعليقات، وكل تعليق لديه تسمية احتمالية تم إنشاؤها تلقائيًا. لقد حولنا البيانات الخام غير المسماة إلى بيانات مسماة “بشكل ضعيف” ولكن بكمية هائلة.

مثال عملي: من الكود إلى النتيجة (مع مكتبة Snorkel)

الكلام النظري جميل، لكن “الحكي ما بيطعمي خبز”. خلينا نشوف كيف ممكن نطبق هذا الكلام عمليًا باستخدام مكتبة بايثون الشهيرة في هذا المجال: Snorkel.

تخيل أن لدينا DataFrame في Pandas اسمه df_unlabeled يحتوي على عمود text.


# استيراد المكتبات اللازمة
from snorkel.labeling import labeling_function, PandasLFApplier, LabelModel
from snorkel.labeling.model import MajorityLabelVoter

# تعريف الثوابت للتسميات
ABSTAIN = -1
NEGATIVE = 0
POSITIVE = 1

# --- الخطوة 1: كتابة الوظائف الكاشفة (Labeling Functions) ---

@labeling_function()
def contains_positive_keyword(x):
    """إذا احتوى النص على كلمات إيجابية"""
    positive_keywords = ["ممتاز", "رائع", "شكرا", "جميل"]
    return POSITIVE if any(word in x.text.lower() for word in positive_keywords) else ABSTAIN

@labeling_function()
def contains_negative_keyword(x):
    """إذا احتوى النص على كلمات سلبية"""
    negative_keywords = ["سيء", "مشكلة", "بطيء", "خيبة"]
    return NEGATIVE if any(word in x.text.lower() for word in negative_keywords) else ABSTAIN

@labeling_function()
def text_length_is_short(x):
    """النصوص القصيرة جدا (أقل من 3 كلمات) غالبا ما تكون سلبية أو شكاوى"""
    return NEGATIVE if len(x.text.split()) < 3 else ABSTAIN

# قائمة بكل الوظائف الكاشفة
lfs = [contains_positive_keyword, contains_negative_keyword, text_length_is_short]

# --- الخطوة 2: تطبيق الوظائف الكاشفة على البيانات غير المسماة ---
applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=df_unlabeled)

# L_train الآن هي مصفوفة تحتوي على تسميات من كل وظيفة لكل نقطة بيانات

# --- الخطوة 3: تدريب نموذج التسمية (Label Model) ---
# سيقوم هذا النموذج بتعلم دقة كل وظيفة كاشفة والترابط بينها
label_model = LabelModel(cardinality=2, verbose=True)
label_model.fit(L_train=L_train, n_epochs=500, log_freq=100, seed=123)

# --- الخطوة 4: الحصول على التسميات الاحتمالية ---
# هذا هو الخرج النهائي من عملية الإشراف الضعيف
probs_train = label_model.predict_proba(L=L_train)

# الآن لدينا 'probs_train' وهي مصفوفة احتمالات يمكننا استخدامها لتدريب أي نموذج نهائي

# --- الخطوة 5: تدريب النموذج النهائي (Discriminative Model) ---
# على سبيل المثال، يمكننا استخدام هذه الاحتمالات لتدريب نموذج XGBoost أو شبكة عصبونية
# from sklearn.linear_model import LogisticRegression
#
# # يمكننا تحويل الاحتمالات إلى تسميات قوية لتدريب نموذج أبسط
# labels_train = label_model.predict(L=L_train)
#
# final_model = LogisticRegression()
# final_model.fit(X=df_unlabeled['text_features'], y=labels_train) # تحتاج لتحويل النص إلى ميزات (features) أولاً

بهذه الخطوات، حولنا مشكلة استغرقت 8 أشهر من العمل اليدوي إلى بضع مئات من أسطر الكود وعملية استغرقت بضع ساعات من تشغيل الكمبيوتر. النتيجة؟ نموذج تحليل مشاعر فعال جدًا تم تدريبه على مجموعة بيانات ضخمة، وكل ذلك دون تسمية يدوية واحدة!

نصائح من خبرة “أبو عمر”

لا تبالغ في تعقيد وظائف الكشف (LFs): ابدأ بالبسيط جدًا. “Keep it simple, ya jama’a”. وظيفة تبحث عن كلمة واحدة أفضل من لا شيء. يمكنك دائمًا إضافة التعقيد لاحقًا.
الجودة أهم من الكمية (حتى في LFs): عدد قليل من الوظائف الكاشفة المدروسة جيدًا والتي تغطي جوانب مختلفة من المشكلة (coverage) أفضل من 100 وظيفة متشابهة ومرتبطة ببعضها البعض (correlated).
كرّر وحسّن (Iterate): الإشراف الضعيف هو عملية تكرارية. اكتب بعض الوظائف، درّب نموذج التسمية، وحلل أداءه. انظر إلى الحالات التي تفشل فيها وظائفك أو تتعارض، ثم اكتب وظائف جديدة لمعالجة هذه الحالات.
استخدم مجموعة بيانات صغيرة للتحقق (Validation Set): حتى لو كانت 100-200 نقطة بيانات فقط، قم بتسميتها يدويًا. هذه المجموعة الصغيرة (التي نسميها gold-standard) لا تقدر بثمن لتقييم مدى جودة نموذج التسمية الخاص بك، وتوجيه عملية تطوير وظائف الكشف.
أنت الخبير بمجالك (Domain Expert): أفضل الوظائف الكاشفة تأتي من فهمك العميق للبيانات والمشكلة. المصطلحات الخاصة بمجالك، الاختصارات، الأنماط المتكررة… كل هذه كنوز يمكنك تحويلها إلى وظائف كاشفة فعالة.

الخلاصة: وداعاً لملل التسمية، ومرحباً بالإبداع 💡

الإشراف الضعيف ليس مجرد تقنية، بل هو نقلة نوعية في التفكير. إنه يحول تركيزنا كمطورين وعلماء بيانات من كوننا “عمال تسمية” (labelers) إلى “معلمين” (teachers). بدلاً من إعطاء السمكة للنموذج (البيانات المسماة)، نحن نعلمه كيف يصطاد (عبر الوظائف الكاشفة).

هذا التحول يعني أن وقتنا الثمين يمكن استثماره في الإبداع، وفهم البيانات بشكل أعمق، وبناء حلول برمجية ذكية، بدلاً من إهداره في مهام متكررة ومملة.

في المرة القادمة التي تواجه فيها جبلاً من البيانات غير المسماة، لا تيأس ولا تفكر في قضاء الأشهر القادمة في تسميتها يدويًا. تذكر قصة أبو عمر، وتذكر أن هناك طريقة أفضل وأذكى.

يلا شدوا الهمة، وخلينا نبني المستقبل ببياناتنا، حتى لو ما كانت كلها مسماة. والله ولي التوفيق. 💪

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

من الشيفرة إلى الجسد: كيف غيرت الروبوتات الإنسانية عالمنا في 2026؟ شهادة أبو عمر من قلب الميدان

في 2026، خرج الذكاء الاصطناعي من شاشاتنا ليتحرك بيننا. كمهندس فلسطيني، رأيت بأم عيني كيف تحولت الروبوتات الإنسانية من مجرد خيال علمي إلى شريك عمل...

3 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

ثورة التريليون دولار: كيف سيُغير الذكاء الاصطناعي وجه الطب إلى الأبد؟

من واقع تجربة شخصية، أسرد لكم كيف ينتقل الذكاء الاصطناعي من مجرد أداة مساعدة إلى محرك أساسي في التشخيص الطبي والرعاية الصحية، مُحدثًا ثورة اقتصادية...

4 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

من الصفر: كيف تبني Trigger مخصص في n8n وتتجاوز حدود الأتمتة الجاهزة

هل تعتمد على الـ Triggers الجاهزة في n8n وتشعر بالقيود؟ في هذا الدليل العميق، يشرح أبو عمر، خبير البرمجيات، كيف تبني Trigger مخصص من الصفر،...

28 يناير، 2026 قراءة المزيد

ذكاء اصطناعي

كانت قرارات نموذجنا صندوقاً أسود: كيف أنقذنا LIME و SHAP من جحيم ‘لا أعرف لماذا’؟

هل سبق لك أن بنيت نموذج تعلم آلة أعطاك نتائج غريبة ولم تعرف كيف تفسرها؟ في هذه المقالة، أشارككم تجربتي كـ 'أبو عمر' مع نماذج...

25 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

نموذجنا اللغوي كان يهذي: كيف أنقذنا ‘الجلب المعزز للتوليد’ (RAG) من جحيم الهلوسة؟

في هذه المقالة، أشارككم تجربتي كـ "أبو عمر" مع هلوسة النماذج اللغوية وكيف كانت كارثية. سنغوص في أعماق تقنية 'الجلب المعزز للتوليد' (RAG) كحل جذري،...

16 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

١٢ ألف مفتاح سري في نماذج الذكاء الاصطناعي: كيف تحول التدريب إلى كارثة أمنية؟

هل تعلم أن نماذج الذكاء الاصطناعي التي نستخدمها يوميًا قد تحتوي على آلاف المفاتيح السرية وكلمات المرور؟ نستعرض قصة حقيقية لكارثة أمنية كشفها باحثون، ونقدم...

6 فبراير، 2026 قراءة المزيد

بودكاست

ذكاء اصطناعي

من نص إلى فيلم في 2026: كيف غير الذكاء الاصطناعي عالم الفيديو؟ شهادة من أبو عمر

أنا أبو عمر، مبرمج فلسطيني. في هذه المقالة، آخذكم في رحلة إلى عام 2026 حيث لم يعد إنتاج الفيديو بالذكاء الاصطناعي خيالاً، بل أداة يومية...

17 يناير، 2026 قراءة المزيد

ذكاء اصطناعي

كان نموذجنا اللغوي يهذي: كيف أنقذنا ‘التوليد المعزز بالاسترجاع’ (RAG) من جحيم الهلوسة؟

أنا أبو عمر، مبرمج فلسطيني، وأشارككم اليوم قصة حقيقية عن معاناة فريقنا مع "هلوسة" النماذج اللغوية. سنغوص في أعماق تقنية RAG التي كانت طوق النجاة،...

20 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا تنسى: كيف أنقذنا الذكاء الاصطناعي من ‘النسيان الكارثي’ بالتعلم المستمر؟

في هذه المقالة، أشارككم قصة من واقع تجربتي مع نماذج الذكاء الاصطناعي التي "تنسى" ما تعلمته، وهي مشكلة تُعرف بـ "النسيان الكارثي". سنغوص في أعماق...

14 مايو، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد