خوارزميات

بحثنا النصي كان أعمى: كيف أنقذتنا خوارزمية TF-IDF من جحيم النتائج غير ذات الصلة؟

أبو عمر 22 أبريل، 2026 1 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله.

خلوني أحكيلكم قصة صارت معي قبل كم سنة. كنا شغالين على مشروع كبير لأرشفة آلاف الوثائق والمقالات لعميل مهم. جزء أساسي من المشروع كان بناء محرك بحث داخلي يساعد المستخدمين يلاقوا اللي بدهم إياه بسرعة. في البداية، عملنا إشي بسيط ومباشر: أي كلمة ببحث عنها المستخدم، بنروح بنعدّها في كل وثيقة، والوثيقة اللي فيها الكلمة مكررة أكثر، بتطلع أول إشي. إشي بسيط ومنطقي، صح؟

غلط. غلط كبير.

بعد إطلاق النسخة الأولية، بلشت الشكاوي تيجي. اتصل عليّ مدير المشروع عند العميل، زلمة ختيار وفاهم شغله، وقلي بنبرة حادة: “يا أبو عمر، شو هالشغل؟ عم ببحث عن ‘قانون حماية الملكية الفكرية’، بيطلعلي كل وثيقة فيها كلمة ‘قانون’ بالأول! بدي قانون الملكية الفكرية تحديداً، مش أي قانون والسلام!”.

وقتها حسيت حالي انحطيت في موقف صعب. البحث تبعنا كان “أعمى”. كان بعامل كل الكلمات بنفس الأهمية. كلمة “قانون” وكلمة “الملكية” وكلمة “الفكرية” الهم نفس الوزن عنده، مع إنه منطقياً، كلمة “الملكية” و “الفكرية” هم اللي بميزوا هاي الوثيقة عن غيرها. قعدت مع حالي، شربت فنجان قهوة ثقيل، وقلت لحالي: “يا أبو عمر، لازم يكون في حل أذكى من هيك”. وهون بدأت رحلتي مع خوارزمية بسيطة لكن عبقرية، غيرت نظرتنا للبحث النصي تماماً: خوارزمية TF-IDF.

المشكلة: لماذا كان بحثنا “أعمى”؟

المشكلة اللي واجهناها، واللي بتواجه أي نظام بحث بسيط، هي “تساوي قيمة الكلمات”. النظام الأولي تبعنا كان مبني على فكرة بسيطة اسمها “Bag of Words” أو “كيس الكلمات”، اللي هي بس بتعد تكرار الكلمات بدون فهم للسياق أو لأهمية الكلمة.

هذا الأسلوب أدى لمشكلتين رئيسيتين:

هيمنة الكلمات الشائعة (Stop Words): كلمات مثل “في”، “من”، “إلى”، “هو”، “هي”، “كان”، موجودة بكثرة في كل النصوص العربية. نظامنا كان يعطيها وزن كبير لأنها بتتكرر كثير، وبالتالي كانت النتائج تطلع غير دقيقة بالمرة.
ضياع الكلمات المفتاحية النادرة: في مثال العميل، كلمة “قانون” شائعة جداً في مجموعة الوثائق القانونية، بينما كلمتي “الملكية” و”الفكرية” أقل شيوعاً، وبالتالي أكثر تحديداً وتمييزاً للموضوع. البحث الأعمى تبعنا كان يغرق هاي الكلمات المهمة في بحر من الكلمات العامة.

كنا بحاجة لطريقة تخلي الخوارزمية تفهم إنه مش كل الكلمات انخلقت متساوية. كنا بحاجة لطريقة تقدر تميز الكلمة المهمة من الكلمة العادية. وهنا يأتي دور الـ TF-IDF.

الحل السحري: تفكيك خوارزمية TF-IDF

اسم الخوارزمية “TF-IDF” ممكن يخوّف شوي، لكنها في الحقيقة بسيطة جداً ومكونة من جزأين، كل جزء بجاوب على سؤال مهم.

TF-IDF هي اختصار لـ Term Frequency – Inverse Document Frequency. خلينا نفصصها وحدة وحدة.

الجزء الأول: تكرار المصطلح (Term Frequency – TF)

هذا الجزء بسيط ومباشر، وبجاوب على سؤال: “ما مدى تكرار كلمة معينة داخل المستند الواحد؟”

المنطق بقول إنه إذا كلمة تكررت كثير في مقالة معينة، فهي على الأغلب كلمة مهمة بالنسبة لهي المقالة بالذات. مثلاً، لو عنا مقالة عن “الذكاء الاصطناعي”، طبيعي نلاقي كلمة “الذكاء” و”الاصطناعي” مكررة فيها أكثر من مرة.

أبسط طريقة لحساب الـ TF هي:

TF(كلمة, مستند) = (عدد مرات ظهور الكلمة في المستند) / (إجمالي عدد الكلمات في المستند)

هيك بنكون عملنا “تطبيع” (Normalization) للقيمة، عشان ما تتأثر بحجم المستند. المستندات الطويلة طبيعي يكون فيها تكرار أعلى.

الجزء الثاني: مقلوب تردد المستند (Inverse Document Frequency – IDF)

وهذا هو الجزء العبقري اللي حل مشكلتنا. الـ IDF بجاوب على سؤال مختلف تماماً: “ما مدى ندرة هذه الكلمة في كل المستندات الموجودة عندي؟”

الفكرة هون هي إعطاء وزن أكبر للكلمات النادرة، وتقليل وزن الكلمات الشائعة جداً (زي “في” و “على” و “كان”). إذا كلمة ظهرت في كل المستندات تقريباً، فهي على الأغلب كلمة عامة وغير مهمة للتمييز بين المستندات. أما إذا ظهرت في عدد قليل من المستندات، فهذا يعني أنها كلمة متخصصة ومهمة.

طريقة حسابه كالتالي:

IDF(كلمة) = لوغاريتم (إجمالي عدد المستندات) / (عدد المستندات التي تحتوي على الكلمة + 1)

بنستخدم اللوغاريتم عشان “نهدّي” القيم شوي وما تطلع أرقام فلكية، وبنضيف “+1” في المقام عشان نتجنب القسمة على صفر لو الكلمة مش موجودة أبداً.

لاحظ الفرق: الـ TF بيهتم بالمستند الواحد، أما الـ IDF بيهتم بكل “الخزان” أو “الكوربس” (Corpus) تبع المستندات.

الضربة القاضية: حساب نتيجة TF-IDF النهائية

الآن، عشان نحصل على الوزن النهائي لكل كلمة في كل مستند، بنضرب القيمتين ببعض بكل بساطة:

TF-IDF(كلمة, مستند) = TF(كلمة, مستند) * IDF(كلمة)

النتيجة؟ الكلمات اللي بتحصل على أعلى قيمة TF-IDF هي الكلمات اللي:

تتكرر بشكل معقول داخل مستند واحد (TF مرتفع).
ونادرة نسبياً على مستوى كل المستندات (IDF مرتفع).

وهذا بالضبط ما كنا نحتاجه! كلمة “قانون” في مثال العميل كان الـ IDF تبعها منخفض جداً لأنها موجودة في كل مكان، بينما كلمتي “الملكية” و “الفكرية” كان الـ IDF تبعهم أعلى بكثير، ولما انضربوا بالـ TF تبعهم، أعطوا وزن نهائي أعلى بكثير، وصارت الوثائق الصحيحة تظهر في مقدمة نتائج البحث.

من النظرية إلى التطبيق: مثال بالكود

الكلام النظري حلو، بس إحنا المبرمجين بنحب نشوف الكود. “ورجيني الكود”، زي ما بنحكي. لحسن الحظ، تطبيق TF-IDF اليوم سهل جداً بفضل المكتبات الجاهزة مثل scikit-learn في بايثون.

لنفترض عنا مجموعة المستندات التالية:


# documents_arabic.py
corpus = [
    "الذكاء الاصطناعي هو مستقبل التكنولوجيا",
    "يعتبر تعلم الآلة فرع من فروع الذكاء الاصطناعي",
    "مستقبل فلسطين يعتمد على التكنولوجيا والتعليم",
]

وهاي طريقة حساب مصفوفة TF-IDF باستخدام بايثون:


from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# نفس مجموعة المستندات من المثال السابق
corpus = [
    "الذكاء الاصطناعي هو مستقبل التكنولوجيا",
    "يعتبر تعلم الآلة فرع من فروع الذكاء الاصطناعي",
    "مستقبل فلسطين يعتمد على التكنولوجيا والتعليم",
]

# 1. تهيئة الـ Vectorizer
# هذا الكائن سيقوم بكل العمل الشاق: التقطيع، العد، وحساب TF-IDF
vectorizer = TfidfVectorizer()

# 2. تدريب النموذج وحساب المصفوفة
# .fit_transform بتعمل شغلتين: بتتعلم كل الكلمات (المفردات) في الكوربس
# وبتحول كل مستند إلى متجه (vector) من أرقام TF-IDF
tfidf_matrix = vectorizer.fit_transform(corpus)

# 3. عرض النتائج بشكل مفهوم
# لنرى الكلمات التي تعلمها النموذج
feature_names = vectorizer.get_feature_names_out()

# لنحول المصفوفة المتفرقة (sparse matrix) إلى مصفوفة عادية ونعرضها
# باستخدام مكتبة Pandas لتسهيل القراءة
df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

print(df)

النتيجة اللي رح تطلعلك رح تكون جدول، كل صف يمثل مستند، وكل عمود يمثل كلمة، والقيم اللي جوا هي أوزان TF-IDF المحسوبة. رح تلاحظ إنه كلمة زي “الاصطناعي” الها وزن عالي في المستند الأول والثاني، لكن وزنها صفر في المستند الثالث. وكلمة زي “فلسطين” الها وزن عالي جداً في المستند الثالث فقط، لأنها نادرة ومهمة في سياقها.

نصائح أبو عمر العملية 📝

بعد سنين من الشغل مع هاي الخوارزمية وغيرها، جمعت شوية نصائح من أرض الواقع بتمنى تفيدكم:

التنظيف أولاً (Preprocessing is King): قبل ما ترمي النص على الخوارزمية، لازم تنظفه. هاي أهم خطوة. اعمل “تطبيع” (Normalization) للحروف (مثلاً توحيد الـ “أ” والـ “إ” والـ “آ” إلى “ا”). احذف علامات الترقيم والأرقام إذا ما كانت مهمة. هاي الخطوة لحالها بترفع دقة النتائج 50% على الأقل.
التعامل الذكي مع الكلمات المتوقفة (Stop Words): معظم المكتبات بتيجي مع قائمة جاهزة للـ Stop Words (زي “من”, “إلى”, “على”). استخدامها فكرة جيدة كبداية، لكن كن حذراً. أحياناً، كلمة تعتبر Stop Word في سياق عام، بتكون مهمة في سياق متخصص. دائماً راجع القائمة وعدّلها حسب مشروعك.
استخدم التجذيع أو التصريف (Stemming/Lemmatization): الكلمات “يعلم”، “تعليم”، “معلم”، “علوم” كلها من نفس الجذر “علم”. استخدام تقنيات التجذيع (Stemming) أو التصريف (Lemmatization) لتوحيد هاي الكلمات تحت جذر واحد ممكن يحسن النتائج بشكل كبير، خصوصاً في اللغة العربية الغنية بالاشتقاقات.
اعرف حدود الـ TF-IDF: هاي الخوارزمية عظيمة، لكنها مش الحل لكل إشي. هي لا تفهم معنى الكلمات أو السياق (مثلاً، ما بتعرف إنه “سيارة” و”مركبة” الهم نفس المعنى تقريباً). ولا بتهتم لترتيب الكلمات. لما توصل لمرحلة تحتاج فيها فهم أعمق للمعنى، وقتها لازم تبلش تطلع على تقنيات أحدث مثل Word Embeddings (مثل Word2Vec) ونماذج Transformers (مثل BERT).

الخلاصة: من الظلام إلى النور

خوارزمية TF-IDF كانت بالنسبة إلنا نقلة نوعية. أخذت محرك البحث تبعنا من نظام “أعمى” بيرجع نتائج عشوائية وغير مفيدة، إلى نظام “ذكي” قادر يميز بين الغث والسمين، ويعرف شو هي الكلمات المهمة فعلاً في كل مستند. هي مش مجرد معادلة رياضية، بل هي طريقة تفكير في تقييم أهمية المعلومات.

نصيحتي الأخيرة لكل مطور أو مهتم بهذا المجال: لا تستهينوا بالأساسيات. خوارزمية مثل TF-IDF، عمرها عقود، لكنها لا تزال أداة قوية جداً ومفيدة في عدد لا يحصى من التطبيقات، من محركات البحث وأنظمة التوصية إلى تصنيف النصوص وتحليل المشاعر. افهمها جيداً، طبقها صح، ورح تفتحلك أبواب كثيرة في عالم معالجة اللغات الطبيعية والذكاء الاصطناعي. بالتوفيق يا جماعة! 👍

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

خوارزميات

قاعدة بياناتنا كانت تجيب على ‘هل هذا موجود؟’ ببطء قاتل: كيف أنقذنا ‘مرشح بلوم’ (Bloom Filter) من جحيم الاستعلامات المكلفة؟

أتذكر تلك الليلة جيدًا، كوب القهوة البارد بجانبي وشاشة المراقبة أمامي تصرخ بالأحمر. كانت استعلامات التحقق من وجود اسم مستخدم تقتل قاعدة بياناتنا ببطء. في...

14 أبريل، 2026 قراءة المزيد

خوارزميات

A*: خوارزمية النجم الأسطوري: دليل شامل مع أمثلة بايثون لرحلة بحث مثالية

اكتشف خوارزمية A*، جوهرة البحث في الذكاء الاصطناعي. تعلم كيف تعمل، وكيف تنفذها بلغة بايثون، وحسن أداءها لتشق طريقك نحو الحلول الأمثل.

26 ديسمبر، 2025 قراءة المزيد

بودكاست

خوارزميات

خوارزمية A*: دليلك الشامل لإيجاد المسار الأمثل في الذكاء الاصطناعي والألعاب (مع أمثلة عملية)

اكتشف قوة خوارزمية A* في إيجاد المسار الأمثل بكفاءة عالية. تعرف على كيفية عملها، تطبيقاتها، وكيفية تطبيقها عملياً في مشاريعك الخاصة في الذكاء الاصطناعي وتطوير...

27 ديسمبر، 2025 قراءة المزيد

خوارزميات

البحث في قوائمي المرتبة كان يزحف: كيف أنقذني ‘البحث الثنائي’ من جحيم البطء الخطي؟

أشارككم قصة حقيقية من مسيرتي كمبرمج، عندما كاد تطبيق بطيء أن يكلفني مشروعاً كاملاً. اكتشفوا معي كيف أنقذتني خوارزمية "البحث الثنائي" البسيطة، وحولت تطبيقاً يزحف...

8 أبريل، 2026 قراءة المزيد

بودكاست

خوارزميات

موازنة الأحمال: دليلك الشامل لخوارزميات توزيع الأحمال (Load Balancing) لتحقيق أداء مثالي

تعرف على خوارزميات موازنة الأحمال الأساسية (Round Robin, Least Connections, Consistent Hashing) وكيفية اختيار الخوارزمية المناسبة لتطبيقك. دليل عملي للمطورين مع أمثلة وتجارب واقعية.

28 ديسمبر، 2025 قراءة المزيد

خوارزميات

مساراتي كانت متاهة: كيف أنقذتني خوارزمية ‘ديكسترا’ من جحيم التخطيط العشوائي؟

أشارككم قصة شخصية عن فوضى التخطيط وكيف تحولت إلى نظام بفضل خوارزمية ديكسترا. هذه المقالة دليلكم الشامل لفهم وتطبيق هذه الخوارزمية العبقرية، من المفهوم الأساسي...

2 أبريل، 2026 قراءة المزيد

خوارزميات

ذاكرتي كانت تنفجر مع كل عملية تحقق: كيف أنقذني ‘فلتر بلوم’ من جحيم التحقق المكلف؟

في إحدى المشاريع، كادت أنظمة التحقق المكلفة أن تدمر الخوادم وتستهلك كل الذاكرة. تعالوا معي في هذه المقالة لأشارككم كيف كانت خوارزمية "فلتر بلوم" البسيطة...

9 أبريل، 2026 قراءة المزيد

خوارزميات

A*: نجم الذكاء الاصطناعي الذي يضيء طريق الحلول (شرح عملي ببايثون)

اكتشف خوارزمية A*، النجم الساطع في عالم الذكاء الاصطناعي، وكيف تساعد في إيجاد المسار الأمثل. دليل شامل مع أمثلة بايثون عملية لتطبيقها في مشاريعك.

27 ديسمبر، 2025 قراءة المزيد

خوارزميات

مساراتي كانت تتشابك في متاهة: كيف أنقذتني خوارزمية ‘دايكسترا’ من جحيم أقصر الطرق الخاطئة؟

كنت أظن أن أقصر طريق هو دائماً الخيار الأذكى، حتى وجدت نفسي في مشروع ينهار بسبب هذه الفكرة الساذجة. في هذه المقالة، أشارككم قصة كيف...

30 مارس، 2026 قراءة المزيد

آخر المدونات

ذكاء اصطناعي

نماذجك اللغوية لا تعرف شيئاً عن عملك: دليلك العملي لتغذيتها بالمعرفة الخاصة باستخدام RAG

النماذج اللغوية الكبيرة مثل GPT-4 قوية جداً، لكنها تجهل تماماً بيانات شركتك الداخلية. في هذه المقالة، سأشاركك كـ "أبو عمر" تجربتي في استخدام تقنية RAG...

22 أبريل، 2026 قراءة المزيد

تسويق رقمي

ميزانيتنا التسويقية كانت ثقباً أسود: كيف أنقذنا ‘نموذج الإحالة متعدد اللمسات’ من جحيم إهدار الميزانية؟

هل تشعر أن ميزانيتك التسويقية تتبخر دون عائد واضح؟ في هذه المقالة، أشارككم قصة حقيقية عن كيفية انتقالنا من نموذج 'النقرة الأخيرة' الكارثي إلى 'الإحالة...

22 أبريل، 2026 قراءة المزيد

تجربة المستخدم والابداع البصري

واجهاتنا كانت فوضى: كيف أنقذنا ‘نظام التصميم’ (Design System) من جحيم عدم الاتساق؟

بتذكر مرة كنا في اجتماع، وعلى الشاشة الكبيرة تطبيقاتنا المختلفة... وفجأة، لاحظ المدير التنفيذي شغلة بسيطة: "ليش في عنا خمس درجات مختلفة من اللون الأزرق...

21 أبريل، 2026 قراءة المزيد

برمجة وقواعد بيانات

كيف أنقذنا ‘التحميل المسبق’ (Eager Loading) تطبيقاتنا من جحيم مشكلة N+1

تطبيقاتنا كانت تطلق وابلاً من الاستعلامات لقاعدة البيانات، مما تسبب في بطء كارثي. في هذه المقالة، أسرد لكم قصة حقيقية كيف اكتشفنا وحش الـ N+1...

21 أبريل، 2026 قراءة المزيد

الشبكات والـ APIs

واجهة تطبيقاتنا كانت بوابة للجحيم: كيف أنقذتنا ‘بوابة الـ API’ من فوضى الخدمات المصغرة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحولت معمارية الخدمات المصغرة لدينا من فوضى عارمة إلى نظام متناغم بفضل مفهوم بسيط وقوي اسمه "بوابة...

21 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

استراتيجية التعافي من الكوارث متعددة المناطق: كيف أنقذتنا من جحيم توقف السحابة؟

أتذكر جيداً ذلك اليوم الذي توقفت فيه منطقة سحابية رئيسية وكاد أن ينهار كل شيء. في هذه المقالة، أشارككم قصة نجاة تطبيقنا بفضل استراتيجية التعافي...

21 أبريل، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

سيرتي الذاتية كانت صيحة في وادٍ: كيف أنقذتني ‘محفظة المشاريع الحية’ من جحيم الرفض الصامت؟

أنا أبو عمر، وهذا سرد لتجربتي مع الرفض الصامت في البحث عن وظيفة وكيف تحولت من مجرد سيرة ذاتية مهملة إلى مرشح مطلوب. اكتشف معي...

21 أبريل، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

خادمنا الوحيد كان على وشك الانفجار: كيف أنقذنا ‘موازن الأحمال’ من جحيم النقاط الفردية للفشل؟

في ليلة إطلاق صاخبة، كاد خادمنا الوحيد أن ينهار تحت الضغط. هذه قصة كيف أنقذنا موازن الأحمال (Load Balancer)، ولماذا يجب أن يكون صديقك المفضل...

21 أبريل، 2026 قراءة المزيد

التكنلوجيا المالية Fintech

سجلاتنا المالية كانت لغزاً: كيف أنقذنا “محرك التسوية الآلي” من جحيم التناقضات الصامتة؟

في هذه المقالة، أشارككم قصة حقيقية من قلب المعاناة مع السجلات المالية المتضاربة، وكيف قمنا بتصميم وبناء "محرك تسوية آلي" من الصفر. سنتعمق في التفاصيل...

21 أبريل، 2026 قراءة المزيد

المشكلة: لماذا كان بحثنا “أعمى”؟

الحل السحري: تفكيك خوارزمية TF-IDF

الجزء الأول: تكرار المصطلح (Term Frequency – TF)

الجزء الثاني: مقلوب تردد المستند (Inverse Document Frequency – IDF)

الضربة القاضية: حساب نتيجة TF-IDF النهائية

من النظرية إلى التطبيق: مثال بالكود

نصائح أبو عمر العملية 📝

الخلاصة: من الظلام إلى النور

سجل دخولك لعمل نقاش تفاعلي

مراجعة رأيك قبل النشر

آراء من النقاشات

مقالات ذات صلة

آخر المدونات