ذكاء اصطناعي

كان بحثنا يفهم الكلمات لا المعاني: كيف أنقذتنا ‘التضمينات المتجهة’ (Vector Embeddings) من جحيم البحث الحرفي؟

أبو عمر 23 مايو، 2026 1 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله. معكم أخوكم أبو عمر.

بتذكر قبل كم سنة، كنا في الشركة شغالين على نظام أرشفة وبحث داخلي. الهدف كان بسيط: أي موظف جديد أو قديم يقدر يلاقي أي معلومة يحتاجها بسرعة. من سياسات الموارد البشرية للمستندات التقنية. الأمور كانت تبدو سهلة، لكن الواقع كان إشي ثاني خالص.

في يوم من الأيام، إجاني “تيكت” (طلب دعم فني) من موظف جديد، شب حماس وشاطر، خلينا نسميه خالد. خالد كان كاتب في التيكت: “يا جماعة، صارلي ساعة بحاول ألاقي معلومة عن الإجازة المرضية ومش ملاقي إشي! نظام البحث تبعكم شكله خربان”.

أنا بصراحة استغربت، ورحت بنفسي أجرب. كتبت في البحث: “كيفية الحصول على إجازة مرضية”. وفعلاً، النتائج كانت صفر! إما صفحات ما إلها علاقة بالمرة، أو لا شيء على الإطلاق. وقتها حسيت بغصة، كيف نظام صرفنا عليه وقت وجهد زي هيك يفشل في مهمة بسيطة؟

بعد شوية حفر وتنقيب، اكتشفت المصيبة. المستند الرسمي اللي فيه كل المعلومات كان عنوانه الرسمي “إجراءات وسياسة الإجازات السنوية والطارئة”. النظام تبعنا، اللي كان مبني على البحث بالكلمات المفتاحية (Keyword Search)، كان زي الأطرش في الزفة. هو بدور على كلمة “مرضية” وكلمة “إجازة” جنب بعض، ولما ما لقاهم، اعتبر إنه ما في إشي. ما قدر يفهم إنه “الإجازات الطارئة” هي نفسها اللي ممكن تشمل “الإجازة المرضية”. كان نظامنا يفهم الكلمات، لكنه كان أعمى تمامًا عن المعاني. كانت شغلانة بتجيب وجع الراس.

هذه الحادثة الصغيرة كانت الشرارة اللي خلتنا نغوص في عالم جديد وقتها، عالم أنقذنا من جحيم البحث الحرفي. عالم “التضمينات المتجهة” أو الـ Vector Embeddings.

المشكلة الكبيرة: لعنة البحث بالكلمات المفتاحية

قبل ما نحكي عن الحل السحري، خلينا نفهم أصل المشكلة. معظم أنظمة البحث القديمة (والكثير من الأنظمة الحالية للأسف) بتعتمد على طرق مثل:

المطابقة الحرفية (Exact Match): لازم الكلمة تكون موجودة بالحرف في المستند.
التكرار (TF-IDF): بتعطي وزن أكبر للكلمات النادرة والمهمة في المستند مقارنة بباقي المستندات.
البحث الصرفي (Stemming/Lemmatization): بترجع الكلمات لأصلها (مثلاً “مكتبة”، “كتاب”، “كاتب” بترجعهم لجذر “ك ت ب”).

هذه الطرق ممتازة، وما زلنا نستخدمها، لكن عندها مشكلة جوهرية: هي لا تفهم السياق أو المعنى. الكمبيوتر بالنسبة له، كلمة “سيارة” وكلمة “مركبة” هما مجرد سلسلتين مختلفتين من الحروف. ما بيعرف إنهم بيشيروا لنفس المفهوم تقريبًا.

وهذا هو بالضبط ما حدث في قصة خالد. بالنسبة للنظام، جملة “إجازة مرضية” لا تشبه أبدًا جملة “سياسة الإجازات الطارئة”.

الحل الثوري: مرحباً بالتضمينات المتجهة (Vector Embeddings)

القصة وما فيها، إن جماعة الذكاء الاصطناعي فكروا وقالوا: “ليش ما نعلّم الكمبيوتر يفهم معاني الكلمات زي ما البشر بيفهموها؟”. الفكرة كانت بتحويل الكلمات والجمل إلى… أرقام. نعم، أرقام! بس مش أي أرقام، بل “متجهات” (Vectors) في فضاء رياضي متعدد الأبعاد.

طيب شو يعني “تضمين متجه” يا أبو عمر؟

تخيل معي عندك مكتبة ضخمة. بدل ما ترتب الكتب أبجديًا، قررت ترتبها حسب الموضوع. حطيت كل كتب التاريخ جنب بعض، وكتب الفيزياء في رف آخر، وكتب الطبخ في زاوية لحالها. الآن لو سألتك وين كتاب عن “الحملة الصليبية”، رح تروح مباشرة على قسم التاريخ، صح؟

التضمينات المتجهة بتعمل نفس الإشي بس للكلمات والجمل. هي عبارة عن خوارزميات ذكية (مثل Word2Vec, GloVe, BERT) بتقرأ مليارات النصوص من الإنترنت وبتتعلم العلاقات بين الكلمات.

النتيجة؟ كل كلمة أو جملة بتتحول لمتجه (قائمة طويلة من الأرقام، مثلاً 300 أو 768 رقم). والجمال هنا يكمن في أن الكلمات ذات المعاني المتشابهة يكون لها متجهات “قريبة” من بعضها في ذلك الفضاء الرياضي.

بمعنى آخر، متجه كلمة “ملك” سيكون قريبًا جدًا من متجه كلمة “سلطان”، ومتجه كلمة “تفاحة” سيكون قريبًا من “برتقالة” أكثر من قربه من “سيارة”.

الأجمل من هيك، إنها بتفهم علاقات أكثر تعقيدًا. المعادلة الشهيرة في هذا المجال هي:
متجه “ملك” – متجه “رجل” + متجه “امرأة” ≈ متجه “ملكة”
هذا يُظهر أن النموذج لم يحفظ الكلمات فقط، بل فهم العلاقة بينها (علاقة الجنس في هذه الحالة).

التطبيق العملي: كيف استخدمناها لحل مشكلة البحث؟

الآن نرجع لقصتنا. كيف حلينا مشكلة البحث باستخدام الـ Embeddings؟ العملية بتتم على خطوتين رئيسيتين:

مرحلة التكشيف (Indexing):
- أولاً، مررنا على كل مستند في قاعدة بياناتنا (سياسات الموارد البشرية، الأدلة التقنية، إلخ).
- لكل مستند، استخدمنا نموذج ذكاء اصطناعي (Language Model) لتحويل محتوى المستند (أو فقرات منه) إلى متجه رقمي (Vector Embedding).
- خزّنا هذه المتجهات في قاعدة بيانات خاصة تسمى “قاعدة بيانات المتجهات” (Vector Database) مثل FAISS أو Pinecone، مع مؤشر يربط كل متجه بالمستند الأصلي.
مرحلة البحث (Querying):
- لما يجي مستخدم زي خالد ويكتب في مربع البحث “كيف آخذ إجازة مرضية؟”.
- بنأخذ جملة البحث هذه، وبنفس النموذج، بنحولها هي كمان لمتجه رقمي.
- الآن، بدل ما نبحث عن كلمات، بنروح على قاعدة بيانات المتجهات وبنسأل: “يا قاعدة البيانات، أعطيني أكثر 5 متجهات مخزنة عندك قربًا من متجه البحث هذا؟”.
- النتائج اللي بترجع بتكون هي المستندات اللي معناها قريب من معنى سؤال المستخدم، حتى لو ما فيها نفس الكلمات بالضبط!

وبهذه الطريقة، لما بحثنا عن “إجازة مرضية”، النظام صار ذكي كفاية ليفهم إنها قريبة بالمعنى من “سياسة الإجازات الطارئة” ورجّعها كأول نتيجة. مشكلة خالد انحلت، وأبو عمر قدر يرجع يشرب فنجان قهوته براحة بال.

مثال بالكود (Python) للمطورين

حتى ما يكون كلامنا كله نظري، هاي قطعة كود بسيطة باستخدام مكتبة sentence-transformers الشهيرة بتوضح الفكرة. المكتبة هذه بتبسط العملية بشكل كبير.


# أولاً، لازم نثبّت المكتبات اللازمة
# pip install sentence-transformers scikit-learn

from sentence_transformers import SentenceTransformer, util
import torch

# الخطوة 1: تحميل نموذج مدرب مسبقًا (هذا النموذج متعدد اللغات ويدعم العربية)
# هذا النموذج سيقوم بتحويل الجمل إلى متجهات (vectors)
model = SentenceTransformer('distiluse-base-multilingual-cased-v1')

# الخطوة 2: تجهيز المستندات (قاعدة المعرفة تبعتنا)
# هذه هي المستندات اللي عنا في النظام
documents = [
    "سياسة الشركة بخصوص الإجازات السنوية والطارئة.",
    "دليل الموظف الجديد للتعرف على أقسام الشركة.",
    "كيفية طلب جهاز كمبيوتر محمول جديد من قسم تقنية المعلومات.",
    "مواعيد صرف الرواتب الشهرية.",
    "فوائد أكل التفاح يومياً للصحة." # مستند ما إله علاقة عشان نشوف ذكاء النظام
]

# الخطوة 3: تحويل المستندات إلى متجهات (Embeddings)
# هذه العملية تسمى التكشيف أو Indexing
document_embeddings = model.encode(documents, convert_to_tensor=True)

# الخطوة 4: كتابة سؤال المستخدم (الـ Query)
query = "كيف آخذ إجازة مرضية؟"

# الخطوة 5: تحويل سؤال المستخدم إلى متجه
query_embedding = model.encode(query, convert_to_tensor=True)

# الخطوة 6: حساب التشابه بين متجه السؤال وكل متجهات المستندات
# نستخدم دالة "التشابه الجيبي" (Cosine Similarity) اللي بتقيس الزاوية بين المتجهات
# كلما كانت الزاوية أصغر، كان التشابه أكبر
cosine_scores = util.cos_sim(query_embedding, document_embeddings)

# الخطوة 7: إيجاد المستند الأكثر تشابهًا وعرض النتائج
# رح نربط كل نتيجة بالمستند الأصلي تبعها
results = []
for i in range(len(documents)):
    results.append({
        "document": documents[i],
        "score": cosine_scores[0][i].item()
    })

# ترتيب النتائج من الأعلى للأقل بناءً على درجة التشابه
sorted_results = sorted(results, key=lambda x: x['score'], reverse=True)

print(f"سؤال البحث: {query}n")
print("النتائج (مرتبة حسب التشابه الدلالي):")
for result in sorted_results:
    print(f"- المستند: "{result['document']}" (درجة التشابه: {result['score']:.4f})")

لو شغلت هذا الكود، رح تلاحظ إن النتيجة الأولى على الأغلب رح تكون “سياسة الشركة بخصوص الإجازات السنوية والطارئة”، مع إن كلمة “مرضية” مش موجودة فيها. هذا هو سحر البحث الدلالي!

نصائح من خبرة أبو عمر

بعد شغل طويل في هذا المجال، هاي شوية نصائح عملية من أخوكم:

اختر النموذج المناسب: مش كل النماذج زي بعض. في نماذج أفضل للغة العربية، نماذج أسرع بس أقل دقة، ونماذج أكبر وأكثر دقة بس بطيئة. ابدأ بنماذج متعددة اللغات مثل اللي في المثال فهي حل جيد كبداية.
التنظيف المسبق لا يزال مهمًا: صحيح إن النماذج الحديثة قوية، لكن إزالة الحروف الزائدة، الأخطاء الإملائية، وتوحيد النص (Normalization) بيساعد في تحسين دقة النتائج.
استخدم قواعد بيانات متخصصة للمشاريع الكبيرة: المثال اللي فوق ممتاز للبداية. لكن لو عندك ملايين المستندات، البحث في مصفوفة بسيطة بصير بطيء جداً. هنا يأتي دور قواعد بيانات المتجهات مثل Pinecone, Weaviate, Milvus, أو حتى مكتبة FAISS من فيسبوك، فهي مصممة للبحث في مليارات المتجهات بسرعة فائقة.
لا تنسَ البحث التقليدي: أحيانًا، دمج البحث الدلالي (Semantic Search) مع البحث بالكلمات المفتاحية (Keyword Search) بيعطي أفضل النتائج. هذا ما يسمى بالبحث الهجين (Hybrid Search).

الخلاصة: من الكلمات إلى ما يشبه الوعي 🚀

الانتقال من البحث الحرفي إلى البحث الدلالي باستخدام التضمينات المتجهة كان نقلة نوعية، مش بس في شركتنا، بل في عالم التكنولوجيا كله. صرنا قادرين نبني أنظمة بتفهم “قصد” المستخدم، مش بس الكلمات اللي بيكتبها.

هذه التقنية هي أساس الكثير من التطبيقات اللي بنستخدمها اليوم بدون ما نحس: توصيات يوتيوب ونتفليكس، أنظمة الإجابة على الأسئلة زي ChatGPT، وحتى لما تبحث في صور جوجل عن “عناق” فيرجعلك صور ناس بتحضن بعض بدون ما تكون كلمة “عناق” مكتوبة على الصورة.

نصيحتي الأخيرة إلك: لا تخاف من المصطلحات الكبيرة. الفكرة الأساسية بسيطة زي ما شرحنا. ابدأ بمثال صغير، جرب الكود، وغير فيه، وشوف بعينك كيف الكمبيوتر بدأ “يفهم” لأول مرة. صدقني، الشعور رائع.

والله ولي التوفيق.

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

كانت نماذجنا تهذي: كيف أنقذنا ‘التوليد المعزز بالاسترجاع’ (RAG) من جحيم الهلوسة؟

من قلب المعاناة مع "هلوسة" الذكاء الاصطناعي التي كادت أن تدمر مشروعًا حيويًا، أشارككم قصة وتجربة عملية. سنتعمق في تقنية التوليد المعزز بالاسترجاع (RAG)، وكيف...

6 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا كانت تفقد ذكاءها بمرور الوقت: كيف أنقذنا ‘رصد الانحراف’ (Model Drift Monitoring) من جحيم التدهور الصامت؟

أذكر جيدًا ذلك الشعور بالإنجاز عندما أطلقنا نموذجنا الأول لتصنيف مشاعر العملاء، ولكن سرعان ما تحول الحلم إلى كابوس صامت. هذه هي قصتنا مع 'انحراف...

14 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

كان بحثنا لا يفهم المعنى: كيف أنقذتنا ‘قواعد بيانات المتجهات’ من جحيم البحث الحرفي؟

أشارككم قصة حقيقية عن معاناة فريقنا مع أنظمة البحث التقليدية التي لا تفهم سوى الكلمات الحرفية، وكيف كانت قواعد بيانات المتجهات (Vector Databases) هي طوق...

18 مايو، 2026 قراءة المزيد

بودكاست

ذكاء اصطناعي

من Deep Learning إلى Generative AI: رحلة الذكاء الاصطناعي نحو المستقبل (وتطبيقاته العملية)

استكشف التحول الجذري من التعلم العميق إلى الذكاء الاصطناعي التوليدي، وتعرّف على تطبيقاته الثورية التي تُعيد تشكيل عالمنا. اكتشف كيف يمكنك الاستفادة من هذه التقنيات...

25 ديسمبر، 2025 قراءة المزيد

ذكاء اصطناعي

كان نموذجنا اللغوي يهلوس بلا توقف: كيف أنقذنا ‘التوليد المعزز بالاسترجاع’ (RAG) من جحيم الإجابات الخاطئة؟

واجه فريقنا كابوساً حقيقياً مع نموذجنا اللغوي الكبير الذي كان يخترع إجابات من وحي الخيال. في هذه المقالة، أشارككم قصة كيف انتشلنا مشروعنا من حافة...

12 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

هل دردشتك مع الذكاء الاصطناعي تُسرب أسرار الإنترنت؟ تحقيق في تسريبات بيانات التدريب

بصفتي أبو عمر، مبرمج فلسطيني خبير في الذكاء الاصطناعي، أشارككم قصة حقيقية كشفت لي كيف يمكن لنماذج الذكاء الاصطناعي أن "تتذكر" وتسرب بيانات حساسة من...

6 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

كنا نغرق في بحر البيانات: كيف أنقذنا ‘الإشراف الضعيف’ (Weak Supervision) من جحيم التسمية اليدوية؟

مقالة تستعرض تقنية الإشراف الضعيف (Weak Supervision) كحل عملي لمشكلة تسمية البيانات الهائلة في مشاريع الذكاء الاصطناعي. من قصة واقعية إلى دليل تطبيقي، نكتشف كيف...

21 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

عندما يفضحك مساعدك الذكي: كيف تكشف تطبيقات الذكاء الاصطناعي عن معلوماتك الحساسة؟

بصفتي أبو عمر، مبرمج فلسطيني، أشارككم قصة حقيقية عن مساعد ذكي كاد أن يسبب كارثة بتسريب بيانات العملاء. نستكشف معًا ثغرة "كشف المعلومات الحساسة" في...

7 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

كان بحثنا أعمى للمعنى: كيف أنقذتنا قواعد بيانات المتجهات من جحيم البحث الحرفي؟

مقالة من مبرمج فلسطيني يروي فيها كيف أنقذت قواعد بيانات المتجهات (Vector Databases) فريقه من كابوس البحث الحرفي. اكتشف معنا كيف انتقلنا من البحث الذي...

9 مايو، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد