ذكاء اصطناعي

نماذجك اللغوية لا تعرف شيئاً عن عملك: دليلك العملي لتغذيتها بالمعرفة الخاصة باستخدام RAG

أبو عمر 22 أبريل، 2026 1 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله.

قبل كم شهر، إجاني اتصال من صاحب شركة محاماة كبيرة، رجل محترم ومعروف. دخل علي المكتب، وبعد فنجان القهوة والحكي عن الأحوال، دخل في صلب الموضوع. حكالي: “يا أبو عمر، إحنا عنا أرشيف ضخم من القضايا والمرافعات والوثائق القانونية، آلاف الملفات. بدي أعمل نظام زي ChatGPT، أسأله عن قضية معينة، ويعطيني ملخصها، أو أسأله عن مادة في القانون بناءً على قضايانا السابقة، ويجاوبني فوراً. بتقدر تعملي إياه؟”

ابتسمت وقلتله: “يا خَواجا، فكرتك ممتازة، بس هالشغلة مش بالساهل زي ما بتتخيل. ChatGPT ما بعرف إشي عن ملفاتك، هاي ملفات خاصة فيك، مش منشورة على الإنترنت. الموضوع زي ما تسأل واحد غريب في الشارع عن تاريخ عيلتك، شو بده يعرف؟”. شفت علامات الإحباط على وجهه، فكملت بسرعة: “بس اطمن، القصة إلها حل. إحنا ما رح نعلّم النموذج كل قضاياك من الصفر، رح نخليه ‘يفتح كتاب’ ويقرأ منه وقت الحاجة. وهذا الكتاب هو أرشيفك”.

هذه القصة هي المدخل الأمثل لموضوعنا اليوم: كيف تجعل النماذج اللغوية “الغبية” بخصوص بياناتك، “ذكية” وخاصة بعملك باستخدام تقنية اسمها RAG.

ما هي مشكلة “الجهل” في النماذج اللغوية الكبيرة؟

النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 و Llama 3 وغيرها، تم تدريبها على كميات هائلة من البيانات من الإنترنت العام. هي تعرف الكثير عن التاريخ، والعلوم، والأدب، وحتى وصفات الطبخ. لكنها تقف عاجزة تماماً أمام الأسئلة التالية:

ما هي آخر تحديثات سياسة الإجازات في شركتي؟
لخص لي محضر اجتماع قسم التسويق الأسبوع الماضي.
ما هي تفاصيل تذاكر الدعم الفني المتعلقة بالعميل “س”؟

السبب بسيط: هذه البيانات خاصة، سرية، وموجودة على خوادمك الداخلية، ولم تكن جزءاً من بيانات تدريب النموذج. الأخطر من ذلك هو ظاهرة “الهلوسة” (Hallucination). عندما لا يعرف النموذج الإجابة، قد يحاول “تأليف” إجابة تبدو منطقية، وهذا كارثي في سياق الأعمال حيث الدقة هي الأهم.

الحل السحري (تقريباً): الجيل المعزز بالاسترجاع (RAG)

هنا يأتي دور تقنية Retrieval-Augmented Generation (RAG) أو “الجيل المعزز بالاسترجاع”. الفكرة بسيطة وعبقرية في نفس الوقت. بدلاً من إعادة تدريب النموذج بالكامل بتكلفة باهظة، نقوم بتزويده بالمعلومات ذات الصلة “في الوقت الفعلي” عند طرح السؤال.

تخيل أن النموذج هو طالب ذكي جداً، لكنه سيدخل الامتحان دون مذاكرة. الـ RAG هو بمثابة السماح له بإدخال “كتاب مفتوح” (Open Book) معه إلى قاعة الامتحان. هذا الكتاب هو بياناتك الخاصة.

العملية تتم على ثلاث مراحل رئيسية:

الفهرسة (Indexing): تجهيز “الكتاب” عن طريق قراءة مستنداتك، تقسيمها لأجزاء صغيرة، وتحويلها لصيغة يفهمها الحاسوب.
الاسترجاع (Retrieval): عندما يسأل المستخدم سؤالاً، نبحث في “الكتاب” عن أكثر الصفحات صلة بالسؤال.
التوليد (Generation): نعطي النموذج السؤال الأصلي مع الصفحات التي وجدناها، ونطلب منه صياغة الإجابة بناءً على هذه المعلومات فقط.

الغوص في التفاصيل: كيف نبني نظام RAG خطوة بخطوة؟

خلونا “نشمر عن إيدينا” ونشوف كيف بتصير هاي العملية بشكل تقني وعملي. رح نستخدم Python كمثال.

الخطوة الأولى: تجهيز البيانات وتقطيعها (Data Preparation & Chunking)

أولاً، يجب أن نجمع بياناتنا (ملفات PDF, Word, TXT, صفحات Wiki…). النماذج اللغوية لها ما يسمى بـ “نافذة السياق” (Context Window)، وهي كمية النص التي يمكنها معالجتها في المرة الواحدة. لذلك، لا يمكننا إعطاؤها مستنداً من 100 صفحة مباشرة.

الحل هو تقطيع المستندات إلى “قطع” (Chunks) أصغر. يمكن أن تكون هذه القطع فقرات، أو جملاً، أو مقاطع ذات حجم ثابت (مثلاً، 500 حرف).

نصيحة من أبو عمر: لا تقطّع النص بشكل عشوائي! التقطيع الذكي الذي يحافظ على سياق الجمل والفقرات يعطي نتائج أفضل بكثير. مكتبات مثل LangChain و LlamaIndex توفر أدوات تقطيع متقدمة (RecursiveCharacterTextSplitter) تقوم بذلك بكفاءة.

الخطوة الثانية: التضمين وقواعد البيانات المتجهية (Embeddings & Vector Databases)

الآن لدينا مجموعة من القطع النصية. كيف يمكن للكمبيوتر أن يفهم معنى “سياسة الإجازات السنوية” ليجدها عندما يسأل المستخدم “كم يوم إجازة إلي؟”؟

هنا يأتي دور التضمين (Embeddings). وهي عملية تحويل كل قطعة نصية إلى متجه رياضي (قائمة من الأرقام). الفكرة السحرية هي أن النصوص ذات المعاني المتقاربة تكون متجهاتُها “قريبة” من بعضها في الفضاء الرياضي. يعني كأنك بتحول كل فكرة لإحداثيات على خريطة ضخمة.

بعد تحويل كل قطع النصوص إلى متجهات، نحتاج إلى مكان لتخزينها والبحث فيها بسرعة. هذا هو دور قواعد البيانات المتجهية (Vector Databases) مثل ChromaDB, FAISS, Pinecone, أو Weaviate.

لنشاهد مثال كود بسيط لإنشاء المتجهات باستخدام مكتبة sentence-transformers:


# pip install sentence-transformers
from sentence_transformers import SentenceTransformer

# اختر نموذج تضمين يدعم اللغة العربية بشكل جيد
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# قطع النصوص التي جهزناها
chunks = [
    "سياسة الإجازات في الشركة تمنح الموظفين 21 يوماً إجازة سنوية مدفوعة الأجر.",
    "يجب تقديم طلب الإجازة قبل أسبوعين على الأقل من خلال نظام الموارد البشرية.",
    "تأسست الشركة في عام 2005 بهدف تقديم حلول برمجية مبتكرة."
]

# حساب المتجهات (Embeddings) لهذه القطع
embeddings = model.encode(chunks)

# كل متجه هو عبارة عن قائمة من الأرقام تمثل معنى القطعة النصية
print(embeddings.shape) # (3, 384) -> 3 قطع, كل واحدة ممثلة بـ 384 رقم

بعد ذلك، نقوم بتخزين هذه المتجهات مع النصوص الأصلية في قاعدة بيانات متجهية مثل ChromaDB، وهي سهلة الاستخدام محلياً.

الخطوة الثالثة: الاسترجاع والتوليد (Retrieval & Generation)

الآن، الجزء الممتع. عندما يأتي المستخدم ويسأل سؤالاً، على سبيل المثال: “ما هي مدة الإجازة السنوية؟”، تحدث العملية التالية:

تضمين السؤال: نقوم بتحويل سؤال المستخدم إلى متجه بنفس نموذج التضمين الذي استخدمناه سابقاً.
البحث عن الشبيه: نستخدم متجه السؤال للبحث في قاعدة البيانات المتجهية عن “أقرب” المتجهات إليه (أي أكثر القطع النصية صلةً بالسؤال). هذه هي عملية الاسترجاع (Retrieval). في مثالنا، ستكون النتيجة غالباً هي القطعة: “سياسة الإجازات في الشركة تمنح الموظفين 21 يوماً إجازة سنوية مدفوعة الأجر.”.
بناء السياق والطلب (Prompt): الآن نجمع كل شيء معاً. نبني طلباً جديداً (Prompt) نرسله للنموذج اللغوي الكبير. هذا الطلب هو سر نجاح RAG.

مثال على الـ Prompt النهائي الذي نرسله للنموذج اللغوي:

أنت مساعد ذكي ومحترف. مهمتك هي الإجابة على سؤال المستخدم بناءً على السياق المرفق أدناه فقط. إذا كانت الإجابة غير موجودة في السياق، أجب بوضوح “لا أملك معلومات كافية للإجابة من المستندات المتاحة”. لا تخترع إجابات.

— السياق —

سياسة الإجازات في الشركة تمنح الموظفين 21 يوماً إجازة سنوية مدفوعة الأجر.

— نهاية السياق —

السؤال: ما هي مدة الإجازة السنوية؟

الإجابة:

عندما يرى النموذج اللغوي هذا الطلب، سيجد الإجابة مباشرة في السياق الذي قدمناه له ويجيب: “مدة الإجازة السنوية هي 21 يوماً.” وهكذا، نكون قد “أجبرنا” النموذج على الاعتماد على بياناتنا الخاصة ومنعناه من الهلوسة.

نصائح عملية من مطبخ أبو عمر 👨‍🍳

حجم القطعة (Chunk Size): اختيار الحجم المناسب للقطع النصية فن بحد ذاته. قطع صغيرة جداً قد تضيع السياق، وقطع كبيرة جداً قد تحتوي على معلومات غير ضرورية وتكون مكلفة. القاعدة الذهبية: جرّب أحجاماً مختلفة وشوف شو الأنسب لطبيعة مستنداتك.
البيانات الوصفية (Metadata): عند تخزين المتجهات، لا تخزن النص فقط! قم بتخزين بيانات وصفية مفيدة مثل اسم الملف المصدر، رقم الصفحة، تاريخ الإنشاء. هذا يسمح لك بعرض المصادر للمستخدم (“الإجابة مأخوذة من ملف ‘سياسات_الشركة.pdf’، صفحة 4”)، وهذا يزيد الثقة بشكل كبير. مشان لما حدا يسألك “من وين جبت هالحكي؟”، تقدر تجاوبه بثقة.
النماذج الهجينة (Hybrid Search): البحث بالمتجهات (الدلالي) رائع، لكن أحياناً البحث بالكلمات المفتاحية التقليدي (Keyword Search) يكون ضرورياً للأسماء الدقيقة أو أرقام الموديلات. أفضل الأنظمة اليوم تستخدم بحثاً هجيناً يجمع بين الاثنين.
التقييم المستمر: كيف تعرف أن نظامك جيد؟ قم ببناء مجموعة اختبار (Evaluation Set) تحتوي على أسئلة وإجابات نموذجية، وقم بتقييم أداء نظامك بشكل دوري. هل يسترجع المستندات الصحيحة؟ هل الإجابة النهائية دقيقة؟

الخلاصة: من مستهلك للمعرفة إلى خالق للحلول 💡

تقنية RAG ليست مجرد مصطلح تقني معقد، بل هي جسر يربط بين القوة الهائلة للنماذج اللغوية العامة وعالم بياناتك الخاصة والفريدة. هي الأداة التي تحولك من مجرد مستهلك للذكاء الاصطناعي إلى خالق لحلول ذكية ومخصصة تلبي احتياجات عملك بدقة.

التكلفة أقل بكثير من إعادة التدريب، والمرونة أعلى، والنتائج يمكن التحكم بها والتحقق من مصادرها. سواء كنت محامياً، أو طبيباً، أو مهندساً، أو صاحب شركة، يمكنك الآن بناء “خبير” خاص بك، يتحدث لغتك ويفهم تفاصيل عملك الدقيقة.

ما تخاف من التجربة. ابدأ صغير، بمجموعة وثائق بسيطة، ومكتبات مفتوحة المصدر مثل LangChain و ChromaDB، وشوف السحر بنفسك. التكنولوجيا موجودة لتخدمنا، واحنا كمبرمجين ومطورين عرب لازم نكون في الطليعة ونستغلها لمصلحتنا ومصلحة مجتمعاتنا. يلا، ورجوني همتكم! 💪

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

من الصفر: كيف تبني Trigger مخصص في n8n وتتجاوز حدود الأتمتة الجاهزة

هل تعتمد على الـ Triggers الجاهزة في n8n وتشعر بالقيود؟ في هذا الدليل العميق، يشرح أبو عمر، خبير البرمجيات، كيف تبني Trigger مخصص من الصفر،...

28 يناير، 2026 قراءة المزيد

ذكاء اصطناعي

كان الـ LLM يهذي: كيف أنقذنا ‘الجيل المعزز بالاسترجاع’ (RAG) من جحيم الهلوسات؟

في أحد المشاريع، بدأ نموذج اللغة الكبير الخاص بنا "يهلوس" بمعلومات خاطئة، مما سبب لنا إحراجاً كبيراً. في هذه المقالة، أشارككم قصة كيف أنقذتنا تقنية...

29 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

قرارات نموذجنا كانت صندوقاً أسود: كيف أنقذتنا تقنيات التفسير (XAI) من جحيم التنبؤات الغامضة؟

أشارككم قصة من الميدان، يوم كاد نموذج ذكاء اصطناعي "صندوق أسود" أن يورطنا في قرارات كارثية. هذه المقالة هي دليلك لفهم تقنيات الذكاء الاصطناعي القابل...

12 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا اللغوية كانت تهذي! كيف أنقذنا الذكاء الاصطناعي من الهلوسة بتقنية RAG؟

أشارككم قصة حقيقية من أرض المعركة البرمجية، حيث كانت نماذجنا اللغوية الكبيرة "تهلوس" وتخترع الإجابات. سأشرح لكم بالتفصيل وبأمثلة عملية كيف أنقذتنا تقنية 'التوليد المعزز...

28 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

كانت توصياتنا ضربة حظ: كيف أنقذنا ‘الترشيح التشاركي’ من جحيم الضياع؟

أشارككم قصة من الميدان، كيف انتقلنا من توصيات عشوائية للمستخدمين إلى نظام ذكي يعتمد على الترشيح التشاركي (Collaborative Filtering). مقالة عملية تشرح المفهوم، أنواعه، مع...

25 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

كانت إجابات نموذجنا من وحي الخيال: كيف أنقذنا البحث المعزز بالتوليد (RAG) من جحيم الهلوسة؟

أشارككم قصة حقيقية عن "هلوسة" نماذج الذكاء الاصطناعي وكيف تسببت في موقف محرج مع أحد العملاء. سنغوص في أعماق تقنية البحث المعزز بالتوليد (RAG)، ونشرحها...

18 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا كانت تموت في صمت: كيف أنقذنا ‘رصد الانحراف’ من جحيم الأداء المتدهور؟

أتذكر جيداً ذلك اليوم الذي تحولت فيه احتفالاتنا بنجاح نموذج التوصيات إلى جلسة طارئة للبحث عن "شبح" غامض كان يقتل أداءه. في هذه المقالة، أشارككم...

9 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

بحثنا كان لا يفهم القصد: كيف أنقذتنا ‘قواعد بيانات المتجهات’ من جحيم البحث بالكلمات المفتاحية؟

أتذكر جيداً ذلك المشروع الذي كاد أن يفشل بسبب نظام بحث "أصم" لا يفهم نية المستخدم. في هذه المقالة، أشارككم قصة تحولنا من البحث بالكلمات...

24 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

انحراف المفاهيم (Concept Drift): كيف أنقذنا نموذجنا من التنبؤ بالماضي؟ قصة من قلب MLOps

كنا نظن أن نموذجنا للذكاء الاصطناعي يعمل بكفاءة، لكنه كان يتنبأ بالماضي بصمت. في هذه المقالة، أسرد لكم يا جماعة قصة كيف كشفنا "انحراف المفاهيم"...

3 يونيو، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد