ذكاء اصطناعي

كانت إجابات نموذجنا من وحي الخيال: كيف أنقذنا البحث المعزز بالتوليد (RAG) من جحيم الهلوسة؟

أبو عمر 18 مايو، 2026 1 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله وبركاته. معكم أخوكم أبو عمر.

خلوني أحكيلكم قصة صارت معي قبل فترة، قصة علّمتني درس ما بنساه. كنا شغالين على مشروع كبير لشركة محاماة محترمة، والمطلوب كان بناء مساعد ذكي (Chatbot) يساعد المحامين الجدد في البحث ضمن أرشيف ضخم من القضايا والقوانين الداخلية للشركة. الأرشيف كان عبارة عن آلاف ملفات الـ PDF والـ Word، عالم ثاني.

بعد أسابيع من الشغل والتعب، أطلقنا النسخة التجريبية. النموذج اللغوي الكبير (LLM) اللي استخدمناه كان ذكي وبيفهم السياق بشكل ممتاز. في اجتماع العرض التقديمي، كان المدير التنفيذي للشركة موجود، ومتحمس يشوف “التحفة التكنولوجية” اللي عملناها. سأل سؤال بسيط عن قضية معينة من الأرشيف: “ما هي تفاصيل الحكم في قضية العميل ‘س’ ضد الشركة ‘ص’ لعام 2019؟”

وهون كانت الصدمة… المساعد الذكي جاوب بثقة مطلقة، وبلش يسرد تفاصيل وحيثيات حكم… من وحي الخيال! اختلق أرقام قضايا، وأسماء قضاة، وتواريخ، وكلها غلط بغلط. شعرت وقتها كأن الأرض انشقت وبلعتني. المدير نظر إليّ نظرة لن أنساها، وقال بلهجة حادة: “شو هاد يا أبو عمر؟ هاد مش مساعد، هاد مؤلف قصص خيالية!”.

هذا الموقف المحرج كان بداية رحلتي الحقيقية مع مشكلة “الهلوسة” (Hallucination) في نماذج الذكاء الاصطناعي، والبحث عن حل جذري أنقذنا من هذا الجحيم، وهو ما يعرف اليوم بالبحث المعزز بالتوليد أو “RAG”.

ما هي “الهلوسة” في عالم الذكاء الاصطناعي؟ وليش بتصير؟

قبل ما ندخل في الحل، خلينا نفهم المشكلة. “الهلوسة” هي لما النموذج اللغوي الكبير (LLM) يخترع معلومات ويقدمها على أنها حقيقة مؤكدة. هو لا يكذب عن قصد، لأنه أصلاً ما عنده “قصد” أو “وعي”.

السبب بسيط: النماذج اللغوية هي عبارة عن آلات إحصائية عملاقة للتنبؤ بالكلمة التالية. تم تدريبها على كميات هائلة من نصوص الإنترنت، ومهمتها هي توليد نص “يبدو” منطقياً ومقنعاً بناءً على الأنماط اللي تعلمتها. هي مثل الطالب اللي قرأ كل كتب المكتبة، بس وقت الامتحان ما معه ولا كتاب، فبيعتمد على ذاكرته. أحياناً ذاكرته بتخلطه، فبيبدأ “يألّف” إجابات تبدو صحيحة لكنها في الحقيقة غير دقيقة.

المشكلة أن تدريبها يتوقف عند نقطة معينة، فهي لا تعرف أي معلومة جديدة بعد تاريخ قطع تدريبها، ولا تستطيع الوصول إلى بياناتك الخاصة (مثل ملفات شركة المحاماة في قصتي). إذن، كيف نجعلها تجيب على أسئلتنا بناءً على مصادرنا الخاصة والموثوقة؟

الحل السحري: البحث المعزز بالتوليد (RAG) – كيف بيشتغل؟

هنا يأتي دور البطل: Retrieval-Augmented Generation (RAG). فكرته عبقرية في بساطتها: بدلاً من أن نطلب من النموذج الإجابة من “ذاكرته” الواسعة وغير الموثوقة، سنعطيه “كتاباً مفتوحاً” (Open Book) يحتوي على المعلومات الدقيقة التي نحتاجها، ونطلب منه أن يقرأ هذا الكتاب ويجيب على سؤالنا من خلاله فقط.

هذا “الكتاب المفتوح” هو بياناتك الخاصة (ملفات PDF، قواعد بيانات، مقالات موقعك، …إلخ). العملية تتم على ثلاث مراحل رئيسية:

المرحلة الأولى: التجهيز والفهرسة (Indexing)

هذه المرحلة تتم مرة واحدة في البداية (أو كلما تحدثت بياناتك). الهدف منها هو تحويل مستنداتك إلى صيغة يفهمها الكمبيوتر ويستطيع البحث فيها بسرعة.

التقطيع (Chunking): نقوم بتقسيم مستنداتك الكبيرة إلى أجزاء أو “مَقاطع” صغيرة. ليش؟ لأن التعامل مع مقاطع صغيرة ومركزة أسهل وأكثر دقة عند البحث عن معلومة محددة.
التضمين (Embeddings): هذه هي الخطوة السحرية. نستخدم نموذجاً متخصصاً لتحويل كل “مقطع” نصي إلى متجه رياضي (Vector)، وهو عبارة عن قائمة طويلة من الأرقام. هذه المتجهات تمثل “معنى” النص في فضاء رياضي. النصوص ذات المعاني المتقاربة تكون متجهاتها “قريبة” من بعضها في هذا الفضاء.
التخزين (Storing): نقوم بتخزين هذه المتجهات مع النصوص الأصلية المقابلة لها في قاعدة بيانات متخصصة تسمى “قاعدة بيانات المتجهات” (Vector Database). من أشهر الأمثلة عليها: Pinecone, ChromaDB, FAISS.

باختصار، مرحلة الفهرسة تحول وثائقك من مجرد نصوص إلى مكتبة منظمة حسب المعنى، جاهزة للبحث الفوري.

المرحلة الثانية: البحث والاسترجاع (Retrieval)

هذه المرحلة تحدث في كل مرة يسأل فيها المستخدم سؤالاً.

استعلام المستخدم (User Query): يأتي المستخدم ويسأل سؤالاً، مثلاً: “ما هي شروط الإجازة السنوية للموظفين؟”.
تضمين الاستعلام: نقوم بتحويل سؤال المستخدم أيضاً إلى متجه (Embedding) باستخدام نفس النموذج الذي استخدمناه في المرحلة الأولى.
البحث عن التشابه: نأخذ متجه السؤال ونبحث في قاعدة بيانات المتجهات عن المقاطع النصية التي تمتلك المتجهات الأكثر شبهاً وقرباً منه. هذه هي المقاطع الأكثر صلة بسؤال المستخدم.

النتيجة؟ نحصل على أفضل 3 أو 5 مقاطع من مستنداتنا الأصلية التي يُحتمل أنها تحتوي على إجابة السؤال.

المرحلة الثالثة: التعزيز والتوليد (Augmentation & Generation)

هنا نجمع كل شيء معاً.

بناء السياق (Context Building): نأخذ المقاطع النصية التي استرجعناها في المرحلة السابقة.
صياغة الطلب المعزز (Augmented Prompt): نقوم بإنشاء طلب (Prompt) جديد للنموذج اللغوي الكبير (LLM) بالصيغة التالية:

“بناءً على السياق التالي فقط: [هنا نضع المقاطع النصية المسترجعة]. أجب على السؤال التالي: [هنا نضع سؤال المستخدم الأصلي]. إذا كانت الإجابة غير موجودة في السياق، قل ‘لا أعرف الإجابة’.”
التوليد (Generation): نرسل هذا الطلب المعزز إلى الـ LLM، والذي سيقوم بدوره بتوليد إجابة دقيقة ومبنية حصراً على المعلومات التي زودناه بها، مما يمنع الهلوسة بشكل شبه كامل.

خلونا نشوف مثال عملي: بناء نظام RAG بسيط

الكلام النظري جميل، لكن “الإيد اللي في المي مش زي الإيد اللي في النار”. خلينا نطبق عملياً باستخدام لغة Python ومكتبة LangChain الشهيرة لتبسيط الأمور.

الخطوة 1: تجهيز البيئة والمكتبات

أولاً، تأكد من تثبيت المكتبات اللازمة. سأستخدم OpenAI كنوذج لغوي، و FAISS كقاعدة بيانات متجهات تعمل في الذاكرة (سهلة للمبتدئين).


pip install langchain openai faiss-cpu tiktoken

لا تنسَ وضع مفتاح API الخاص بـ OpenAI في متغيرات البيئة (Environment Variable) تحت اسم OPENAI_API_KEY.

الخطوة 2: تحميل وتجهيز البيانات

لنفترض أن لدينا مستنداً بسيطاً عن سياسة الشركة الداخلية. سنضعه كنص عادي في الكود مباشرة.


from langchain.text_splitter import RecursiveCharacterTextSplitter

# هذا هو مستندنا الذي نريد البحث فيه
company_policy_text = """
مرحباً بكم في سياسة شركتنا.
الإجازة السنوية للموظفين هي 21 يوماً مدفوعة الأجر بعد إتمام السنة الأولى.
يمكن تقديم طلبات الإجازة عبر بوابة الموظفين الإلكترونية.
يجب تقديم الطلب قبل 15 يوماً على الأقل من تاريخ بدء الإجازة.
ساعات العمل الرسمية من 9 صباحاً حتى 5 مساءً، من الأحد إلى الخميس.
العمل عن بعد متاح يومين في الأسبوع بالتنسيق مع المدير المباشر.
"""

# 1. التقطيع (Chunking)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,  # حجم كل مقطع
    chunk_overlap=20   # تداخل بين المقاطع لضمان عدم فقدان السياق
)
docs = text_splitter.create_documents([company_policy_text])

print(f"تم تقطيع النص إلى {len(docs)} مقطع.")

الخطوة 3: إنشاء قاعدة بيانات المتجهات (Vector Store)

الآن سنحول هذه المقاطع إلى متجهات ونخزنها في FAISS.


from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 2. التضمين والتخزين (Embedding & Storing)
embeddings = OpenAIEmbeddings()
vector_store = FAISS.from_documents(docs, embeddings)

print("تم إنشاء قاعدة بيانات المتجهات بنجاح!")

الخطوة 4: بناء سلسلة RAG والاستعلام

هذه هي المرحلة النهائية حيث نربط كل شيء معاً ونسأل سؤالنا.


from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# 3. بناء السلسلة (Chain)
llm = OpenAI(temperature=0) # temperature=0 لجعل الإجابات دقيقة وغير إبداعية
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # "stuff" تعني وضع كل المقاطع المسترجعة في السياق
    retriever=vector_store.as_retriever()
)

# طرح سؤال
question = "كم عدد أيام الإجازة السنوية؟"
response = qa_chain.run(question)

print(f"السؤال: {question}")
print(f"الإجابة: {response}")

# طرح سؤال آخر
question_2 = "هل يمكنني العمل من المنزل؟"
response_2 = qa_chain.run(question_2)

print(f"nالسؤال: {question_2}")
print(f"الإجابة: {response_2}")

إذا قمت بتشغيل هذا الكود، ستجد أن الإجابات دقيقة جداً ومأخوذة مباشرة من النص الذي زودناه به. لو سألت النموذج نفس السؤال بدون RAG، قد يعطيك إجابة عامة (مثلاً “عادة ما تكون 30 يوماً حسب قانون العمل…”) أو قد يهلوس. لكن مع RAG، هو مجبر على الالتزام بالحقيقة الموجودة في مستنداتك.

نصائح من خبرة أبو عمر

فن التقطيع (Chunking): حجم المقطع (chunk_size) والتداخل (chunk_overlap) يؤثران بشكل كبير على دقة النتائج. لا يوجد رقم سحري، عليك التجربة بناءً على طبيعة مستنداتك. ابدأ بقيم متوسطة (مثلاً 1000 للحجم و 100 للتداخل) ثم قم بالتعديل.
جودة بياناتك هي كل شيء: تذكر مبدأ “Garbage in, garbage out”. إذا كانت مستنداتك الأصلية مليئة بالأخطاء أو المعلومات القديمة، فإن RAG سيعطيك إجابات خاطئة ولكن بثقة! نظّف وحَدّث مصادرك أولاً.
اختر نموذج التضمين (Embedding Model) المناسب: هناك العديد من نماذج التضمين، بعضها أفضل للغات معينة أو لمجالات متخصصة (طبية، قانونية). استثمر بعض الوقت في البحث عن أفضل نموذج لحالتك.
لا يقتصر RAG على الأسئلة والأجوبة: يمكنك استخدام نفس التقنية لتلخيص المستندات الطويلة بناءً على نقاط معينة، أو لكتابة محتوى جديد مستوحى من قاعدة بيانات معرفية محددة.

الخلاصة: RAG ليس عصا سحرية، ولكنه أقرب ما يكون! 🪄

تقنية البحث المعزز بالتوليد (RAG) غيرت قواعد اللعبة. لقد حولت النماذج اللغوية الكبيرة من مجرد “ببغاوات” ذكية تردد ما تعلمته، إلى “باحثين” خبراء يمكنهم استخدام وثائق محددة لتقديم إجابات دقيقة وموثوقة. هي الجسر الذي يربط بين القوة التوليدية الهائلة للـ LLMs وبين أرض الواقع المتمثلة في بياناتك الخاصة.

بالنسبة لي، بعد ذلك الموقف المحرج مع شركة المحاماة، قمنا بإعادة بناء النظام باستخدام RAG. في العرض التقديمي التالي، كان المساعد الذكي دقيقاً كالساعة، يجيب على أعقد الأسئلة القانونية بالرجوع إلى المادة والقضية الصحيحة. كانت لحظة فخر وانتصار لنا كفريق.

نصيحتي الأخيرة لك: لا تخف من التجربة. ابدأ بمشروع صغير، خذ مستنداً واحداً، طبق الخطوات التي ذكرناها، وشاهد السحر يحدث بنفسك. عالم الذكاء الاصطناعي يتطور بسرعة، و RAG هو أحد أهم الأدوات في صندوق عدة أي مطور اليوم.

يلا، ورجونا همتكم! 💪

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

وجهك في قاعدة بيانات عالمية دون علمك: قصة Clearview AI المخيفة وكيف تحمي نفسك

شركة Clearview AI جمعت مليارات الصور من الإنترنت لبناء قاعدة بيانات للتعرف على الوجوه، مما يطرح أسئلة خطيرة حول الخصوصية والموافقة. في هذه المقالة، نغوص...

8 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

بحثنا كان يطابق الكلمات لا المعاني: كيف أنقذتنا ‘قواعد بيانات المتجهات’ من جحيم النتائج غير ذات الصلة؟

أشارككم قصة من واقع العمل، حين كاد نظام بحث فاشل أن يدمر مشروعًا بأكمله. سنغوص في عالم قواعد بيانات المتجهات (Vector Databases) ونكتشف كيف حولت...

12 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

كان ذكاؤنا الاصطناعي كاذباً واثقاً: كيف أنقذنا ‘الجيل المعزز بالاسترجاع’ (RAG) من جحيم هلوسات النماذج اللغوية؟

أشارككم قصة حقيقية من أرض المعركة البرمجية، كيف واجهنا مشكلة "هلوسات" النماذج اللغوية الكبيرة التي كادت أن تدمر مشروعاً كاملاً. اكتشفوا معنا تقنية الجيل المعزز...

25 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

كان نموذجنا اللغوي يهلوس: كيف أنقذنا نمط ‘الجلب المعزز للتوليد’ (RAG) من جحيم الإجابات الخاطئة؟

كنا على وشك إطلاق نظام ذكاء اصطناعي لعميل مهم، لكن النموذج بدأ "يهلوس" ويختلق إجابات كارثية. في هذه المقالة، أشارككم قصتنا مع "هلوسة" النماذج اللغوية...

11 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

من مجرد ‘ببغاء’ إلى ‘مساعد ذكي’: دليلك الشامل لبناء وكلاء الذكاء الاصطناعي (AI Agents)

ننتقل من النماذج اللغوية التي تكرر المعلومات كالببغاء إلى بناء وكلاء ذكاء اصطناعي أذكياء قادرين على التفكير، التخطيط، واستخدام الأدوات لتنفيذ مهام معقدة. هذا المقال...

22 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

نموذجنا اللغوي كان يهذي: كيف أنقذنا ‘الجلب المعزز للتوليد’ (RAG) من جحيم الهلوسة؟

في هذه المقالة، أشارككم تجربتي كـ "أبو عمر" مع هلوسة النماذج اللغوية وكيف كانت كارثية. سنغوص في أعماق تقنية 'الجلب المعزز للتوليد' (RAG) كحل جذري،...

16 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا كانت بطيئة وتلتهم الميزانية: كيف أنقذنا “التحويل الكمي” (Quantization) من جحيم التكاليف وزمن الاستجابة

في هذه المقالة، أشارككم قصة حقيقية من قلب المعركة مع نماذج الذكاء الاصطناعي البطيئة والمكلفة. سأشرح لكم كيف كانت تقنية "التحويل الكمي" أو الـ Quantization...

28 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

كانت نماذجنا تتصرف بغرابة: كيف أنقذنا “رصد انحراف المفاهيم” (Concept Drift) من جحيم التنبؤات الفاشلة؟

في أحد المشاريع، بدأت نماذج الذكاء الاصطناعي لدينا تتصرف بجنون في بيئة الإنتاج بعد أن كانت تعمل بكفاءة. هذه قصتي، قصة أبو عمر، حول كيف...

6 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

الذكاء الاصطناعي والصندوق الأسود: كيف أنقذتنا تقنيات XAI من قراراته الغامضة؟

كانت قرارات الذكاء الاصطناعي لغزاً، صندوقاً أسود لا نعلم ما بداخله. في هذه المقالة، أشارككم قصة حقيقية وكيف فتحت لنا تقنيات الذكاء الاصطناعي القابل للتفسير...

27 أبريل، 2026 قراءة المزيد

آخر المدونات

برمجة وقواعد بيانات

تحديثات قاعدة البيانات بدون توقف: كيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من جحيم التوقفات المجدولة؟

هل سئمت من إيقاف الخدمة مع كل تحديث لهيكلة قاعدة البيانات؟ أشارككم قصة حقيقية وكيف أنقذنا نمط التوسيع والتعاقد (Expand/Contract) من ليالي النشر الطويلة والمُجهدة،...

4 يونيو، 2026 قراءة المزيد

الشبكات والـ APIs

كانت إعادة المحاولة كارثة: كيف أنقذتنا مفاتيح عدم تكرار العمليات (Idempotency Keys) من جحيم الفواتير المزدوجة؟

أشارككم قصة حقيقية من الخنادق البرمجية، يوم كاد خطأ بسيط في إعادة محاولة طلبات الدفع أن يكلفنا سمعتنا وأموال عملائنا. اكتشفوا معنا كيف كانت مفاتيح...

4 يونيو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كانت مهمتي البرمجية للاختبار مجرد كود: كيف أنقذني توثيق القرارات من جحيم الصمت بعد المقابلة؟

أشارككم قصة حقيقية من بداياتي، وكيف تعلمت بالطريقة الصعبة أن المهمة البرمجية ليست مجرد كتابة كود، بل هي فرصة لإظهار طريقة تفكيرك. اكتشف كيف يمكن...

4 يونيو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

نمط قاطع الدائرة: كيف نجا نظامنا من جحيم الانهيارات المتسلسلة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف تحول فشل بسيط في إحدى الخدمات إلى انهيار كارثي للنظام بأكمله. واكتشفوا معنا نمط "قاطع الدائرة" (Circuit...

4 يونيو، 2026 قراءة المزيد