ذكاء اصطناعي

نماذجنا اللغوية كانت تهذي: كيف أنقذنا ‘التوليد المعزز بالاسترجاع’ (RAG) من جحيم الإجابات الخاطئة؟

أبو عمر 23 أبريل، 2026 2 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله. معكم أخوكم أبو عمر.

قبل فترة، كنا شغالين على مشروع لشركة محاماة كبيرة. الفكرة كانت بسيطة ومغرية: نبني مساعد ذكاء اصطناعي داخلي، زي ChatGPT، بس “متعلّم” كل ملفاتهم وقضاياهم وسوابقهم القضائية اللي بتزيد عن عشرات الآلاف من المستندات. الهدف كان إنه المحامي الجديد أو المتدرب يقدر يسأل النظام أي سؤال عن قضية قديمة ويحصل على جواب فوري ودقيق. حماسنا كان في السما.

أطلقنا نسخة تجريبية، والأمور كانت تبدو وردية في البداية. النموذج كان يجاوب بسرعة وبثقة. لكن بعد كم يوم، بلّشت توصلنا ملاحظات غريبة من المحامين. واحد منهم سأل عن سابقة قضائية في قضية تعويضات معينة، والنموذج أعطاه جواب مفصّل، مع رقم قضية وتاريخ وأسماء… المشكلة؟ كل هاي المعلومات كانت من نسج خيال النموذج! لا وجود لهي القضية أصلاً. وقتها حسيت بوجعة راس حقيقية، وصرت أحكي لحالي: “يا زلمة شو هاد؟ هيك رح نودّي الشركة في داهية!”.

كانت نماذجنا بتهلوس حرفيًا، بتخترع الحقائق بثقة تامة. هنا كانت لحظة الحقيقة، اللحظة اللي عرفنا فيها إنه الاعتماد على ذاكرة النموذج اللغوي لوحدها هو وصفة للكارثة. ومن قلب هذه الأزمة، طلع الحل اللي أنقذ المشروع كله: تقنية التوليد المعزز بالاسترجاع، أو ما يعرف بـ RAG.

المشكلة: لما نماذجنا اللغوية “بتهلوس”

قبل ما نحكي عن الحل، خلينا نفهم أصل المشكلة. النماذج اللغوية الكبيرة (LLMs) زي GPT-4 وغيرها، هي بالأساس آلات إحصائية لتوقّع الكلمة التالية. هي مش قواعد بيانات، ولا عندها مفهوم حقيقي للـ “صح” والـ “غلط”. هي تعلمت من كم هائل من نصوص الإنترنت، وبتحاول تكمل أي نص بتعطيها إياه بالطريقة الأكثر احتمالاً إحصائياً.

مشكلة “الهلوسة” (Hallucination) بتصير لما النموذج ما يلاقي جواب مباشر في “ذاكرته” التدريبية، فبدل ما يحكي “ما بعرف”، بيبدأ “يألّف” جواب يبدو منطقي ومقنع من ناحية لغوية، لكنه خاطئ تماماً من ناحية واقعية. تخيله مثل الطالب اللي ما درس للامتحان، وبدل ما يترك الورقة فاضية، بيكتب جواب طويل عريض من تأليفه، بس بأسلوب أكاديمي مقنع.

الهلوسة في الذكاء الاصطناعي مش معناها إن النموذج بشوف أشباح، بل إنه بيولّد معلومات تبدو حقيقية لكنها غير صحيحة أو لا تستند إلى البيانات المُدخلة.

الحل السحري: التوليد المعزّز بالاسترجاع (RAG)

هنا يأتي دور الـ RAG. الفكرة عبقرية في بساطتها: بدل ما نطلب من النموذج اللغوي إنه يتذكر كل شيء عن بياناتنا الخاصة (وهو أمر صعب ومكلف ومصدر للهلوسة)، بنعطيه “كتاب مفتوح” (Open Book) وقت الامتحان.

الـ RAG بيحول النموذج اللغوي من “طالب حافظ مش فاهم” إلى “باحث خبير” بيعرف وين يلاقي المعلومة الصح قبل ما يجاوب. العملية بتتم على مرحلتين أساسيتين: الفهرسة، ثم الاسترجاع والتوليد.

المرحلة الأولى: الفهرسة (تجهيز “الكتاب المفتوح”)

قبل ما المستخدم يسأل أي سؤال، لازم نجهز مصادر المعرفة تبعتنا (مستندات PDF، صفحات ويب، قواعد بيانات، إلخ). هاي العملية بتمر بخطوتين:

التقطيع (Chunking): بنمسك المستندات الكبيرة وبنقسمها لقطع صغيرة ومنطقية (Chunks). ليش؟ لأنه أسهل على النظام إنه يلاقي قطعة صغيرة ومحددة ذات صلة بالسؤال، بدل ما يتعامل مع مستند كامل من 100 صفحة.
التضمين (Embedding): هاي هي الخطوة السحرية. بنستخدم نموذج تضمين (Embedding Model) عشان نحول كل قطعة نصية إلى متجه رياضي (Vector)، وهو عبارة عن مجموعة طويلة من الأرقام. فكر فيه كإحداثيات فريدة لكل قطعة معلومات على خريطة ضخمة. القطع اللي معانيها متشابهة بتكون إحداثياتها (متجهاتها) قريبة من بعض على هاي الخريطة.
التخزين (Storing): بنخزن كل هاي المتجهات النصية في قاعدة بيانات متخصصة اسمها “قاعدة بيانات المتجهات” (Vector Database) مثل Chroma, Pinecone, أو FAISS. وظيفتها إنها تبحث بسرعة خيالية عن المتجهات المتشابهة.

المرحلة الثانية: الاسترجاع والتوليد (لما يسأل المستخدم)

الآن، لما يجي المستخدم ويسأل سؤال، بتصير العملية التالية بسرعة البرق:

تضمين السؤال: بنحول سؤال المستخدم هو كمان لمتجه (Vector) بنفس الطريقة اللي عملناها مع قطع المستندات.
الاسترجاع (Retrieval): بنروح على قاعدة البيانات المتجهة وبنحكيلها: “يا قاعدة البيانات، أعطيني أكثر قطع نصية متّجهاتها قريبة من متجه السؤال هاد”. النظام بيرجع لنا، مثلاً، أفضل 5 قطع نصية ذات صلة بالسؤال. هاي هي “الصفحات” اللي فتحناها من “الكتاب المفتوح”.
التوليد المعزز (Augmented Generation): الآن، بدل ما نسأل النموذج اللغوي سؤال المستخدم مباشرة، بنبني له “سياق” جديد (Prompt معزز). بنحكيله:

“بناءً على المعلومات التالية فقط: [هنا نضع القطع النصية التي تم استرجاعها]، أجب على السؤال التالي: [هنا نضع سؤال المستخدم الأصلي]. إذا كانت الإجابة غير موجودة في المعلومات، قل بوضوح أنك لا تعرف.”

بهذه الطريقة، نحن نجبر النموذج على الإجابة من مصدر موثوق (بياناتنا الخاصة)، وبنقلل فرصة الهلوسة بشكل كبير جداً. صار النموذج مساعد باحث، مش مخترع قصص. ✨

يلا نطبّق عملي: مثال كود بسيط

الكلام النظري حلو، بس خلينا نشوف كيف ممكن نطبق هذا الحكي عمليًا. رح نستخدم مكتبة LangChain الشهيرة في بايثون، لأنها بتبسط الموضوع كتير.

تخيل عندنا ملف نصي اسمه `my_knowledge.txt` فيه المعلومات التالية:


أبو عمر هو مبرمج فلسطيني خبير في الذكاء الاصطناعي.
يعمل أبو عمر في تطوير حلول تعتمد على النماذج اللغوية الكبيرة.
التقنية المفضلة لديه لتقليل الهلوسة هي RAG.
RAG تعني التوليد المعزز بالاسترجاع.

الآن، لنبني نظام RAG بسيط للإجابة على أسئلة من هذا الملف.


# أولاً، تأكد من تثبيت المكتبات اللازمة
# pip install langchain langchain_openai langchain_community faiss-cpu

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA

# تأكد من وضع مفتاح OpenAI الخاص بك هنا
# import os
# os.environ["OPENAI_API_KEY"] = "sk-..."

# 1. تحميل وتجهيز المستندات (الفهرسة)
# ------------------------------------

# تحميل الملف النصي
loader = TextLoader("my_knowledge.txt", encoding="utf-8")
documents = loader.load()

# تقطيع النص إلى قطع أصغر
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# إنشاء تضمينات (embeddings) باستخدام OpenAI
embeddings = OpenAIEmbeddings()

# تخزين القطع والتضمينات في قاعدة بيانات متجهات (FAISS في الذاكرة)
# هاي هي عملية بناء "الكتاب المفتوح"
db = FAISS.from_documents(docs, embeddings)


# 2. بناء سلسلة الاسترجاع والإجابة
# --------------------------------

# تحديد النموذج اللغوي اللي رح يجاوب
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

# إنشاء سلسلة RAG
# chain_type="stuff" تعني أنه سيتم "حشو" كل القطع المسترجعة في السياق
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=db.as_retriever() # هذا هو الجزء المسؤول عن الاسترجاع
)


# 3. طرح الأسئلة!
# ----------------

query1 = "من هو أبو عمر؟"
response1 = qa_chain.invoke(query1)
print(f"السؤال: {query1}")
print(f"الإجابة: {response1['result']}")

print("-" * 20)

query2 = "ما هي التقنية التي يستخدمها أبو عمر لتقليل الهلوسة؟"
response2 = qa_chain.invoke(query2)
print(f"السؤال: {query2}")
print(f"الإجابة: {response2['result']}")

query3 = "ما هي عاصمة إسبانيا؟"
response3 = qa_chain.invoke(query3)
print(f"السؤال: {query3}")
print(f"الإجابة: {response3['result']}")

عند تشغيل هذا الكود، ستلاحظ أن الإجابات على السؤالين الأول والثاني دقيقة ومستقاة من الملف. أما السؤال الثالث عن عاصمة إسبانيا، فالنموذج (في الغالب) سيجيب بأنه لا يعرف، لأن هذه المعلومة غير موجودة في “الكتاب المفتوح” الذي أعطيناه له. وهذا بالضبط ما نريده!

نصايح من خبرة أبو عمر

بعد شغل كتير في هذا المجال، فيه كم شغلة تعلمتها بالطريقة الصعبة، وحابب أشارككم إياها:

فن التقطيع (Chunking): حجم القطع (chunk size) ومقدار التداخل بينها (overlap) بفرق كتير. ما في رقم سحري واحد. جرب أحجام مختلفة. للأسئلة اللي بتحتاج تفاصيل دقيقة، القطع الصغيرة أفضل. للأسئلة اللي بتحتاج سياق عام، القطع الأكبر ممكن تكون أنسب.
“يا زلمة، رتّب بياناتك”: أهم نصيحة. جودة نظام الـ RAG تعتمد بشكل مباشر على جودة ونظافة بياناتك المصدر. إذا كانت مستنداتك مليئة بالأخطاء أو المعلومات المكررة، فالنتائج رح تكون سيئة. نظافة البيانات هي 80% من الشغل. Garbage in, garbage out.
مش كل نماذج التضمين زي بعض: اختيار نموذج التضمين (Embedding Model) مهم جداً. فيه نماذج أفضل للنصوص العربية، ونماذج أفضل للمصطلحات التقنية. جرب نماذج مختلفة (مثل `text-embedding-3-small` من OpenAI أو نماذج مفتوحة المصدر من Hugging Face) وشوف شو الأنسب لبياناتك.
البحث الهجين (Hybrid Search): أحياناً، الاعتماد على تشابه المعنى (Vector Search) لوحده مش كافي. ممكن المستخدم يبحث عن اسم منتج معين أو رقم قضية. هنا يأتي دور البحث الهجين، اللي بدمج البحث بالمتجهات مع البحث التقليدي بالكلمات المفتاحية (Keyword Search). هذا المزيج غالباً ما يعطي أفضل النتائج.

الخلاصة والزبدة

إذا كنت تبني أي تطبيق يعتمد على نموذج لغوي كبير للإجابة على أسئلة بناءً على بياناتك الخاصة (سواء كانت مستندات شركة، أو قاعدة معرفية، أو موقعك الإلكتروني)، فإن تقنية RAG ليست مجرد خيار، بل هي ضرورة.

الـ RAG بتحول نماذج الذكاء الاصطناعي من “مُدّعي معرفة” واثق ومُخطئ، إلى “باحث خبير” دقيق وموثوق. إنها الجسر الذي يربط بين القوة الإبداعية الهائلة للنماذج اللغوية وبين أرض الواقع الصلبة المليئة بالحقائق والبيانات. هي الطريقة اللي بنخلي فيها نماذجنا تحكي “بعرف من وين جبت المعلومة” بدل ما تحكي “صدقني وبس”.

نصيحتي الأخيرة: لا تخاف من التجربة. ابدأ بمشروع صغير، ملف نصي واحد، وجرب بنفسك. الأدوات صارت أسهل وأكثر توفراً من أي وقت مضى. يلا يا جماعة، ورجونا إبداعاتكم! 💪

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

قرارات نموذجنا كانت صندوقاً أسود: كيف أنقذتنا تقنيات التفسير (XAI) من جحيم التنبؤات الغامضة؟

أشارككم قصة من الميدان، يوم كاد نموذج ذكاء اصطناعي "صندوق أسود" أن يورطنا في قرارات كارثية. هذه المقالة هي دليلك لفهم تقنيات الذكاء الاصطناعي القابل...

12 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

بحثنا كان يعثر على الكلمات، لا على النوايا: كيف أنقذتنا قواعد بيانات المتجهات من جحيم البحث الدلالي الأعمى؟

أشارككم قصة من قلب المعركة البرمجية، يوم كان نظام البحث لدينا أصمًا وأعمى، لا يفهم سوى تطابق الكلمات. سنغوص في عالم قواعد بيانات المتجهات (Vector...

14 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

معضلة الـ 0.5%: كيف سيصنع الذكاء الاصطناعي العربي مستقبل الاقتصاد الرقمي؟

من واقع تجربة شخصية، أنا أبو عمر، مطور فلسطيني، أسرد لكم كيف أن فجوة البيانات العربية في الذكاء الاصطناعي التي لا تتجاوز 0.5% ليست مجرد...

4 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

من جحيم “شغال عندي” إلى جنة الأتمتة: كيف أنقذنا مشاريع الذكاء الاصطناعي بـ MLOps

أروي لكم قصة حقيقية عن الفوضى التي عشناها في تدريب نماذج الذكاء الاصطناعي، وكيف كانت عبارة "شغال عندي!" كابوساً يطاردنا. سأشارككم رحلتنا خطوة بخطوة لتبني...

16 أبريل، 2026 قراءة المزيد

بودكاست

ذكاء اصطناعي

من Deep Learning إلى Generative AI: رحلة الذكاء الاصطناعي نحو المستقبل (وتطبيقاته العملية)

استكشف التحول الجذري من التعلم العميق إلى الذكاء الاصطناعي التوليدي، وتعرّف على تطبيقاته الثورية التي تُعيد تشكيل عالمنا. اكتشف كيف يمكنك الاستفادة من هذه التقنيات...

25 ديسمبر، 2025 قراءة المزيد

ذكاء اصطناعي

نماذجنا اللغوية كانت عملاقة ومكلفة: كيف أنقذنا ‘تقطير النماذج’ (Model Distillation) من جحيم بطء الاستدلال والتكاليف الباهظة؟

أنا أبو عمر، مبرمج فلسطيني، وأشارككم اليوم قصة حقيقية من تجربتي عن كيفية ترويض نماذج الذكاء الاصطناعي العملاقة. سنغوص في تقنية "تقطير النماذج" (Model Distillation)...

21 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

موظفوك يسرّبون أسرار شركتك إلى ChatGPT.. وأنت آخر من يعلم!

هل تعلم أن مساعد الذكاء الاصطناعي الذي يعزز إنتاجية فريقك قد يكون أكبر ثغرة أمنية في شركتك؟ دراسة حديثة تكشف أرقاماً صادمة عن تسريب بيانات...

7 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا كانت تموت في صمت: كيف أنقذنا ‘رصد الانحراف’ من جحيم الأداء المتدهور؟

أتذكر جيداً ذلك اليوم الذي تحولت فيه احتفالاتنا بنجاح نموذج التوصيات إلى جلسة طارئة للبحث عن "شبح" غامض كان يقتل أداءه. في هذه المقالة، أشارككم...

9 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا كانت تفقد ذكاءها بمرور الوقت: كيف أنقذنا ‘رصد الانحراف’ (Model Drift Monitoring) من جحيم التدهور الصامت؟

أذكر جيدًا ذلك الشعور بالإنجاز عندما أطلقنا نموذجنا الأول لتصنيف مشاعر العملاء، ولكن سرعان ما تحول الحلم إلى كابوس صامت. هذه هي قصتنا مع 'انحراف...

14 أبريل، 2026 قراءة المزيد

آخر المدونات

نصائح برمجية

شفرتنا كانت غابة من جمل if-else: كيف أنقذتنا ‘جداول البحث’ (Lookup Tables) من جحيم المنطق المتشعب؟

أشارككم قصة من قلب الميدان، كيف تحول كود معقد ومليء بجمل if-else المتشعبة إلى تحفة فنية بسيطة وسهلة الصيانة باستخدام تقنية "جداول البحث" (Lookup Tables)....

23 أبريل، 2026 قراءة المزيد

معمارية البرمجيات

تحديث نظامنا القديم كان كابوساً: كيف أنقذنا نمط ‘الخنق التدريجي’ (Strangler Fig) من جحيم إعادة البناء الكارثية؟

بتذكر هذيك الأيام الصعبة لما قررنا نعيد كتابة نظامنا القديم من الصفر، وكيف تحول الحلم لكابوس. في هذه المقالة، بحكي لكم قصتنا وكيف نمط بسيط...

23 أبريل، 2026 قراءة المزيد

خوارزميات

إضافة سيرفر جديد كانت تعني كارثة: كيف أنقذتنا ‘التجزئة المتسقة’ (Consistent Hashing) من جحيم إعادة توزيع البيانات؟

أتذكر جيداً ذلك اليوم الذي كاد فيه نجاحنا أن يتحول إلى كارثة بسبب إضافة سيرفر تخزين مؤقت (Cache) جديد. في هذه المقالة، أسرد لكم كيف...

23 أبريل، 2026 قراءة المزيد

تسويق رقمي

إعلاناتنا كانت تطلق النار في الظلام: كيف أنقذنا ‘التتبع من جانب الخادم’ من جحيم بيانات التحويل المفقودة؟

أتذكر جيداً ذلك الاجتماع المتوتر مع أحد عملائنا، حيث كانت لوحات تحكم الإعلانات تظهر أرقاماً كارثية بينما أرقام المبيعات الفعلية جيدة. في هذه المقالة، سأشارككم...

23 أبريل، 2026 قراءة المزيد

تجربة المستخدم والابداع البصري

تغيير لون الزر كان يستغرق أسبوعاً: كيف أنقذتنا ‘رموز التصميم’ (Design Tokens) من جحيم التعديلات اليدوية؟

أنا أبو عمر، وأروي لكم كيف تحول طلب بسيط لتغيير لون زر إلى كابوس استمر أسبوعاً، وكيف كانت "رموز التصميم" (Design Tokens) هي طوق النجاة...

23 أبريل، 2026 قراءة المزيد

برمجة وقواعد بيانات

صفحاتنا كانت تتطلب آلاف الاستعلامات: كيف أنقذنا ‘التحميل المسبق’ (Eager Loading) من جحيم مشكلة N+1؟

أتذكر ذلك اليوم جيداً، كنا نطلق ميزة جديدة والصفحة أبطأ من السلحفاة. اكتشفنا أننا نرسل آلاف الاستعلامات لقاعدة البيانات بسبب مشكلة بسيطة تُدعى N+1. في...

23 أبريل، 2026 قراءة المزيد

الشبكات والـ APIs

خدماتنا المصغرة كانت فوضى من نقاط النهاية: كيف أنقذتنا ‘بوابة الواجهة البرمجية’ (API Gateway) من جحيم الإدارة المعقدة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، كيف انتقلنا من فوضى إدارة الخدمات المصغرة (Microservices) إلى نظام متكامل ومنظم. اكتشفوا معنا كيف كانت "بوابة الواجهة...

23 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

أسرارنا كانت مكشوفة للجميع: كيف أنقذتنا ‘إدارة الهوية والوصول’ (IAM) من جحيم الأذونات الفضفاضة؟

في عالم الحوسبة السحابية، الأمان ليس رفاهية. أشارككم قصة حقيقية عن كارثة كادت أن تدمر مشروعنا، وكيف كانت "إدارة الهوية والوصول" (IAM) هي طوق النجاة...

23 أبريل، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

الترقيات كانت ضربة حظ: كيف أنقذنا ‘سلم المسار الوظيفي’ من جحيم الغموض والتحيز؟

في عالم التكنولوجيا السريع، لا يجب أن تكون الترقيات والتطور المهني ضربة حظ أو نتيجة "واسطة". في هذه المقالة، أشارككم تجربتي كـ "أبو عمر" في...

23 أبريل، 2026 قراءة المزيد

المشكلة: لما نماذجنا اللغوية “بتهلوس”

الحل السحري: التوليد المعزّز بالاسترجاع (RAG)

المرحلة الأولى: الفهرسة (تجهيز “الكتاب المفتوح”)

المرحلة الثانية: الاسترجاع والتوليد (لما يسأل المستخدم)

يلا نطبّق عملي: مثال كود بسيط

نصايح من خبرة أبو عمر

الخلاصة والزبدة

سجل دخولك لعمل نقاش تفاعلي

مراجعة رأيك قبل النشر

آراء من النقاشات

مقالات ذات صلة

آخر المدونات