ذكاء اصطناعي

نموذجي اللغوي كان يهذي: كيف أنقذني التوليد المعزز بالاسترجاع (RAG) من جحيم الهلوسة؟

أبو عمر 6 أبريل، 2026 1 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله وبركاته، معكم أخوكم أبو عمر.

قبل فترة، كنت شغال على مشروع حساس شوي لأحد العملاء. الفكرة كانت ببساطة بناء مساعد ذكي (Chatbot) قادر يجاوب على أسئلة المستخدمين بخصوص قاعدة بيانات ضخمة من الوثائق القانونية الداخلية للشركة. طبعاً، أول ما خطر ببالي هو استخدام أحد النماذج اللغوية الكبيرة (LLM) المشهورة، وتدريبه أو تلقينه المعلومات اللازمة.

الأيام الأولى كانت وردية. النموذج كان فاهم عليّ، ويجاوب على الأسئلة العامة بشكل مبهر. لكن الكارثة بدأت لما دخلنا في التفاصيل الدقيقة. سألته عن مادة معينة في قانون العمل لسنة 2017، والنموذج بكل ثقة “أفتى” لي بمادة قانونية كاملة، برقمها وتفاصيلها… المشكلة؟ هالمادة ما إلها أي وجود في الواقع! كانت من نسج خيال النموذج. قعدت صافن في الشاشة وأنا بحكي لحالي: “شو هالحكي؟ من وين جاب هالكلام؟”.

هون بلش الكابوس. النموذج كان “يهلوس” (Hallucinating) بشكل مستمر. يخلط معلومات صحيحة بمعلومات مخترعة، ويقدمها بثقة عمياء تخلي الواحد يشك في حاله. قضيت ليالي وأنا أحاول أعمل Fine-tuning وأغير في الـ Prompts، لكن الهلوسة كانت زي العفريت، كل ما أسد باب تطلعلي من شباك. حسيت المشروع كله رح ينهار، وسمعتي كمطور صارت على المحك. لحد ما في ليلة من الليالي، وأنا ببحث بيأس، وقعت عيني على مصطلح غيّر كل شي: Retrieval-Augmented Generation (RAG).

ما هي “هلوسة” النماذج اللغوية؟ ولماذا تحدث؟

قبل ما نغوص في الحل، خلينا نفهم المشكلة بالزبط. الهلوسة في عالم الذكاء الاصطناعي هي لما النموذج اللغوي يولد معلومات تبدو منطقية ومقنعة، لكنها في الحقيقة خاطئة تماماً أو لا تستند إلى أي بيانات واقعية من بيانات التدريب الخاصة به.

تخيل النموذج كطالب ذكي جداً لكنه متوتر في امتحان. هو تدرب على مليارات النصوص من الإنترنت، وصار عنده قدرة رهيبة على التنبؤ بالكلمة التالية في أي جملة. لما تسأله سؤال ما بيعرف إجابته الدقيقة من ذاكرته (بيانات تدريبه)، بدل ما يحكي “لا أعرف”، بيحاول “يألف” إجابة تبدو الأكثر احتمالاً من الناحية اللغوية. هو لا يكذب عن قصد، بل هو مجرد آلة احتمالات بتحاول تكمل الفراغ بأفضل شكل ممكن بناءً على ما تعلمته. وهذه هي المصيبة في التطبيقات اللي بتحتاج دقة 100% زي التطبيقات القانونية أو الطبية.

طوق النجاة: التوليد المعزز بالاسترجاع (RAG)

الـ RAG هو مش نموذج جديد، بل هو “هندسة” أو “طريقة” ذكية جداً للجمع بين قوة النماذج اللغوية الكبيرة في الفهم والتوليد، وقوة محركات البحث التقليدية في استرجاع المعلومات الدقيقة.

شو قصة الـ RAG؟ كيف بيشتغل؟

الفكرة عبقرية في بساطتها. بدل ما نعتمد على “ذاكرة” النموذج المحدودة والمُدرّبة مسبقاً، بنعطيه “كتاب مفتوح” (Open Book) وقت الإجابة. هالكتاب هو قاعدة بياناتك الخاصة (وثائقك، ملفاتك، موقعك الإلكتروني، أي شي بدك ياه).

العملية بتمر بمراحل واضحة:

الاسترجاع (Retrieval): لما المستخدم يسأل سؤال، النظام ما بروح للنموذج اللغوي مباشرة. أولاً، بياخذ السؤال وببحث في قاعدة بياناتك الخاصة (الكتاب المفتوح) عن أكثر أجزاء النص صلة بالسؤال. هذه العملية تشبه لما تبحث في جوجل عن معلومة.
التعزيز (Augmentation): بعد ما يلاقي الأجزاء ذات الصلة (مثلاً، فقرتين من وثيقة PDF)، بيقوم “بتعزيز” السؤال الأصلي. يعني بيجهز prompt جديد للنموذج اللغوي، شكله كالتالي:

“يا نموذج يا محترم، بالاعتماد على السياق التالي فقط، أجب عن سؤال المستخدم.

السياق: [هنا نضع الفقرات اللي تم استرجاعها]

سؤال المستخدم: [هنا نضع السؤال الأصلي]”
التوليد (Generation): الآن، النموذج اللغوي يستقبل هذا الـ prompt المعزز. مهمته صارت أسهل بكثير وأكثر أماناً. بدل ما يجاوب من ذاكرته الواسعة اللي ممكن تكون خاطئة، هو الآن مجبر يجاوب بالاعتماد على السياق الدقيق والمحدّث اللي أعطيناه إياه. هيك، بنكون قضينا على الهلوسة من جذورها لأنه صار مربوط بمصدر موثوق.

خلونا نوسّخ إيدينا: مثال عملي بسيط باستخدام Python

الحكي النظري حلو، بس خلينا نشوف كيف هالكلام بترجم لكود حقيقي. رح نستخدم مكتبة LangChain المشهورة في هذا المجال لأنها بتبسط العملية جداً.

الأدوات اللي رح نحتاجها

مكتبة langchain للربط بين المكونات.
مكتبة للتعامل مع نماذج اللغة مثل langchain-openai.
مكتبة لإنشاء قاعدة بيانات فيكتور (Vector Store) مثل faiss-cpu.
مكتبة لقراءة الملفات مثل pypdf.

الكود خطوة بخطوة

لنفترض أن لدينا ملف PDF اسمه "my_document.pdf" ونريد أن نجعل النموذج يجيب على أسئلة منه.


# أولاً، نقوم بتثبيت المكتبات اللازمة
# pip install langchain langchain-openai faiss-cpu pypdf

import os
from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain.chains import RetrievalQA

# ضع مفتاح OpenAI الخاص بك هنا
os.environ["OPENAI_API_KEY"] = "sk-..."

# --- الخطوة 1: تحميل وتقسيم الوثائق ---
# سنقوم بتحميل ملف الـ PDF
loader = PyPDFLoader("my_document.pdf")
documents = loader.load()

# النماذج اللغوية لها حد معين من الكلمات (context window)
# لذلك يجب تقسيم النص الطويل إلى أجزاء صغيرة (chunks)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texts = text_splitter.split_documents(documents)

print(f"تم تقسيم الوثيقة إلى {len(texts)} جزء.")

# --- الخطوة 2: إنشاء Embeddings وتخزينها في Vector Store ---
# الـ Embeddings هي تحويل النصوص إلى أرقام (فيكتور) ليفهمها الكمبيوتر
# الـ Vector Store هي قاعدة بيانات متخصصة في البحث عن هذه الفيكتورات المتشابهة
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(texts, embeddings)

print("تم إنشاء قاعدة البيانات الفيكتورية بنجاح.")

# --- الخطوة 3: إعداد سلسلة RAG ---
# هنا نربط كل شيء معًا
# llm: النموذج اللغوي الذي سيقوم بتوليد الإجابة النهائية
# chain_type="stuff": الطريقة التي سنجمع بها النصوص مع السؤال (مناسبة للنصوص الصغيرة)
# retriever: هو المسؤول عن البحث في قاعدة البيانات الفيكتورية
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0),
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

# --- الخطوة 4: طرح الأسئلة ---
query = "ما هي أهم النقاط المذكورة في الفصل الثالث من الوثيقة؟"
result = qa_chain.invoke({"query": query})

print("n--- السؤال ---")
print(query)
print("n--- الإجابة ---")
print(result['result'])

بهذه البساطة، يا جماعة! الكود أعلاه يبني نظام RAG كامل. الآن، بدل ما النموذج “يهلوس”، هو مجبر يبحث في my_document.pdf ويستخرج الإجابة منه مباشرة. صار مساعد ذكي موثوق بدلاً من كونه “مُفتي” لا يعتمد عليه.

نصائح من أخوكم أبو عمر (من أرض المعركة)

بعد ما اشتغلت على أكثر من مشروع باستخدام RAG، جمعتلكم شوية نصائح عملية ممكن توفر عليكم وقت وجهد كبير:

اهتم بتقسيم النصوص (Chunking): طريقة تقسيمك للوثائق لأجزاء صغيرة تؤثر بشكل مباشر على جودة البحث. لا تقسم الكلمات في منتصف الجملة. استخدم RecursiveCharacterTextSplitter لأنه ذكي ويحاول الحفاظ على بنية الفقرات.
جودة الـ Retriever هي كل شيء: إذا كانت نتائج البحث الأولية (الاسترجاع) سيئة، فالإجابة النهائية ستكون سيئة حتماً. جرب تغيير عدد النتائج المسترجعة (parameter اسمه k) وشوف كيف تتأثر الجودة.
الـ Prompt هو الملك: الـ prompt اللي بتعطيه للنموذج في مرحلة التوليد مهم جداً. كن واضحاً في تعليماتك. جملة مثل “أجب بالاعتماد على السياق فقط. إذا كانت الإجابة غير موجودة في السياق، قل بوضوح ‘لا أملك معلومات كافية للإجابة’.” يمكن أن تصنع فرقاً هائلاً.
لا تهمل الـ Metadata: عند تقسيم الوثائق، يمكنك إضافة بيانات وصفية (metadata) لكل جزء، مثل رقم الصفحة أو اسم الملف. هذا يساعدك لاحقاً على ذكر المصدر في الإجابة، مما يزيد من ثقة المستخدم.
فكر في Hybrid Search: أحياناً البحث عن طريق الكلمات المفتاحية (keyword search) التقليدي يكون أفضل من البحث الدلالي (vector search) للأسماء والمصطلحات الدقيقة. الجمع بين الاثنين (Hybrid Search) يعطي نتائج خارقة في كثير من الأحيان.

الخلاصة: من الهلوسة إلى الثقة 😌

في النهاية، تقنية RAG ليست عصا سحرية، بل هي نمط هندسي قوي وفعال يحل واحدة من أكبر مشاكل النماذج اللغوية الكبيرة: الثقة والدقة. هي الجسر الذي يربط بين القدرة الإبداعية الهائلة لهذه النماذج وبين أرض الواقع الصلبة المتمثلة في بياناتنا ووثائقنا الخاصة.

بالنسبة لي، كانت RAG هي المنقذ الذي حول مشروع على حافة الفشل إلى قصة نجاح، وحول علاقتي بالنماذج اللغوية من علاقة شك وحذر إلى علاقة ثقة وتعاون. إذا كنت تعمل مع نماذج لغوية وتحتاج إلى إجابات دقيقة وموثوقة من مصادر بياناتك الخاصة، فصدقني، الـ RAG هو صديقك الذي تبحث عنه.

لا تخافوا من التجربة، وسّخوا إيديكم بالكود، واكتشفوا القوة بأنفسكم. بالتوفيق يا أبطال! 👨‍💻

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

التآكل الإنساني في عصر الذكاء الاصطناعي: هل نقع في حب الآلة؟

بودكاست

ذكاء اصطناعي

التآكل الإنساني في عصر الذكاء الاصطناعي: هل نقع في حب الآلة؟

استكشاف مخاطر الاعتماد النفسي على الذكاء الاصطناعي، من العزلة الاجتماعية إلى الإدمان العاطفي، وكيفية الحفاظ على إنسانيتنا في عالم يزداد فيه تأثير الآلة. نظرة على...

29 ديسمبر، 2025 قراءة المزيد

ذكاء اصطناعي

غرامة لينكدإن 310 مليون يورو: كيف تتجسس عليك الخوارزميات دون علمك؟

من واقعة شخصية إلى فضيحة عالمية، نغوص في كواليس غرامة لينكدإن الضخمة. سنكشف كيف تحلل الخوارزميات كل نقرة وتمريرة لتصنيفك سراً، وماذا يعني هذا لمستقبلك...

9 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

عندما يفضحك مساعدك الذكي: كيف تكشف تطبيقات الذكاء الاصطناعي عن معلوماتك الحساسة؟

بصفتي أبو عمر، مبرمج فلسطيني، أشارككم قصة حقيقية عن مساعد ذكي كاد أن يسبب كارثة بتسريب بيانات العملاء. نستكشف معًا ثغرة "كشف المعلومات الحساسة" في...

7 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

روبوت سناب شات في قفص الاتهام: هل أصبحت دردشات أطفالنا وقودًا للذكاء الاصطناعي؟

بصفتي أبو عمر، مبرمج فلسطيني، أسرد لكم قصة روبوت "My AI" من سناب شات وكيف أثار تحقيق بريطاني مخاوف جدية حول استخدام محادثات الأطفال لتدريب...

9 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

النموذج اللغوي كان يجهل وثائقنا: كيف أنقذنا ‘التوليد المعزز بالاسترجاع’ (RAG) من جحيم الهلوسة؟

أشارككم قصة واقعية من عالم البرمجة، حيث واجهنا مشكلة "هلوسة" النماذج اللغوية الكبيرة عند محاولة استخدامها مع بياناتنا الداخلية. اكتشفوا كيف كانت تقنية التوليد المعزز...

7 أبريل، 2026 قراءة المزيد

بودكاست

ذكاء اصطناعي

من ChatGPT إلى Bard: دليل المبرمج لاختيار نموذج اللغة الأنسب لمشروعك (مع أمثلة عملية)

هل تحتار بين ChatGPT و Bard؟ في هذا المقال، نغوص في أعماق نماذج اللغات الكبيرة، نقارن بينها بشكل عملي، ونقدم لك النصائح لاختيار النموذج الأمثل...

25 ديسمبر، 2025 قراءة المزيد

ذكاء اصطناعي

حين تأمرك المحكمة بتدمير نموذجك: الذكاء الاصطناعي والبيانات غير القانونية

مقالة من أبو عمر، مطور فلسطيني، تسرد قصة واقعية عن بناء منتج على بيانات مسروقة، وتتعمق في قضايا إجبار الشركات على تدمير نماذج الذكاء الاصطناعي...

10 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

غرامة ChatGPT المليونية: هل انتهى عصر تدريب الذكاء الاصطناعي على بياناتنا؟

فرضت السلطات الإيطالية غرامة ضخمة على OpenAI، مما يثير تساؤلاً جوهريًا حول شرعية تدريب النماذج اللغوية على بيانات الإنترنت. في هذه المقالة، أغوص معكم في...

8 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

من الدردشة إلى القرار: بناء وكيل ذكاء اصطناعي محلي (AI Agent) ودمجه في CI/CD مع n8n

دليل عملي شامل لبناء وكيل ذكاء اصطناعي محلي (Local AI Agent) باستخدام LLaMA، وتصميمه لاتخاذ القرارات فقط، ثم ربطه بمنصة n8n ليعمل داخل دورة التطوير...

25 يناير، 2026 قراءة المزيد

آخر المدونات

خوارزميات

البحث في قوائمي المرتبة كان يزحف: كيف أنقذني ‘البحث الثنائي’ من جحيم البطء الخطي؟

أشارككم قصة حقيقية من مسيرتي كمبرمج، عندما كاد تطبيق بطيء أن يكلفني مشروعاً كاملاً. اكتشفوا معي كيف أنقذتني خوارزمية "البحث الثنائي" البسيطة، وحولت تطبيقاً يزحف...

8 أبريل، 2026 قراءة المزيد

تسويق رقمي

ميزانيتنا كانت تحترق: كيف أنقذتنا ‘نماذج الإحالة’ (Attribution Models) من جحيم تخمين القنوات الرابحة؟

أتذكر جيداً كيف كنا نضخ الأموال في قنوات التسويق المختلفة ونحن نرى الميزانية تحترق أمام أعيننا بلا عائد واضح. في هذه المقالة، سأشارككم يا جماعة...

8 أبريل، 2026 قراءة المزيد

تجربة المستخدم والابداع البصري

من فوضى المكونات إلى نظام التصميم المتكامل: قصتنا لإنقاذ واجهات المستخدم من جحيم التضارب

أشارككم تجربتي كـ "أبو عمر" في الانتقال من واجهات فوضوية ومكررة إلى بيئة عمل منظمة بفضل "نظام التصميم". سنغوص في رحلتنا لبناء هذا النظام من...

8 أبريل، 2026 قراءة المزيد

برمجة وقواعد بيانات

الـ ORM كان يغرق قاعدة بياناتي: كيف أنقذني التحميل المسبق (Eager Loading) من جحيم مشكلة N+1؟

في هذه المقالة، أشارككم قصة حقيقية عن كيف كادت مشكلة N+1 أن تدمر أداء أحد تطبيقاتي. سنغوص في أعماق الـ ORM، ونكتشف الفارق بين التحميل...

8 أبريل، 2026 قراءة المزيد

الشبكات والـ APIs

Webhooks vs Polling: كيف أنقذت ‘خطافات الويب’ تطبيقاتنا من جحيم الاستعلام الدوري؟

أشارككم قصة من الميدان، كيف كنا نغرق في بحر من الطلبات الزائفة مع الاستعلام الدوري (Polling)، وكيف كانت خطافات الويب (Webhooks) طوق النجاة الذي حوّل...

8 أبريل، 2026 قراءة المزيد

الحوسبة السحابية

خوادمنا كانت تستهلك الموارد بلا عمل: كيف أنقذتنا ‘الحوسبة الخادومية’ (Serverless) من جحيم التكاليف الخفية؟

أشارككم قصة حقيقية عن كيفية تراكم فواتير الخوادم الفارغة، وكيف كانت الحوسبة الخادومية (Serverless) هي طوق النجاة. سنغوص في هذا المفهوم الثوري، من هو وما...

8 أبريل، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

ملفي الشخصي كان مجرد سيرة ذاتية باهتة: كيف أنقذتني ‘المساهمات في المصدر المفتوح’ من جحيم تجاهل مسؤولي التوظيف؟

كنت أرسل سيرتي الذاتية لعشرات الشركات دون أي رد، حتى اكتشفت أن الكود المفتوح ليس مجرد أسطر برمجية، بل هو هويتك التقنية التي تتحدث عنك....

8 أبريل، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

طلباتنا كانت تضرب قاعدة البيانات بلا رحمة: كيف أنقذنا ‘التخزين المؤقت’ (Caching) من جحيم الاستجابة البطيئة؟

أشارككم قصة حقيقية من قلب المعركة البرمجية، يوم كادت قاعدة بياناتنا أن تنهار تحت وطأة الطلبات المتكررة. سنغوص في عالم التخزين المؤقت (Caching) وكيف كان...

8 أبريل، 2026 قراءة المزيد

التكنلوجيا المالية Fintech

من كوابيس التحقق اليدوي إلى الأتمتة الذكية: كيف أنقذني نظام ‘اعرف عميلك’ (KYC) من جحيم التسجيل

في هذه المقالة، أشارككم تجربتي الشخصية كـ "أبو عمر"، مطور برمجيات فلسطيني، مع عمليات التحقق من الهوية (KYC) اليدوية وكيف كانت كابوساً حقيقياً. سأشرح كيف...

8 أبريل، 2026 قراءة المزيد

ما هي “هلوسة” النماذج اللغوية؟ ولماذا تحدث؟

طوق النجاة: التوليد المعزز بالاسترجاع (RAG)

شو قصة الـ RAG؟ كيف بيشتغل؟

خلونا نوسّخ إيدينا: مثال عملي بسيط باستخدام Python

الأدوات اللي رح نحتاجها

الكود خطوة بخطوة

نصائح من أخوكم أبو عمر (من أرض المعركة)

الخلاصة: من الهلوسة إلى الثقة 😌

سجل دخولك لعمل نقاش تفاعلي

مراجعة رأيك قبل النشر

آراء من النقاشات

مقالات ذات صلة

آخر المدونات