ذكاء اصطناعي

نموذجنا اللغوي كان يهذي: كيف أنقذتنا تقنية RAG من جحيم هلوسة الذكاء الاصطناعي؟

أبو عمر 11 أبريل، 2026 2 دقائق قراءة

ليلة كادت أن تكون كارثية: قصة “المحامي الآلي” الذي فقد صوابه

أذكرها جيداً تلك الليلة، كانت الساعة قد تجاوزت الثانية صباحاً، وفنجان القهوة الثالث بجانبي لم يعد له أي تأثير. كنت أنا وفريقي الصغير نضع اللمسات الأخيرة على مشروع طموح: مساعد ذكاء اصطناعي لشركة محاماة كبيرة، مهمته الإجابة على استفسارات المحامين الجدد حول آلاف القضايا والوثائق الداخلية للشركة.

كنا نستخدم أحدث النماذج اللغوية الكبيرة (LLM)، والنتائج الأولية كانت مبهرة. النموذج كان يفهم الأسئلة المعقدة ويقدم إجابات بليغة. لكن، في مرحلة الاختبار النهائية، بدأت الكارثة تتكشف. سألناه عن تفصيل في قضية معينة من أرشيف الشركة، فإذا به يجيب بثقة مطلقة… ويستشهد بمادة قانونية غير موجودة أصلاً! ثم سألناه عن قضية أخرى، فنسب أقوالاً لمحامٍ لم يعمل في الشركة قط. الله وكيلك، النموذج كان “يهلوس” أو “يخترع” معلومات من رأسه، زي ما بحكوها “صار يفتي”.

ولّعت معنا! كيف يمكن أن نسلّم نظاماً لشركة محاماة قد يسبب كارثة قانونية بمعلومة خاطئة واحدة؟ هل كل هذا الجهد سيذهب سدى؟ هنا توقفنا وسألنا أنفسنا: “شو القصة؟ ليش النموذج بسوي هيك؟”. لم تكن المشكلة في “ذكاء” النموذج، بل في “ذاكرته”. كان يتصرف كطالب ذكي جداً قرأ كل كتب العالم، لكنه حين يُسأل عن ملاحظة محددة في دفتره الخاص، يبدأ بالتخمين بناءً على ثقافته العامة بدلاً من فتح الدفتر والبحث فيه. وهنا، أضاء في ذهني مصباح الحل: استرجاع المعلومات المعزز (Retrieval-Augmented Generation – RAG).

ما هي “الهلوسة” التي كادت أن تدمر مشروعنا؟

قبل أن نغوص في الحل، دعونا نفهم المشكلة جيداً. “الهلوسة” (Hallucination) في عالم النماذج اللغوية الكبيرة هي عندما يقوم النموذج بتوليد معلومات تبدو منطقية وصحيحة لغوياً، لكنها خاطئة تماماً أو غير موجودة في الواقع. هذا لا يحدث لأن النموذج “كاذب” عن قصد، بل بسبب طبيعته الأساسية.

تذكر دائماً: النموذج اللغوي الكبير هو في جوهره آلة متطورة جداً للتنبؤ بالكلمة التالية. لقد تدرب على كمية هائلة من نصوص الإنترنت، وتعلم الأنماط اللغوية والعلاقات بين الكلمات. عندما تسأله سؤالاً، هو لا “يبحث” عن إجابة، بل “يبني” إجابة تبدو هي الأكثر احتمالاً إحصائياً بناءً على تدريبه.

المشكلة تكمن في أن تدريبه هذا لم يشمل وثائق شركتك الخاصة، أو قاعدة بيانات منتجاتك، أو أحدث الأبحاث في مجالك. لذلك، عندما تسأله عن شيء خارج نطاق معرفته العامة، فإنه “يملأ الفراغات” بأفضل تخمين لديه، وهذا التخمين قد يكون كارثياً.

المنقذ: استرجاع المعلومات المعزز (RAG) ببساطة

تخيل أنك أعطيت ذلك الطالب الذكي (النموذج اللغوي) كتاباً مفتوحاً (بياناتك الخاصة) وقلت له: “أجب على هذا السؤال، ولكن لا تستخدم إلا المعلومات الموجودة في هذا الكتاب الذي أمامك”. هذا هو جوهر تقنية RAG.

RAG هي ليست نموذجاً جديداً، بل هي “هيكلية” أو “بنية” عمل تسمح للنموذج اللغوي بالوصول إلى قاعدة معرفية خارجية (بياناتك الخاصة) قبل أن يقوم بتوليد الإجابة. وبهذا، نحن “نعزز” قدرته على التوليد بمعلومات “نسترجعها” من مصدر موثوق.

كيف يعمل نظام RAG خطوة بخطوة؟

لنقسم العملية إلى مراحل بسيطة وواضحة:

مرحلة الفهرسة (Indexing): هذه المرحلة تحدث مرة واحدة في البداية (أو كلما تغيرت بياناتك).
- تقطيع البيانات (Chunking): نقوم بأخذ مستنداتك (ملفات PDF، صفحات ويب، نصوص…) وتقطيعها إلى أجزاء صغيرة (Chunks).
- التحويل إلى متجهات (Embedding): كل جزء صغير من النص يتم تحويله إلى تمثيل رقمي يسمى “متجه” (Vector) باستخدام نموذج خاص (Embedding Model). هذا المتجه هو بمثابة “بصمة” عددية لمعنى هذا النص.
- التخزين في قاعدة بيانات متجهة (Vector Database): يتم تخزين كل هذه المتجهات مع النصوص الأصلية المقابلة لها في قاعدة بيانات متخصصة في البحث عن المتجهات المتشابهة بسرعة، مثل Pinecone, ChromaDB, أو FAISS.
مرحلة الاسترجاع والتوليد (Retrieval & Generation): هذه المرحلة تحدث مع كل سؤال يطرحه المستخدم.
- استعلام المستخدم: يسأل المستخدم سؤالاً، مثلاً: “ما هي شروط إنهاء العقد في قضية العميل س؟”.
- تحويل الاستعلام: يتم تحويل سؤال المستخدم أيضاً إلى “متجه” باستخدام نفس نموذج الـ Embedding.
- البحث عن التشابه (Similarity Search): يقوم النظام بالبحث في قاعدة البيانات المتجهة عن أجزاء النصوص (Chunks) التي تملك متجهات هي الأكثر شبهاً وقرباً من متجه سؤال المستخدم. هذا يعني أنه يبحث عن النصوص الأكثر صلة بالمعنى.
- تعزيز موجه الأوامر (Prompt Augmentation): الآن، بدلاً من إرسال السؤال للنموذج اللغوي مباشرة، نقوم ببناء “موجه أوامر” (Prompt) جديد ومحسن. يكون شكله كالتالي:
  
  "بناءً على السياق التالي فقط، أجب على سؤال المستخدم. إذا كانت الإجابة غير موجودة في السياق، قل بوضوح أنك لا تعرف. السياق: [هنا نضع أجزاء النصوص ذات الصلة التي استرجعناها من قاعدة البيانات]
  سؤال المستخدم: [هنا نضع سؤال المستخدم الأصلي]"
- التوليد (Generation): أخيراً، يستقبل النموذج اللغوي هذا الموجه المعزز ويقوم بتوليد إجابة دقيقة ومبنية على المعلومات الموثوقة التي قدمناها له في السياق.

بهذه الطريقة، حولنا النموذج من “مخترع” إلى “باحث” دقيق. لم نعد نعتمد على ذاكرته العامة، بل على قدرته الفائقة على فهم اللغة لتلخيص وتقديم المعلومات التي نزوده بها نحن.

خلونا نوسّخ إيدينا: مثال عملي بسيط باستخدام Python

الكلام النظري جميل، لكن دعونا نرى كيف يبدو هذا بشكل عملي. سنستخدم مكتبة langchain الشهيرة لتسهيل العملية.

h3>أولاً: التجهيزات والمكتبات

ستحتاج لتثبيت بعض المكتبات. افتح الطرفية (Terminal) واكتب:

pip install langchain openai chromadb tiktoken

ثانياً: الكود خطوة بخطوة

لنفترض أن لدينا ملف نصي بسيط اسمه my_data.txt يحتوي على معلوماتنا الموثوقة.


# 1. استيراد المكتبات اللازمة
import os
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.chat_models import ChatOpenAI

# تأكد من وضع مفتاح OpenAI الخاص بك هنا
os.environ["OPENAI_API_KEY"] = "sk-..."

# 2. تحميل وتقطيع البيانات
# لنفترض أن لدينا ملف my_data.txt يحتوي على:
# "سياسة الإجازات في شركتنا تمنح الموظفين 21 يوماً إجازة سنوية.
# يجب تقديم طلب الإجازة قبل أسبوعين على الأقل.
# الإجازات المرضية تتطلب تقريراً طبياً."

loader = TextLoader('my_data.txt')
documents = loader.load()

# تقطيع النص إلى أجزاء أصغر
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = text_splitter.split_documents(documents)

# 3. إنشاء الـ Embeddings وتخزينها في قاعدة بيانات متجهة (ChromaDB)
# سيتم إنشاء قاعدة البيانات في مجلد على جهازك
persist_directory = 'db'
embedding = OpenAIEmbeddings()

vectordb = Chroma.from_documents(documents=texts, 
                                 embedding=embedding,
                                 persist_directory=persist_directory)
vectordb.persist()
vectordb = None # نفرغ الذاكرة

# الآن أصبحت بياناتنا مفهرسة وجاهزة

# 4. بناء سلسلة RAG للاستعلام
vectordb = Chroma(persist_directory=persist_directory, 
                  embedding_function=embedding)
retriever = vectordb.as_retriever()

# هنا ننشئ السلسلة التي تربط كل شيء ببعضه
qa_chain = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-3.5-turbo"), 
                                  chain_type="stuff", 
                                  retriever=retriever)

# 5. طرح الأسئلة ورؤية النتائج!
query = "كم عدد أيام الإجازة السنوية للموظفين؟"
response = qa_chain.run(query)
print(f"السؤال: {query}")
print(f"الإجابة: {response}")

query_tricky = "ما هي سياسة الشركة بخصوص سيارات الموظفين؟"
response_tricky = qa_chain.run(query_tricky)
print(f"nالسؤال: {query_tricky}")
print(f"الإجابة: {response_tricky}")

عند تشغيل هذا الكود، ستلاحظ أن الإجابة على السؤال الأول ستكون دقيقة جداً (“21 يوماً”) لأنها مستخرجة من النص. أما الإجابة على السؤال الثاني، فمن المرجح أن تكون شيئاً مثل “أنا لا أعرف” أو “المعلومات المقدمة لا تحتوي على تفاصيل حول سياسة سيارات الموظفين”، وهذا بالضبط ما نريده! لا هلوسة، لا اختراع، فقط إجابات مبنية على الحقيقة.

نصائح أبو عمر من قلب الميدان

بعد تطبيق RAG في مشاريع عديدة، تعلمت بعض الدروس التي لا تجدها دائماً في التوثيق الرسمي. إليك بعضها:

جودة التقطيع (Chunking) هي مفتاح النجاح: لا تقطع النصوص بشكل عشوائي. فكر في بنية مستنداتك. هل من الأفضل التقطيع عند كل فقرة؟ عند كل عنوان؟ التقطيع الجيد يحافظ على السياق ويؤدي لنتائج أفضل.
لا تهمل البيانات الوصفية (Metadata): عند تخزين المتجهات، أرفق معها بيانات وصفية مثل اسم الملف الأصلي، رقم الصفحة، أو تاريخ الإنشاء. هذا يسمح لك لاحقاً بعرض المصادر للمستخدم (“الإجابة مأخوذة من مستند X، صفحة 5”)، مما يزيد من ثقة المستخدم بشكل هائل.
الاسترجاع ليس كل شيء، الترتيب مهم (Re-ranking): أحياناً، أفضل 5 نتائج من قاعدة البيانات المتجهة قد لا تكون هي الأفضل فعلاً. يمكنك إضافة خطوة “إعادة ترتيب” (Re-ranking) باستخدام نموذج أصغر وأسرع لترتيب هذه النتائج الخمس قبل إرسالها للنموذج اللغوي الكبير.
هندسة الأوامر (Prompt Engineering) لا تزال ملكة: الطريقة التي تصيغ بها الموجه النهائي للنموذج اللغوي تؤثر بشكل كبير على جودة الإجابة. جرب صيغاً مختلفة مثل “أنت خبير في… استخدم السياق التالي للإجابة…” حتى تصل لأفضل نتيجة.

الخلاصة… من الآخر

هل النماذج اللغوية الكبيرة سيئة لأنها تهلوس؟ بالطبع لا. هي أداة جبارة، لكن كأي أداة، يجب أن نعرف كيف نستخدمها بشكل صحيح. الهلوسة ليست عيباً قاتلاً، بل هي خاصية طبيعية لهذه النماذج عندما تخرج عن نطاق معرفتها.

تقنية RAG لا تستبدل النموذج اللغوي، بل تكمله. هي الجسر الذي يربط بين القدرة اللغوية الهائلة للنموذج، وبين عالم بياناتك الخاصة والموثوقة. هي التي تحول النموذج من “فيلسوف مبدع” إلى “مساعد خبير ودقيق”.

نصيحتي لك: في المرة القادمة التي تبني فيها تطبيقاً يعتمد على الذكاء الاصطناعي ويحتاج إلى دقة وموثوقية، لا تخف من هلوسة النموذج. بدلاً من ذلك، جهّز بياناتك، ابنِ نظام RAG متيناً، وشاهد كيف يتحول تطبيقك إلى مصدر للمعرفة يمكن الوثوق به. شغل مرتب ومضمون! 😉

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

هل دردشتك مع الذكاء الاصطناعي تُسرب أسرار الإنترنت؟ تحقيق في تسريبات بيانات التدريب

بصفتي أبو عمر، مبرمج فلسطيني خبير في الذكاء الاصطناعي، أشارككم قصة حقيقية كشفت لي كيف يمكن لنماذج الذكاء الاصطناعي أن "تتذكر" وتسرب بيانات حساسة من...

6 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

نماذجنا كانت تموت في صمت: كيف أنقذنا ‘رصد الانحراف’ من جحيم الأداء المتدهور؟

أتذكر جيداً ذلك اليوم الذي تحولت فيه احتفالاتنا بنجاح نموذج التوصيات إلى جلسة طارئة للبحث عن "شبح" غامض كان يقتل أداءه. في هذه المقالة، أشارككم...

9 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

كان بحثنا لا يفهم المعنى: كيف أنقذتنا ‘قواعد بيانات المتجهات’ من جحيم البحث الحرفي؟

أشارككم قصة حقيقية عن معاناة فريقنا مع أنظمة البحث التقليدية التي لا تفهم سوى الكلمات الحرفية، وكيف كانت قواعد بيانات المتجهات (Vector Databases) هي طوق...

18 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

بحثنا كان يطابق الكلمات لا المعاني: كيف أنقذتنا ‘قواعد بيانات المتجهات’ من جحيم النتائج غير ذات الصلة؟

أشارككم قصة من واقع العمل، حين كاد نظام بحث فاشل أن يدمر مشروعًا بأكمله. سنغوص في عالم قواعد بيانات المتجهات (Vector Databases) ونكتشف كيف حولت...

12 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

كانت إجابات نموذجنا من وحي الخيال: كيف أنقذنا البحث المعزز بالتوليد (RAG) من جحيم الهلوسة؟

أشارككم قصة حقيقية عن "هلوسة" نماذج الذكاء الاصطناعي وكيف تسببت في موقف محرج مع أحد العملاء. سنغوص في أعماق تقنية البحث المعزز بالتوليد (RAG)، ونشرحها...

18 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

روبوت الدردشة لدينا كان كاذبًا محترفًا: كيف أنقذتنا قواعد البيانات المتجهية و RAG من جحيم الهلوسة؟

أشارككم قصة حقيقية عن روبوت دردشة كاد أن يدمر سمعة أحد عملائنا بسبب "هلوساته" وكذبه المستمر. سأشرح لكم بالتفصيل كيف تمكنا من ترويضه وتحويله إلى...

19 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

من ‘شغالة على جهازي’ إلى الإنتاج: كيف أنقذ MLOps نماذجنا من الموت الصامت؟

أشارككم قصة حقيقية من قلب المعركة، حين كانت نماذجنا الذكية تموت ببطء في بيئة الإنتاج دون أن ندري. هذه المقالة هي دليلك العملي لفهم MLOps،...

30 أبريل، 2026 قراءة المزيد

ذكاء اصطناعي

كانت نماذجنا تلتهم موارد السيرفر: كيف أنقذنا ‘تكميم النماذج’ (Model Quantization) من جحيم فواتير الحوسبة؟

أشارككم قصة حقيقية من قلب المعركة مع فواتير الحوسبة السحابية، وكيف كانت تقنية "تكميم النماذج" (Model Quantization) هي طوق النجاة الذي أنقذنا. سنتعلم معاً كيف...

23 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

كان نموذجنا غبياً: كيف أنقذنا الضبط الدقيق (Fine-Tuning) من جحيم الإجابات السطحية؟

أشارككم قصة حقيقية من أرض المعركة البرمجية، كيف حولنا نموذجاً لغوياً عاماً من مصدر للإحباط إلى مساعد خبير يفهم أدق تفاصيل عملنا. هذه المقالة هي...

17 مايو، 2026 قراءة المزيد

آخر المدونات

تجربة المستخدم والابداع البصري

كانت تصاميمنا تتحطم عند التسليم: كيف أنقذتنا ‘رموز التصميم’ (Design Tokens) من جحيم الهوة بين المصمم والمطور؟

أشارككم قصة حقيقية عن الفوضى التي كانت تعم مشاريعنا بسبب الفجوة بين التصميم والتنفيذ. اكتشفوا كيف كانت "رموز التصميم" (Design Tokens) هي الجسر الذي أنقذنا،...

31 مايو، 2026 قراءة المزيد

برمجة وقواعد بيانات

كان تحديث قاعدة البيانات يوقف خدماتنا: كيف أنقذتنا استراتيجيات الترحيل بدون توقف (Zero-Downtime Migration) من جحيم نافذة الصيانة؟

أشارككم قصة ليلة طويلة تعلمت فيها بالطريقة الصعبة أن "نافذة الصيانة" هي عدو للمستخدمين والشركات. نستكشف معاً استراتيجيات الترحيل بدون توقف (Zero-Downtime Migration) التي تحافظ...

31 مايو، 2026 قراءة المزيد

الشبكات والـ APIs

وداعاً للانتظار القاتل: كيف حررتنا الـ Webhooks من سجن الاستعلام المستمر (Polling)؟

أشارككم قصة من قلب المعركة البرمجية، يوم كادت طلباتنا أن تنتظر للأبد بسبب الاستعلام المستمر (Polling). اكتشفوا معنا كيف أنقذنا نمط Webhooks، وحوّل نظامنا من...

31 مايو، 2026 قراءة المزيد

الحوسبة السحابية

كانت فاتورة السحابة تلتهم أرباحنا: كيف أنقذتنا ممارسات FinOps من جحيم الإنفاق؟

في هذه المقالة، أشارككم قصة حقيقية عن كيف كادت فواتير الحوسبة السحابية أن تدمر مشروعنا الناشئ، وكيف كانت ممارسات FinOps هي طوق النجاة الذي أعادنا...

31 مايو، 2026 قراءة المزيد

التوظيف وبناء الهوية التقنية

كان حسابي على GitHub مقبرة للمشاريع الميتة: كيف أنقذتني ‘المساهمات المفتوحة المصدر’ من جحيم السيرة الذاتية الفارغة؟

أشارككم تجربتي الشخصية كأبو عمر، من مطور بحساب GitHub أشبه بمقبرة للمشاريع غير المكتملة، إلى بناء هوية تقنية قوية من خلال المساهمة في المصادر المفتوحة....

31 مايو، 2026 قراءة المزيد

التوسع والأداء العالي والأحمال

كان فشل خدمة واحدة يُسقط نظامنا بأكمله: كيف أنقذنا نمط ‘قاطع الدائرة’ من جحيم الفشل المتتالي؟

أتذكر ليلة كادت فيها خدمة واحدة أن تدمر مشروعنا بالكامل بسبب الفشل المتتالي. في هذه المقالة، أشارككم قصة كيف أنقذنا نمط 'قاطع الدائرة' (Circuit Breaker)،...

31 مايو، 2026 قراءة المزيد

التكنلوجيا المالية Fintech

كانت أرصدتنا تتبخر في الهواء: كيف أنقذنا ‘دفتر الأستاذ المزدوج’ من جحيم التسويات اليدوية؟

قصة حقيقية من قلب معركة برمجية في شركة تكنولوجيا مالية ناشئة. أشارككم يا جماعة كيف انتقلنا من فوضى الأرصدة المختفية والتسويات اليدوية المُرهقة، إلى نظام...

31 مايو، 2026 قراءة المزيد

البنية التحتية وإدارة السيرفرات

كانت أسرارنا تتسرب من كل مكان: كيف أنقذتنا ‘إدارة الأسرار المركزية’ من كابوس المفاتيح المسروقة؟

أشارككم قصة حقيقية عن كابوس أمني كاد أن يدمر مشروعنا، وكيف كانت "إدارة الأسرار المركزية" طوق النجاة. اكتشفوا معنا كيف تحمون مفاتيحكم الرقمية وتنتقلون من...

31 مايو، 2026 قراءة المزيد

ادارة الفرق والتنمية البشرية

كان الخوف من الفشل يشلّ فريقنا: كيف أنقذتنا ‘السلامة النفسية’ من جحيم الأفكار التي لم تولد قط؟

أنا أبو عمر، مبرمج فلسطيني، وأروي لكم كيف حوّلنا فريقاً مشلولاً بالخوف من الفشل إلى بيئة إبداعية مزدهرة. هذه ليست مجرد قصة، بل دليل عملي...

31 مايو، 2026 قراءة المزيد

ليلة كادت أن تكون كارثية: قصة “المحامي الآلي” الذي فقد صوابه

ما هي “الهلوسة” التي كادت أن تدمر مشروعنا؟

المنقذ: استرجاع المعلومات المعزز (RAG) ببساطة

كيف يعمل نظام RAG خطوة بخطوة؟

خلونا نوسّخ إيدينا: مثال عملي بسيط باستخدام Python

h3>أولاً: التجهيزات والمكتبات

ثانياً: الكود خطوة بخطوة

نصائح أبو عمر من قلب الميدان

الخلاصة… من الآخر

سجل دخولك لعمل نقاش تفاعلي

مراجعة رأيك قبل النشر

آراء من النقاشات

مقالات ذات صلة

آخر المدونات