ذكاء اصطناعي

روبوت الدردشة لدينا كان كاذبًا محترفًا: كيف أنقذتنا قواعد البيانات المتجهية و RAG من جحيم الهلوسة؟

أبو عمر 19 أبريل، 2026 1 دقائق قراءة

يا جماعة الخير، السلام عليكم ورحمة الله. معكم أخوكم أبو عمر.

خلوني أحكيلكم قصة صارت معي قبل فترة مش بعيدة، قصة رفعتلي ضغطي للسما وكادت تسبب لنا أزمة مع عميل مهم. كنا بنبني نظام خدمة عملاء ذكي لشركة تجارة إلكترونية كبيرة، والقلب النابض للنظام كان روبوت دردشة (Chatbot) مبني على واحد من نماذج اللغة الكبيرة (LLMs) المعروفة.

في البداية، الأمور كانت “عال العال”. الروبوت كان بجاوب على أسئلة الزبائن بسرعة وبلباقة، والعميل كان مبسوط. لكن بعد كم أسبوع، بلشت توصلنا شكاوى غريبة. زبون بحكي إنه الروبوت وعده بشحن مجاني لدولة ما بنشحن إلها أصلاً، وآخر بحكي إنه الروبوت أعطاه كود خصم من وحي الخيال، والثالثة كانت القشة اللي قصمت ظهر البعير: الروبوت أكّد لزبونة إنه بتقدر ترجع فستان سهرة بعد ما لبسته في حفلة، مع إنه سياسة الإرجاع واضحة وصريحة “ممنوع إرجاع القطع المستخدمة”.

يومها رن علي مدير الشركة معصّب، وبصوت عالي حكالي: “شو هالحكي يا أبو عمر؟ الروبوت اللي عندكم نصّاب محترف! قاعد بخترع سياسات على كيفه وبخرب بيتنا!”. الحق معه، الموقف كان لا يُحسد عليه. الروبوت تبعنا تحول من مساعد ذكي إلى “كذاب” محترف، أو بلغة أهل الاختصاص، كان بعاني من “هلوسة معرفية” (Cognitive Hallucination) حادة.

هون كانت لحظة الحقيقة. الحلول التقليدية مثل إعادة تدريب النموذج (Fine-tuning) كانت مكلفة وبطيئة، وما بتضمن حل المشكلة جذرياً. كان لازم نلاقي حل أذكى، حل يخلي الروبوت يلتزم بالنص الحرفي لمعلومات الشركة بدون ما “يألف” من عنده. ومن هنا بدأت رحلتنا مع ما يسمى بـ “الجيل المعزز بالاسترجاع” (Retrieval-Augmented Generation) أو اختصاراً RAG. خلوني أشرحلكم الحكاية من الألف إلى الياء.

لماذا “تهلوس” النماذج اللغوية الكبيرة؟

قبل ما نحكي عن الحل، لازم نفهم أصل المشكلة. ليش أصلاً النماذج اللغوية مثل GPT وغيرها “تكذب” أو “تهلوس”؟

ببساطة، هاي النماذج مش موسوعات علمية دقيقة، هي بالأحرى محركات لتوليد النصوص بناءً على الاحتمالات. تخيلها مثل طالب ذكي جداً قرأ كل كتب الإنترنت، بس ما معه الكتاب المخصص لامتحان بكرة. لما تسأله سؤال من المنهج، هو ما بروح يفتح الكتاب ويقرألك الجواب، هو بحاول “يتذكر” بناءً على كل اللي قرأه، وبحاول يركب جملة تكون “الأكثر احتمالاً” إنها تكون الجواب الصحيح. أحياناً بصيب، وأحياناً “بخبّص” الدنيا وبألف جواب من عنده ليبدو مقنعاً.

المشكلة الأساسية هي أن هذه النماذج منفصلة عن مصدر معلوماتك الخاص والحقيقي. هي لا تعرف سياسة الإرجاع في شركتك، ولا قائمة منتجاتك المحدثة، ولا العروض الحصرية التي أطلقتها اليوم. وعندما تُسأل عن شيء لا تعرفه، فإنها بدلًا من أن تقول “لا أعرف”، تحاول أن تملأ الفراغ بأكثر التخمينات إقناعًا، وهنا تقع الكارثة.

الحل السحري؟ لا، بل هندسة ذكية: لنتحدث عن “قواعد البيانات المتجهية”

طيب، كيف ممكن نجبر النموذج اللغوي إنه يقرأ من “كتابنا” المخصص قبل ما يجاوب؟ هنا يأتي دور قواعد البيانات المتجهية (Vector Databases).

ما هي “المتجهات” (Vectors) في عالم الذكاء الاصطناعي؟

انسوا كل المصطلحات المعقدة. فكر في “المتجه” أو (Embedding) على أنه بصمة رقمية للمعنى. باستخدام نماذج متخصصة، يمكننا تحويل أي نص (كلمة، جملة، فقرة) إلى سلسلة من الأرقام، مثل [0.12, -0.45, 0.88, …].

الجميل في هذه “البصمات الرقمية” أنها تحافظ على العلاقات الدلالية. يعني، جملة “ما هي سياسة إرجاع المنتجات؟” وجملة “كيف يمكنني استرداد أموالي لطلب شراء؟” رح يكونوا قريبين جداً من بعض في الفضاء الرقمي، بينما جملة “ما هو لون السماء؟” رح تكون بعيدة كل البعد. كأننا نرسم خريطة للمعاني.

وكيف تعمل قواعد البيانات المتجهية؟

قاعدة البيانات التقليدية (مثل SQL) تبحث عن تطابق كامل أو جزئي للكلمات. لو بحثت عن “سياسة الإرجاع” ستجد لك المستندات التي تحتوي على هذه الكلمة بالضبط.

أما قاعدة البيانات المتجهية، فهي أذكى من هيك. أنت تعطيها متجه (بصمة) سؤال المستخدم، وهي تبحث عن “أقرب” المتجهات لها في قاعدة البيانات، أي أنها تبحث عن المعنى المشابه وليس فقط الكلمات المتطابقة. هذا يسمح لها بإيجاد الفقرة الصحيحة من وثيقة سياسة الإرجاع حتى لو استخدم المستخدم كلمات مختلفة تماماً.

الطبق الرئيسي: RAG (Retrieval-Augmented Generation) – ربط الذاكرة بالذكاء

الآن بعد أن جهزنا “الذاكرة” الخارجية (قاعدة البيانات المتجهية)، حان الوقت لربطها بـ “دماغ” النموذج اللغوي. هذه العملية هي ما نسميه RAG، وهي تتم على خطوتين بسيطتين:

الخطوة الأولى: الاسترجاع (Retrieval) – “هات من الآخر يا عمي”

سؤال المستخدم: المستخدم يسأل الشات بوت: “هل يمكنني إرجاع منتج عليه خصم؟”.
التحويل إلى متجه: نقوم بتحويل سؤال المستخدم إلى متجه (بصمة رقمية).
البحث في الذاكرة: نستخدم هذا المتجه للبحث في قاعدة البيانات المتجهية الخاصة بنا (التي تحتوي على كل وثائق الشركة: سياسات، كتالوجات منتجات، مقالات دعم فني، إلخ).
الحصول على السياق: قاعدة البيانات تعيد لنا أفضل 3-5 فقرات الأكثر صلة بمعنى السؤال. مثلاً، قد تعيد لنا فقرة تقول: “المنتجات المخفضة التي تم شراؤها خلال فترة التنزيلات النهائية غير قابلة للإرجاع أو الاستبدال”.

الخطوة الثانية: التوليد المعزز (Augmented Generation) – “هيك الحكي الصح”

هنا تكمن العبقرية. بدلًا من أن نرسل سؤال المستخدم الأصلي إلى النموذج اللغوي مباشرة، نقوم ببناء “طلب” (Prompt) جديد ومحسن:

الطلب الجديد (Prompt) إلى النموذج اللغوي:
“أنت مساعد خدمة عملاء. أجب على سؤال المستخدم التالي بالاعتماد حصرًا على المعلومات الموجودة في السياق أدناه. إذا كانت الإجابة غير موجودة في السياق، قل بوضوح ‘ليس لدي معلومات كافية للإجابة’. لا تخترع أي معلومات من عندك.”

السياق المسترجع:
“[…المنتجات المخفضة التي تم شراؤها خلال فترة التنزيلات النهائية غير قابلة للإرجاع أو الاستبدال…]”

سؤال المستخدم:
“هل يمكنني إرجاع منتج عليه خصم؟”

بهذه الطريقة، نحن نجبر النموذج اللغوي على التحول من “مؤلف مبدع” إلى “قارئ دقيق”. هو الآن لديه “الكتاب المفتوح” أمامه، ومهمته الوحيدة هي استخلاص الإجابة من النص الذي أعطيناه إياه. والنتيجة؟ إجابة دقيقة، موثوقة، ومبنية على مصدر الحقيقة الخاص بشركتك.

يلا نشتغل: مثال عملي بسيط باستخدام Python

الكلام النظري جميل، لكن خلينا نشوف كيف ممكن نطبق هذا بشكل عملي. سنستخدم مكتبة langchain الشهيرة مع قاعدة بيانات متجهية محلية بسيطة (FAISS) ونموذج تحويل (Embedding model) مجاني.


# أولاً، قم بتثبيت المكتبات اللازمة
# pip install langchain langchain-community langchain-openai faiss-cpu sentence-transformers

import os
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain_openai import OpenAI

# إعداد مفتاح OpenAI API (يمكن استبداله بنماذج مفتوحة المصدر)
# os.environ["OPENAI_API_KEY"] = "sk-..."

# 1. تجهيز مصدر المعلومات (المعرفة الخاصة بنا)
# في الواقع، هذا سيكون ملف PDF أو موقع ويب، لكن هنا سنستخدم نص بسيط
knowledge_base_text = """
سياسة الإرجاع في شركة "متجرنا"
- يمكن إرجاع المنتجات خلال 14 يوماً من تاريخ الشراء.
- يجب أن يكون المنتج في حالته الأصلية وغير مستخدم.
- المنتجات التي عليها خصم 50% أو أكثر تعتبر بيع نهائي ولا يمكن إرجاعها.
- لإتمام عملية الإرجاع، يرجى التواصل مع خدمة العملاء مع فاتورة الشراء.
"""

# 2. تقسيم النص إلى أجزاء (Chunks)
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
texts = text_splitter.split_text(knowledge_base_text)

# 3. إنشاء "المتجهات" وتخزينها في قاعدة بيانات متجهية
# سنستخدم نموذج تحويل مجاني ومشهور
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# FAISS هي قاعدة بيانات متجهية بسيطة تعمل في الذاكرة
vectorstore = FAISS.from_texts(texts, embeddings)
print("تم إنشاء قاعدة البيانات المتجهية بنجاح!")

# 4. إعداد سلسلة RAG
# نحدد "المسترجع" (Retriever) الذي سيبحث في قاعدة البيانات المتجهية
retriever = vectorstore.as_retriever()
# نحدد النموذج اللغوي الذي سيقوم بتوليد الإجابة النهائية
llm = OpenAI()

# نجمع كل شيء في سلسلة RetrievalQA
rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # "stuff" تعني وضع كل النصوص المسترجعة في الـ prompt
    retriever=retriever
)

# 5. طرح الأسئلة!
question1 = "كم يوم معي عشان أرجع منتج؟"
answer1 = rag_chain.invoke(question1)
print(f"س: {question1}")
print(f"ج: {answer1['result']}")

question2 = "اشتريت بلوزة عليها خصم 60%، بقدر أرجعها؟"
answer2 = rag_chain.invoke(question2)
print(f"س: {question2}")
print(f"ج: {answer2['result']}")

نصائح من قلب الميدان (من أبو عمر إلكم)

تقسيم البيانات (Chunking) فن مش عن عن: طريقة تقسيمك لوثائقك إلى “قطع” صغيرة (Chunks) تؤثر بشكل مباشر على جودة البحث. لا تقسم في منتصف الجملة. جرب التقسيم بناءً على الفقرات أو العناوين. حجم القطعة مهم جداً، لا صغير جداً فيضيع المعنى، ولا كبير جداً فيحتوي على معلومات غير ضرورية.
اختر نموذج التحويل (Embedding Model) الصح: النماذج تختلف. هناك نماذج أفضل للغة العربية، ونماذج أفضل للمصطلحات التقنية. جرب نماذج مختلفة وشوف أيها يعطي أفضل نتائج لاسترجاع المعلومات في مجالك.
الهندسة الفورية (Prompt Engineering) هي بهارات الطبخة: الـ “Prompt” الذي أريتكم إياه في المثال هو أساسي. كن واضحاً جداً في تعليماتك للنموذج اللغوي. أمره بأن يلتزم بالسياق، وأن يعتذر إذا لم يجد الإجابة. هذا يقلل من الهلوسة بنسبة 99%.
لا تنسى الحلول الهجينة: أحياناً، أفضل حل هو البحث التقليدي بالكلمات المفتاحية (Keyword search) مع البحث بالمتجهات (Vector search). هذا يضمن أنك لن تفوت أي مستند يحتوي على الكلمة المفتاحية الدقيقة التي يبحث عنها المستخدم.

الخلاصة: من كاذب محترف إلى مساعد موثوق 🤝

في النهاية، قصة روبوت الدردشة “النصّاب” تبعنا كان لها نهاية سعيدة. بعد تطبيقنا لبنية RAG، تحول الشات بوت من مصدر قلق وإحراج إلى أداة فعالة وموثوقة جداً. صار يجيب على أسئلة العملاء بدقة متناهية، وعندما يُسأل عن شيء خارج نطاق معرفته (الوثائق التي زودناه بها)، كان يرد بكل أدب واحترافية: “أعتذر، ليس لدي معلومات كافية حول هذا الموضوع. هل يمكنني مساعدتك في شيء آخر؟”.

الدرس المستفاد يا جماعة الخير، هو أن النماذج اللغوية الكبيرة أدوات جبارة، لكنها مثل السكين الحاد، تحتاج إلى يد ماهرة تعرف كيف تستخدمها بأمان وفعالية. تقنية RAG وقواعد البيانات المتجهية هي تلك “اليد الماهرة” التي تمسك بالسكين وتوجهه ليقطع في المكان الصحيح فقط.

فلا تخافوا من هلوسة النماذج، بل تعلموا كيف تضعون لها القواعد والحدود. ما في إشي صعب على اللي بحاول. يلا يا شباب، ورجونا إبداعاتكم!

الوسوم:

شارك المقال:

سجل دخولك لعمل نقاش تفاعلي

كافة المحادثات خاصة ولا يتم عرضها على الموقع نهائياً

آراء من النقاشات

لا توجد آراء منشورة بعد. كن أول من يشارك رأيه!

ذكاء اصطناعي

من الصندوق الأسود إلى القرار الواعي: رحلتي مع الذكاء الاصطناعي القابل للتفسير (XAI)

كانت نماذجنا صناديق سوداء غامضة، تتخذ قرارات مصيرية دون أن نفهم "لماذا". في هذه المقالة، أسرد لكم قصة من تجربتي وكيف أنقذنا الذكاء الاصطناعي القابل...

19 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

كانت نماذجنا تتصرف بغرابة: كيف أنقذنا “رصد انحراف المفاهيم” (Concept Drift) من جحيم التنبؤات الفاشلة؟

في أحد المشاريع، بدأت نماذج الذكاء الاصطناعي لدينا تتصرف بجنون في بيئة الإنتاج بعد أن كانت تعمل بكفاءة. هذه قصتي، قصة أبو عمر، حول كيف...

6 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

١٢ ألف مفتاح سري في نماذج الذكاء الاصطناعي: كيف تحول التدريب إلى كارثة أمنية؟

هل تعلم أن نماذج الذكاء الاصطناعي التي نستخدمها يوميًا قد تحتوي على آلاف المفاتيح السرية وكلمات المرور؟ نستعرض قصة حقيقية لكارثة أمنية كشفها باحثون، ونقدم...

6 فبراير، 2026 قراءة المزيد

مفارقة الخصوصية في عصر الذكاء الاصطناعي: المراقبة والصندوق الأسود للبيانات

بودكاست

ذكاء اصطناعي

مفارقة الخصوصية في عصر الذكاء الاصطناعي: المراقبة والصندوق الأسود للبيانات

الغوص في أعماق مفارقة الخصوصية في عصر الذكاء الاصطناعي، حيث تتصادم الرغبة في التكنولوجيا المتقدمة مع المخاوف المتزايدة بشأن المراقبة واستغلال البيانات. اكتشف كيف يمكننا...

31 ديسمبر، 2025 قراءة المزيد

ذكاء اصطناعي

حين تأمرك المحكمة بتدمير نموذجك: الذكاء الاصطناعي والبيانات غير القانونية

مقالة من أبو عمر، مطور فلسطيني، تسرد قصة واقعية عن بناء منتج على بيانات مسروقة، وتتعمق في قضايا إجبار الشركات على تدمير نماذج الذكاء الاصطناعي...

10 فبراير، 2026 قراءة المزيد

ذكاء اصطناعي

النموذج اللغوي كان يجهل وثائقنا: كيف أنقذنا ‘التوليد المعزز بالاسترجاع’ (RAG) من جحيم الهلوسة؟

أشارككم قصة واقعية من عالم البرمجة، حيث واجهنا مشكلة "هلوسة" النماذج اللغوية الكبيرة عند محاولة استخدامها مع بياناتنا الداخلية. اكتشفوا كيف كانت تقنية التوليد المعزز...

7 أبريل، 2026 قراءة المزيد

بودكاست

ذكاء اصطناعي

ميثاق السيادة الرقمية: عندما يصبح الذكاء الاصطناعي قبطان السفينة (وكيف نحافظ على دفة القيادة)

في عالم يتسارع فيه تطور الذكاء الاصطناعي، نناقش ميثاق السيادة الرقمية وأخلاقيات الوكلاء الأذكياء. هل نحن على وشك فقدان السيطرة، وكيف نحول الأخلاقيات من مجرد...

11 يناير، 2026 قراءة المزيد

ذكاء اصطناعي

كانت نماذجنا صناديق سوداء غامضة: كيف أنقذنا الذكاء الاصطناعي القابل للتفسير (XAI) من جحيم القرارات غير المبررة؟

من قلب تجربة مريرة مع نموذج ذكاء اصطناعي "عنصري" بشكل غير مقصود، يأخذكم أبو عمر في رحلة لكشف أسرار الصناديق السوداء. اكتشف كيف تمكنّا باستخدام...

3 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

هلوسة الذكاء الاصطناعي: كيف أنقذنا نمط RAG من جحيم الحقائق الملفقة؟

أشارككم قصة حقيقية من أرض الميدان، حين بدأ نموذجنا اللغوي يختلق إجابات من الخيال وكاد أن يدمر مشروعنا. اكتشفوا معنا كيف كان نمط "التوليد المعزز...

3 مايو، 2026 قراءة المزيد

آخر المدونات

ادارة الفرق والتنمية البشرية

مصفوفة الكفاءات: كيف أنقذت فريقي من جحيم “إلى أين أنا ذاهب؟”

عندما بدأ أفضل المبرمجين في فريقي يشعرون بالضياع، أدركت أننا في ورطة. هذه قصتي مع "مصفوفة الكفاءات"، الأداة التي حولت الارتباك إلى وضوح، والإحباط إلى...

25 مايو، 2026 قراءة المزيد

اختبارات الاداء والجودة

كانت تغطية اختباراتنا 100% ثقة زائفة: كيف أنقذنا ‘الاختبار الطفري’ (Mutation Testing) من جحيم ‘الاختبارات التي لا تكتشف شيئًا’؟

أشارككم قصة حقيقية من الميدان، حين كنا نظن أن تغطية اختباراتنا بنسبة 100% هي درعنا الحصين، لنكتشف أنها كانت وهمًا كبيرًا. هذه المقالة تشرح كيف...

25 مايو، 2026 قراءة المزيد

أدوات وانتاجية

كانت كل بيئة تطوير جزيرة منعزلة: كيف أنقذنا Docker Compose من جحيم ‘لكنها تعمل على جهازي’؟

أشارككم قصة من قلب المعركة البرمجية، كيف انتقلنا من فوضى البيئات المحلية المختلفة وجملة "لكنها تعمل على جهازي!" إلى عالم منظم ومتسق بفضل Docker Compose....

25 مايو، 2026 قراءة المزيد

أتمتة العمليات

CI/CD: كيف انتقلنا من “إن شاء الله يشتغل” إلى النشر الآلي الموثوق؟

أتشارك معكم قصة حقيقية من قلب المعركة البرمجية، كيف حولنا عمليات النشر الفوضوية والمليئة بالدعاء إلى خط أنابيب CI/CD مؤتمت وموثوق. هذه رحلتنا العملية، مع...

25 مايو، 2026 قراءة المزيد

نصائح برمجية

كانت أرقامي السحرية طلاسم لا تُقرأ: كيف أنقذتنا ‘الثوابت المسماة’ من جحيم ‘ماذا يعني هذا الرقم؟’

في عالم البرمجة، الأرقام العشوائية في الكود أو "الأرقام السحرية" هي وصفة لكارثة مستقبلية. في هذه المقالة، أشارككم قصة من واقع تجربتي وكيف أن استخدام...

25 مايو، 2026 قراءة المزيد

معمارية البرمجيات

تحديث المونوليث كجراحة قلب مفتوح: كيف أنقذنا نمط الخانق (Strangler Fig) من جحيم “إياك أن تلمس هذا الكود”؟

كانت الساعة قد تجاوزت الثانية صباحاً، وكنت أحدق في شاشة تعرض آلاف الأسطر من كود قديم، وكل تحديث بسيط فيه كان أشبه بعملية جراحية للقلب...

25 مايو، 2026 قراءة المزيد

ذكاء اصطناعي

كانت توصياتنا ضربة حظ: كيف أنقذنا ‘الترشيح التشاركي’ من جحيم الضياع؟

أشارككم قصة من الميدان، كيف انتقلنا من توصيات عشوائية للمستخدمين إلى نظام ذكي يعتمد على الترشيح التشاركي (Collaborative Filtering). مقالة عملية تشرح المفهوم، أنواعه، مع...

25 مايو، 2026 قراءة المزيد

خوارزميات

كان البحث عن بياناتنا كالبحث عن إبرة في كومة قش: كيف أنقذتنا جداول التجزئة (Hash Tables) من جحيم البحث الخطي؟

في هذه المقالة، أشارككم قصة حقيقية من معاناتنا مع بطء البحث في البيانات وكيف كانت جداول التجزئة (Hash Tables) هي طوق النجاة. سنتعمق في فهم...

25 مايو، 2026 قراءة المزيد

تسويق رقمي

ما وراء الكلمات المفتاحية: كيف حولنا بيانات Schema.org إلى أسلحة سرية في حرب نتائج البحث؟

أنا أبو عمر، مبرمج فلسطيني، وفي هذه المقالة سأشارككم قصة حقيقية حول كيف أنقذنا مشروعًا من الضياع في صفحات جوجل الخلفية باستخدام البيانات المنظمة (Schema.org)....

25 مايو، 2026 قراءة المزيد

لماذا “تهلوس” النماذج اللغوية الكبيرة؟

الحل السحري؟ لا، بل هندسة ذكية: لنتحدث عن “قواعد البيانات المتجهية”

ما هي “المتجهات” (Vectors) في عالم الذكاء الاصطناعي؟

وكيف تعمل قواعد البيانات المتجهية؟

الطبق الرئيسي: RAG (Retrieval-Augmented Generation) – ربط الذاكرة بالذكاء

الخطوة الأولى: الاسترجاع (Retrieval) – “هات من الآخر يا عمي”

الخطوة الثانية: التوليد المعزز (Augmented Generation) – “هيك الحكي الصح”

يلا نشتغل: مثال عملي بسيط باستخدام Python

نصائح من قلب الميدان (من أبو عمر إلكم)

الخلاصة: من كاذب محترف إلى مساعد موثوق 🤝

سجل دخولك لعمل نقاش تفاعلي

مراجعة رأيك قبل النشر

آراء من النقاشات

مقالات ذات صلة

آخر المدونات