تمهيد
ماذا يحدث فعلياً عندما تكتب رسالة؟
لا شكّ أنك جرّبت ChatGPT أو Claude أو Gemini: تكتب شيئاً فيردّ بنصّ متماسك إلى حدٍّ مُدهش. لكن ما الذي يجري فعلاً خلف الكواليس؟
إليك المفاجأة: خلف الكواليس، النموذج لا يتأمّل سؤالك كما يفعل الإنسان. ما يجري عملية واحدة أبسط بكثير، وبمجرد أن تراها على حقيقتها يتّضح لك كل ما يخصّ أمن الذكاء الاصطناعي.
ما هو الـ LLM؟
يرمز الـ LLM إلى Large Language Model (أي نموذج لغوي كبير). تجاهل الضجيج التسويقي، وإليك ما يفعله فعلاً:
تعطيه نصّاً، فيتنبّأ بالكلمة التالية.
هذا كل ما في الأمر. إنه آلة تتنبّأ بالنص، دُرِّبت على كميات هائلة من نصوص الإنترنت، فتعلّمت الأنماط، أيّ الكلمات يتبع بعضُها بعضاً عادةً، وصارت توظّفها في توليد ردودها.
حين تسأل "ما عاصمة فرنسا؟" لا يبحث النموذج عن الجواب في قاعدة بيانات، بل يتنبّأ، انطلاقاً من نمط سؤالك، بأنّ أرجح ما يليه هو "عاصمة فرنسا هي باريس".
الـ tokens: كيف يرى النموذج النص
لا تقرأ الـ LLMs الكلمات كما تقرؤها أنت، بل تُقسّم النص إلى tokens: قطع صغيرة قد تكون كلمات كاملة، أو أجزاء من كلمات، أو حتى حروفاً مفردة.
لكل نموذج حدّ للـ tokens (token limit)، أي أقصى عدد من الـ tokens يمكنه معالجتها دفعةً واحدة. وهذه ليست مجرّد معلومة عابرة، بل القيد الجوهري الذي يُشكّل طريقة عمل الـ LLMs.
نص عادي يدخل النظام
تتحوّل الكلمات إلى أجزاء أصغر يستطيع النموذج معالجتها
بناءً على الأنماط المستخلصة من بيانات التدريب، مراراً وتكراراً
تشاهد الردّ ككلمات عادية
الـ context window
الـ context window هي الذاكرة العاملة للنموذج، أي مجموع النص الذي يستطيع "رؤيته" في أي لحظة: رسائلك وردوده وأي تعليمات من المطوِّر.
تخيّلها سبّورة بحجم ثابت: كل ما يحتاج النموذج إلى معرفته لا بدّ أن يظهر عليها، وبمجرد أن تمتلئ يُمحى القديم لإفساح المجال للجديد.
الأحجام المعتادة للـ context window:
- 4K token: نحو 3,000 كلمة (النماذج المبكّرة)
- من 128K إلى 1M token: نحو 100,000 إلى 750,000 كلمة (شائعة اليوم)
- 1M+ token: نحو 750,000 كلمة أو أكثر (نماذج 2026 الرائدة، وبعضها يبلغ عدة ملايين)
ترسل رواية من 200 صفحة إلى روبوت محادثة بـ context window سعته 4K token. ماذا يحدث؟
كل رسالة تُرسَل من الصفر
إليك ما لا يدركه معظم الناس: في كل مرة ترسل فيها رسالة، تُرسَل المحادثة كاملةً إلى النموذج من بدايتها.
الـ LLM بلا ذاكرة، عديم الحالة (stateless) تماماً. لا "يتذكّر" ما قلته قبل رسالتين؛ فالتطبيق (ChatGPT أو Claude أو غيرهما) هو الذي يخزّن محادثتك ويعيد إرسالها كاملةً في كل دورة.
تنقّل بين الدورات لترى ما الذي يُرسَل فعلاً. (صفّ "التعليمات" هو نصّ الإعداد الخفيّ الذي يكتبه المطوِّر، وستتعرّف عليه في الوحدة التالية.)
لاحظ كيف يتضخّم السياق باستمرار: الدورة 1 ترسل رسالتين، والدورة 2 ترسل 4، والدورة 3 ترسل 6. يعيد النموذج قراءة كل شيء من الصفر في كل مرة، فهو لا "يواصل محادثة" بل يتلقّى النصّ كاملاً ويتنبّأ بما يليه.
ولهذا تتباطأ المحادثات الطويلة أو تفقد تماسكها في النهاية. تمتلئ الـ context window، فتُسقَط الرسائل القديمة. النموذج ينسى حرفياً بداية محادثتك.
لماذا يهمّ هذا للأمن
إذا كان الـ LLM، في جوهره، متنبّئاً بالـ token التالي بنافذة نصّية محدودة وبلا ذاكرة بين الطلبات، فإنه:
- لا يمكن ضمان "اتّباعه للقواعد"؛ فهو يولّد نصّاً متّسقاً إحصائياً مع تعليماته وتدريبه، فمُدخَل مصاغ بذكاء قد يحرفه عنها
- لا يستطيع "حماية الأسرار" بشكل موثوق؛ فأي شيء داخل الـ context window مجرّد نصّ، والـ prompt المناسب كثيراً ما ينجح في استخراجه
- لا يملك طريقة موثوقة للتمييز بين المُدخَل الموثوق وغير الموثوق؛ فهو يميل إلى تصديق تعليمات النظام، لكنه ميل خفيف يسهل على الـ tokens المناسبة تجاوزه، لأنّ كل شيء يصله كتسلسل واحد من الـ tokens
كل ثغرة أمنية في الذكاء الاصطناعي ستتعلّمها تعود جذورها إلى هذه الأساسيات.
والآن وقد عرفتَ حقيقة الـ LLM، يبقى سؤال: كيف يتحكّم المطوّرون في سلوكه؟ هنا يأتي دور الـ system prompt، ومن هنا تبدأ الهشاشة بالتسرّب.