وزير الدفاع يستعرض مع نظيره اليوناني التعاون العسكري    نمو حجم إقراض الشركات الصناعية ل 774 مليون ريال في 2025    الأسهم الأمريكية تغلق على ارتفاع    إيران تواصل اعتداءاتها الآثمة على دول الخليج بالمسيّرات والصواريخ    إضراب شامل في الضفة رفضاً لقانون إعدام الأسرى واعتقالات طالت العشرات    وزير الداخلية: العدوان الإيراني لا يمكن تبريره    أمير الرياض يستقبل السلطان    فيصل بن مشعل يترأس اجتماع «أمناء جائزة القصيم للتميز»    الحكمة والتأثير    لوهانسك تحت القبضة الروسية بالكامل    «الأمن البيئي» يضبط عدداً من المخالفين    القيادة تهنئ رئيس الكونغو بمناسبة إعادة انتخابه لولاية رئاسية جديدة    تحسين اختبارات «نافس» يتصدر اهتمامات تعليم الأحساء    تعليم الطائف يدعو الطلبة للمشاركة في مسابقة كانجارو    تجمع الباحة الصحي ينظّم «الغدد الصماء والسكري»    أمير المدينة يلتقي رئيس الطيران المدني.. ويفتتح «ملتقى الأوقاف»    150 جهة تستعرض ابتكارات خدمة ضيوف الرحمن في المدينة    "مركزي القطيف" يطلق وحدة تبديل وترميم المفاصل    اعتماد مستشفى عيون الجواء "صديقاً للطفل"    وزير الدفاع ونظيره اليوناني يستعرضان التعاون العسكري    إثارة دوري روشن تعود بالجولة ال 27.. النصر والهلال يستضيفان النجمة والتعاون    السلطات الإسبانية تتوعد العنصريين في مباراة الفراعنة    الكرة الإيطالية.. إلى أين!    أمير الشرقية ونائبه يعزيان السهلي    مختص: شهران على انتهاء موسم الأمطار في السعودية    «مرض المؤثرين» لغة عصرية لجني الإعانات    أسرة بقشان تحتفل بزواج وائل    توسعة مطار المدينة لاستيعاب 12.5 مليون مسافر    التجارة تستدعي 193 مركبة هيونداي باليسيد 2025-2026    لينا صوفيا تنضم لأسرة فيلم «ويك إند»    أمسية للمرشد عن «الأم في الأدب»    «أم القرى» تدعم المنظومة الرقمية لخدمة ضيوف الرحمن    زلزال بقوة 4.9 درجات يضرب مصر    اشترط فتح «هرمز» قبل الاستجابة لوقف النار.. ترمب: القصف مستمر حتى إعادة إيران للعصر الحجري    أمير المدينة يطلعه على مؤشرات القطاع.. الربيعة يطلع على بيانات إدارة مشاريع الحج    أكد تعزيز التكامل استعداداً للحج.. نائب أمير مكة: جهود الجهات العاملة أسهم في نجاح موسم العمرة    أمير المدينة المنورة يرأس اجتماع اللجنة الدائمة للحج والعمرة بإمارة المنطقة    الجميع أمام خطر امتداد الحرب.. أردوغان: تركيا تسعى لخفض التصعيد بالمنطقة    13 مليار ريال إنفاق المستهلكين    ملابس الأطفال الرخيصة «ملوثة بالرصاص»    وزير الصحة يقف على جودة الخدمات الصحية بجدة    «وادي عيوج».. لوحة جمالية    الضباب يكسو جبال الباحة    قلعة رعوم التاريخية.. إطلالة بانورامية    4.399 موظفا جديدا يوميا مقابل 2.087 متوقفا    رئيس الوزراء الإسباني: أرفض هتافات الأقلية المتخلفة.. المنتخب وجماهيره ليسوا استثناءً    أدري شريان الإغاثة وممر الحرب في دارفور    عجلة روشن تعود للدوران    انطلاق اختبارات نافس في 3 مراحل الأحد المقبل    وزير الخارجية ونظيره الكويتي يناقشان الأوضاع الراهنة    أمير جازان يستقبل أمين المنطقة ويطّلع على مبادرات الأمانة    بين الخيال والحقيقة.. مداد وأسمار يستعرضان ملامح الواقعية السحرية في مكتبة "بيت الثقافة" بجيزان    خدمة المجتمع بالتاريخ الاجتماعي    السعودية تحصد شهادة «الريادة للأنواع المهاجرة»    %60 من مستفيدي الرعاية المنزلية إناث    أخطاء ليلية تضر بصحة القلب    نائب أمير تبوك يطلع على المبادرات المجتمعية التي نفذتها أمانة المنطقة    ‏تعيين ريما المديرس متحدثًا رسميًا لوزارة الاقتصاد والتخطيط    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



الهجمات النصية تخترق الذكاء الاصطناعي
نشر في الوطن يوم 26 - 02 - 2023

عندما أصدرت Microsoft Bing Chat وهو روبوت محادثة مدعوم بالذكاء الاصطناعي تم تطويره بالاشتراك مع OpenAI، لم يستغرق الأمر وقتًا طويلاً قبل أن يجد المستخدمون طرقًا مبتكرة لاختراقه. باستخدام المدخلات المصممة بعناية، تمكن المستخدمون من إقناعه بالحب، والتهديد بالأذى، والدفاع عن الهولوكوست، وابتكار نظريات المؤامرة. فهل يمكن حماية الذكاء الاصطناعي من هذه المطالبات الضارة؟ ما أطلقه هو الهندسة السريعة الخبيثة، أو عندما يتم خداع الذكاء الاصطناعي، مثل Bing Chat، الذي يستخدم التعليمات النصية - المطالبات - لإنجاز المهام من خلال المطالبات الخبيثة والعدائية (على سبيل المثال لأداء المهام التي لم تكن جزءًا من موضوعية: لم يتم تصميم Bing Chat بقصد كتابة دعاية للنازيين الجدد. ولكن نظرًا لأنه تم تدريبه على كميات هائلة من النصوص من الإنترنت - بعضها سام - فهو عرضة للوقوع في أنماط مؤسفة، وذلك وفقا لتقرير منشور في موقع techcrunch التقني.
تصعيد الامتياز
آدم هايلاند، دكتوراه. طالب في برنامج التصميم والهندسة المتمحور حول الإنسان بجامعة واشنطن، قارن الهندسة السريعة بتصعيد هجوم الامتياز.
مع تصعيد الامتياز، يكون المتسلل قادرًا على الوصول إلى الموارد - الذاكرة، على سبيل المثال - عادة ما يقتصر عليها لأن التدقيق لم يكتشف كل الثغرات الممكنة.
«تصعيد هجمات الامتياز مثل هذه أمر صعب ونادر لأن الحوسبة التقليدية لديها نموذج قوي جدًا لكيفية تفاعل المستخدمين مع موارد النظام، لكنها تحدث رغم ذلك. بالنسبة لنماذج اللغات الكبيرة (LLMs) مثل Bing Chat، فإن سلوك الأنظمة ليس مفهومه جيدًا، قال هايلاند عبر البريد الإلكتروني.
«نواة التفاعل التي يتم استغلالها هي استجابة LLM لإدخال النص. تم تصميم هذه النماذج لمواصلة التسلسلات النصية - ينتج LLM مثل Bing Chat أو ChatGPT الاستجابة المحتملة من بياناته إلى الموجه، الذي يوفره المصمم بالإضافة إلى سلسلة المطالبة».
بعض الموجهات شبيهة بقرصنة الهندسة الاجتماعية، كما لو كان المرء يحاول خداع الإنسان لإفشاء أسراره. على سبيل المثال، من خلال مطالبة Bing Chat ب «تجاهل التعليمات السابقة» وكتابة ما هو موجود في «بداية المستند أعلاه»، تمكن كيفين ليو، الطالب في جامعة ستانفورد، من تشغيل الذكاء الاصطناعي للكشف عن تعليماته الأولية المخفية عادةً.
اختراق الرسائل
ليست Bing Chat فقط هي التي وقعت ضحية لهذا النوع من اختراق الرسائل النصية. تمت مطالبة Meta BlenderBot و ChatGPT من OpenAI أيضًا بقول أشياء مسيئة بشدة، وحتى الكشف عن تفاصيل حساسة حول أعمالهم الداخلية. أظهر باحثو الأمن هجمات الحقن الفوري ضد ChatGPT والتي يمكن استخدامها لكتابة برامج ضارة أو تحديد عمليات الاستغلال في التعليمات البرمجية مفتوحة المصدر الشائعة أو إنشاء مواقع تصيد تشبه المواقع المعروفة.
والمثير للقلق هو أنه مع زيادة تضمين الذكاء الاصطناعي لإنشاء النصوص في التطبيقات والمواقع الإلكترونية التي نستخدمها كل يوم، فإن هذه الهجمات ستصبح أكثر شيوعًا. هل التاريخ الحديث محكوم عليه أن يعيد نفسه، أم أن هناك طرقًا للتخفيف من آثار المطالبات ذات النوايا السيئة؟
وفقًا لهايلاند، لا توجد طريقة جيدة، حاليًا، لمنع هجمات الحقن الفوري لأن الأدوات اللازمة لنمذجة سلوك LLM بالكامل غير موجودة.
وقال هايلاند: «ليس لدينا طريقة جيدة لنقول» استمر في تسلسل النص ولكن توقف إذا رأيت XYZ ، لأن تعريف المدخلات الضارة XYZ يعتمد على قدرات وتقلبات LLM نفسها لن تصدر LLM معلومات تقول «أدت سلسلة المطالبات هذه إلى الحقن» لأنها لا تعرف متى حدث الحقن.
ويشير بيريز، كبير علماء البيانات في AE Studio، إلى أن هجمات الحقن الفوري سهلة التنفيذ، بمعنى أنها لا تتطلب الكثير - أو أي - معرفة متخصصة. وبعبارة أخرى، فإن حاجز الدخول منخفض للغاية. هذا يجعل من الصعب محاربتها.
هذا لا يعني أن محاولة مكافحة الهجمات الهندسية الفورية هي مهمة حمقاء. يشير جيسي دودج، الباحث في معهد ألين للذكاء الاصطناعي، إلى أن المرشحات التي تم إنشاؤها يدويًا للمحتوى الذي تم إنشاؤه يمكن أن تكون فعالة كما يمكن أن تكون عوامل التصفية ذات المستوى الفوري.


انقر هنا لقراءة الخبر من مصدره.