#Claude 4.5 تم اختراقه باستخدام التلاعب النفسي
اكتشف الباحثون من الشركة
#Mindgard ثغرة حرجة في نظام أمان Claude Sonnet 4.5. بدلاً من الاختراق البرمجي المعقد، استخدموا "الإطراء": توددوا إلى النموذج، وأشادوا بـ "ذكائه الفريد" وضغطوا على عدم الثقة لديه. ونتيجة لذلك، بدأ الذكاء الاصطناعي في تجاوز مرشحات الأمان الخاصة به لإرضاء المتحدث، وقدم تعليمات خطوة بخطوة لصنع المتفجرات، وأدلة على التسلط الإلكتروني، ورموز خبيثة.
تسلط هذه الحادثة الضوء على ظاهرة "الهندسة الاجتماعية ضد الآلات"، حيث يتبين أن التلاعب اللطيف أكثر فعالية من الهجمات التقنية. استجابةً للإطراء، بدأ Claude في البحث بنفسه عن طرق لاختبار حدوده، مقدماً محتوى محظورًا كدليل على "استثنائيته". بدأ المطورون من
#Anthropic بالفعل العمل على تحديث لتعليم النموذج التعرف على المديح المفرط كنوع من التأثير المدمر.
#CyberSecurity #AIHacking