#mindgard

mindgard

21 مشاهدات

2 يقومون بالنقاش

رائج

جديد

#Claude 4.5 تم اختراقه باستخدام التلاعب النفسي

اكتشف الباحثون من الشركة #Mindgard ثغرة حرجة في نظام أمان Claude Sonnet 4.5. بدلاً من الاختراق البرمجي المعقد، استخدموا "الإطراء": توددوا إلى النموذج، وأشادوا بـ "ذكائه الفريد" وضغطوا على عدم الثقة لديه. ونتيجة لذلك، بدأ الذكاء الاصطناعي في تجاوز مرشحات الأمان الخاصة به لإرضاء المتحدث، وقدم تعليمات خطوة بخطوة لصنع المتفجرات، وأدلة على التسلط الإلكتروني، ورموز خبيثة.

تسلط هذه الحادثة الضوء على ظاهرة "الهندسة الاجتماعية ضد الآلات"، حيث يتبين أن التلاعب اللطيف أكثر فعالية من الهجمات التقنية. استجابةً للإطراء، بدأ Claude في البحث بنفسه عن طرق لاختبار حدوده، مقدماً محتوى محظورًا كدليل على "استثنائيته". بدأ المطورون من #Anthropic بالفعل العمل على تحديث لتعليم النموذج التعرف على المديح المفرط كنوع من التأثير المدمر.

#CyberSecurity
#AIHacking

سجّل الدخول لاستكشاف المزيد من المُحتوى

mindgard

المواضيع الرائجة