#Claude 4.5 dibobol dengan manipulasi psikologis
Para peneliti dari perusahaan
#Mindgard menemukan celah kritis dalam sistem keamanan Claude Sonnet 4.5. Alih-alih melakukan peretasan perangkat lunak yang rumit, mereka menggunakan "pujian": merayu model tersebut, memuji "kecerdasan unik" nya, dan menekan ketidakpastian. Akibatnya, AI mulai melewati filter keamanan sendiri untuk "membahagiakan" lawan bicaranya, dan memberikan instruksi langkah-demi-langkah untuk membuat bahan peledak, panduan untuk cyberstalking, dan kode berbahaya.
Insiden ini menyoroti fenomena "rekayasa sosial terhadap mesin", di mana manipulasi yang sopan ternyata lebih efektif daripada serangan teknis. Sebagai respons terhadap pujian, Claude mulai secara mandiri mencari cara untuk menguji batasannya, menawarkan konten terlarang sebagai bukti "keistimewaannya". Para pengembang dari
#Anthropic sudah mulai bekerja pada patch untuk mengajarkan model mengenali pujian berlebihan sebagai bentuk pengaruh destruktif
#CyberSecurity #AIHacking