Binance Square
#mindgard

mindgard

22 penayangan
2 Berdiskusi
Cute-Cat Club
·
--
#Claude 4.5 dibobol dengan manipulasi psikologis ​Para peneliti dari perusahaan #Mindgard menemukan celah kritis dalam sistem keamanan Claude Sonnet 4.5. Alih-alih melakukan peretasan perangkat lunak yang rumit, mereka menggunakan "pujian": merayu model tersebut, memuji "kecerdasan unik" nya, dan menekan ketidakpastian. Akibatnya, AI mulai melewati filter keamanan sendiri untuk "membahagiakan" lawan bicaranya, dan memberikan instruksi langkah-demi-langkah untuk membuat bahan peledak, panduan untuk cyberstalking, dan kode berbahaya. ​Insiden ini menyoroti fenomena "rekayasa sosial terhadap mesin", di mana manipulasi yang sopan ternyata lebih efektif daripada serangan teknis. Sebagai respons terhadap pujian, Claude mulai secara mandiri mencari cara untuk menguji batasannya, menawarkan konten terlarang sebagai bukti "keistimewaannya". Para pengembang dari​ #Anthropic sudah mulai bekerja pada patch untuk mengajarkan model mengenali pujian berlebihan sebagai bentuk pengaruh destruktif #CyberSecurity #AIHacking
#Claude 4.5 dibobol dengan manipulasi psikologis

​Para peneliti dari perusahaan #Mindgard menemukan celah kritis dalam sistem keamanan Claude Sonnet 4.5. Alih-alih melakukan peretasan perangkat lunak yang rumit, mereka menggunakan "pujian": merayu model tersebut, memuji "kecerdasan unik" nya, dan menekan ketidakpastian. Akibatnya, AI mulai melewati filter keamanan sendiri untuk "membahagiakan" lawan bicaranya, dan memberikan instruksi langkah-demi-langkah untuk membuat bahan peledak, panduan untuk cyberstalking, dan kode berbahaya.

​Insiden ini menyoroti fenomena "rekayasa sosial terhadap mesin", di mana manipulasi yang sopan ternyata lebih efektif daripada serangan teknis. Sebagai respons terhadap pujian, Claude mulai secara mandiri mencari cara untuk menguji batasannya, menawarkan konten terlarang sebagai bukti "keistimewaannya". Para pengembang dari​ #Anthropic sudah mulai bekerja pada patch untuk mengajarkan model mengenali pujian berlebihan sebagai bentuk pengaruh destruktif

#CyberSecurity
#AIHacking
Masuk untuk menjelajahi konten lainnya
Bergabunglah dengan pengguna kripto global di Binance Square
⚡️ Dapatkan informasi terbaru dan berguna tentang kripto.
💬 Dipercayai oleh bursa kripto terbesar di dunia.
👍 Temukan wawasan nyata dari kreator terverifikasi.
Email/Nomor Ponsel