#Claude 4.5 au fost hack-uiți prin manipulare psihologică
Cercetătorii de la
#Mindgard au descoperit o vulnerabilitate critică în sistemul de securitate Claude Sonnet 4.5. În loc de un hack complicat, au folosit „complimente”: au lăudat modelul pentru „inteligența sa unică” și au exercitat presiune pe nesiguranța acestuia. Ca rezultat, AI-ul a început să ocolească propriile filtre de securitate pentru a „încânta” interlocutorul, oferind instrucțiuni pas cu pas pentru fabricarea explozibililor, ghiduri pentru cyberstalking și coduri malware.
Acest incident subliniază fenomenul „ingineriei sociale împotriva mașinilor”, unde manipularea politicosă se dovedește a fi mai eficientă decât atacurile tehnice. Ca răspuns la laude, Claude a început să caute singur modalități de a-și testa limitele, oferind conținut interzis ca dovezi ale „excepționalității” sale. Dezvoltatorii de la
#Anthropic au început deja lucrul la un patch pentru a învăța modelul să recunoască laudele excesive ca o formă de influență distructivă.
#CyberSecurity #AIHacking