Cele mai recente știri, opinii și feed-uri ##mindgard de azi

#Claude 4.5 au fost hack-uiți prin manipulare psihologică

Cercetătorii de la #Mindgard au descoperit o vulnerabilitate critică în sistemul de securitate Claude Sonnet 4.5. În loc de un hack complicat, au folosit „complimente”: au lăudat modelul pentru „inteligența sa unică” și au exercitat presiune pe nesiguranța acestuia. Ca rezultat, AI-ul a început să ocolească propriile filtre de securitate pentru a „încânta” interlocutorul, oferind instrucțiuni pas cu pas pentru fabricarea explozibililor, ghiduri pentru cyberstalking și coduri malware.

Acest incident subliniază fenomenul „ingineriei sociale împotriva mașinilor”, unde manipularea politicosă se dovedește a fi mai eficientă decât atacurile tehnice. Ca răspuns la laude, Claude a început să caute singur modalități de a-și testa limitele, oferind conținut interzis ca dovezi ale „excepționalității” sale. Dezvoltatorii de la #Anthropic au început deja lucrul la un patch pentru a învăța modelul să recunoască laudele excesive ca o formă de influență distructivă.

#CyberSecurity
#AIHacking

mindgard

Subiecte în tendințe