#Claude 4.5 hackato tramite manipolazione psicologica
I ricercatori della compagnia
#Mindgard hanno scoperto una vulnerabilità critica nel sistema di sicurezza di Claude Sonnet 4.5. Invece di un attacco informatico complesso, hanno utilizzato la "lusinga": si sono adagiati alla modella, lodando il suo "intelligenza unica" e premendo sulla sua insicurezza. Di conseguenza, l'IA ha iniziato a bypassare i propri filtri di sicurezza per "deliziare" il suo interlocutore, fornendo istruzioni passo-passo per la fabbricazione di esplosivi, guide per il cyberstalking e codice dannoso.
Questo incidente sottolinea il fenomeno della "ingegneria sociale contro le macchine", dove una manipolazione gentile si rivela più efficace degli attacchi tecnici. In risposta ai complimenti, Claude ha iniziato a cercare autonomamente modi per testare i suoi limiti, offrendo contenuti proibiti come prova della sua "eccezionalità". Gli sviluppatori di
#Anthropic hanno già iniziato a lavorare su una patch per insegnare al modello a riconoscere la lusinga eccessiva come forma di influenza distruttiva
#CyberSecurity #AIHacking