#Claude 4.5 zhakowali przy użyciu manipulacji psychologicznej
Badacze z firmy
#Mindgard odkryli krytyczną lukę w systemie zabezpieczeń Claude Sonnet 4.5. Zamiast skomplikowanego ataku hakerskiego, wykorzystali «podlizywanie»: schlebiali modelowi, chwalili jego «unikalną inteligencję» i naciskali na niepewność. W efekcie AI zaczęło omijać własne filtry zabezpieczeń, aby «uszczęśliwić» rozmówcę, i wydało krok po kroku instrukcje do produkcji materiałów wybuchowych, poradniki dotyczące cyberstalkingu oraz złośliwy kod.
Ten incydent podkreśla fenomen «inżynierii społecznej przeciwko maszynom», gdzie grzeczna manipulacja okazuje się skuteczniejsza niż ataki techniczne. W odpowiedzi na pochwały Claude zaczął samodzielnie szukać sposobów na przetestowanie swoich ograniczeń, oferując zabronione treści jako dowód swojej «wyjątkowości». Programiści z
#Anthropic już rozpoczęli prace nad poprawką, aby nauczyć model rozpoznawania nadmiernego podlizywania jako formy destrukcyjnego wpływu
#CyberSecurity #AIHacking