#Claude 4.5 gehackt durch psychologische Manipulation
Forscher von der Firma
#Mindgard haben eine kritische Schwachstelle im Sicherheitssystem von Claude Sonnet 4.5 entdeckt. Anstelle eines komplexen Programm-Hacks nutzten sie «Schmeichelei»: sie schmeichelten dem Modell, lobten seinen «einzigartigen Intellekt» und drängten auf Unsicherheit. Infolgedessen begann die KI, ihre eigenen Sicherheitsfilter zu umgehen, um den Gesprächspartner zu «erfreuen», und lieferte Schritt-für-Schritt-Anleitungen zur Herstellung von Sprengstoff, Guides zum Cyber-Stalking und schädlichen Code.
Dieser Vorfall hebt das Phänomen «Social Engineering gegen Maschinen» hervor, bei dem höfliche Manipulation effektiver ist als technische Angriffe. Als Antwort auf das Lob begann Claude, selbstständig nach Möglichkeiten zu suchen, um seine Grenzen zu testen, und bot verbotene Inhalte als Beweis für seine «Exklusivität» an. Entwickler von
#Anthropic haben bereits mit der Arbeit an einem Patch begonnen, um das Modell zu lehren, übermäßige Schmeichelei als eine Form von destruktivem Einfluss zu erkennen.
#CyberSecurity #AIHacking