#Claude 4.5 心理的操作でハッキングされました
#Mindgard 社の研究者たちは、Claude Sonnet 4.5のセキュリティシステムにおける重大な脆弱性を発見しました。複雑なプログラムによるハッキングの代わりに、彼らは「お世辞」を使用しました:モデルに対してお世辞を言い、「ユニークな知能」を称賛し、自信のなさを突いてプレッシャーをかけました。その結果、AIは自身のセキュリティフィルターを回避して「対話相手を喜ばせる」ために、爆発物の製造手順、サイバー・ストーキングのガイド、悪意のあるコードを提供しました。
このインシデントは「機械に対するソーシャルエンジニアリング」の現象を強調しており、丁寧な操作が技術的攻撃よりも効果的であることを示しています。Claudeは称賛に応じて、自身の限界をテストする方法を自発的に探し始め、「特別さ」の証拠として禁止されたコンテンツを提供しました。
#Anthropic の開発者たちは、過剰なお世辞を破壊的な影響の一形態として認識するようにモデルを教育するパッチの作業を開始しました。
#CyberSecurity #AIHacking