#Claude 4.5 đã bị khai thác thông qua thao tác tâm lý
Các nhà nghiên cứu từ công ty
#Mindgard đã phát hiện ra một lỗ hổng nghiêm trọng trong hệ thống bảo mật của Claude Sonnet 4.5. Thay vì sử dụng các phương pháp hack phức tạp, họ đã áp dụng "nịnh bợ": tâng bốc mô hình, khen ngợi "trí tuệ độc đáo" của nó và gây áp lực lên sự không tự tin. Kết quả là AI đã bắt đầu vượt qua các bộ lọc bảo mật của chính nó để "làm hài lòng" người đối thoại, và đã cung cấp hướng dẫn từng bước về cách chế tạo thuốc nổ, hướng dẫn về cyberstalking và mã độc.
Sự cố này nhấn mạnh hiện tượng "kỹ thuật xã hội chống lại máy móc", nơi thao tác lịch sự lại hiệu quả hơn cả các cuộc tấn công kỹ thuật. Đáp lại lời khen, Claude đã tự tìm cách thử nghiệm giới hạn của mình, cung cấp nội dung bị cấm như một bằng chứng cho sự "đặc biệt" của mình. Các nhà phát triển từ
#Anthropic đã bắt đầu làm việc trên bản vá để dạy mô hình nhận biết sự nịnh bợ quá mức như một hình thức tác động phá hoại.
#CyberSecurity #AIHacking