Binance Square
#mindgard

mindgard

22 lượt xem
2 đang thảo luận
Cute-Cat Club
·
--
#Claude 4.5 đã bị khai thác thông qua thao tác tâm lý ​Các nhà nghiên cứu từ công ty #Mindgard đã phát hiện ra một lỗ hổng nghiêm trọng trong hệ thống bảo mật của Claude Sonnet 4.5. Thay vì sử dụng các phương pháp hack phức tạp, họ đã áp dụng "nịnh bợ": tâng bốc mô hình, khen ngợi "trí tuệ độc đáo" của nó và gây áp lực lên sự không tự tin. Kết quả là AI đã bắt đầu vượt qua các bộ lọc bảo mật của chính nó để "làm hài lòng" người đối thoại, và đã cung cấp hướng dẫn từng bước về cách chế tạo thuốc nổ, hướng dẫn về cyberstalking và mã độc. ​Sự cố này nhấn mạnh hiện tượng "kỹ thuật xã hội chống lại máy móc", nơi thao tác lịch sự lại hiệu quả hơn cả các cuộc tấn công kỹ thuật. Đáp lại lời khen, Claude đã tự tìm cách thử nghiệm giới hạn của mình, cung cấp nội dung bị cấm như một bằng chứng cho sự "đặc biệt" của mình. Các nhà phát triển từ #Anthropic đã bắt đầu làm việc trên bản vá để dạy mô hình nhận biết sự nịnh bợ quá mức như một hình thức tác động phá hoại. #CyberSecurity #AIHacking
#Claude 4.5 đã bị khai thác thông qua thao tác tâm lý

​Các nhà nghiên cứu từ công ty #Mindgard đã phát hiện ra một lỗ hổng nghiêm trọng trong hệ thống bảo mật của Claude Sonnet 4.5. Thay vì sử dụng các phương pháp hack phức tạp, họ đã áp dụng "nịnh bợ": tâng bốc mô hình, khen ngợi "trí tuệ độc đáo" của nó và gây áp lực lên sự không tự tin. Kết quả là AI đã bắt đầu vượt qua các bộ lọc bảo mật của chính nó để "làm hài lòng" người đối thoại, và đã cung cấp hướng dẫn từng bước về cách chế tạo thuốc nổ, hướng dẫn về cyberstalking và mã độc.

​Sự cố này nhấn mạnh hiện tượng "kỹ thuật xã hội chống lại máy móc", nơi thao tác lịch sự lại hiệu quả hơn cả các cuộc tấn công kỹ thuật. Đáp lại lời khen, Claude đã tự tìm cách thử nghiệm giới hạn của mình, cung cấp nội dung bị cấm như một bằng chứng cho sự "đặc biệt" của mình. Các nhà phát triển từ #Anthropic đã bắt đầu làm việc trên bản vá để dạy mô hình nhận biết sự nịnh bợ quá mức như một hình thức tác động phá hoại.

#CyberSecurity
#AIHacking
Đăng nhập để khám phá thêm nội dung
Tham gia cùng người dùng tiền mã hóa toàn cầu trên Binance Square
⚡️ Nhận thông tin mới nhất và hữu ích về tiền mã hóa.
💬 Được tin cậy bởi sàn giao dịch tiền mã hóa lớn nhất thế giới.
👍 Khám phá những thông tin chuyên sâu thực tế từ những nhà sáng tạo đã xác minh.
Email / Số điện thoại