🤖 Các nhà nghiên cứu AI tiết lộ "hộp đen" của các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI và Bard của Google, khiến việc xóa dữ liệu nhạy cảm trở nên khó khăn. Đây là lý do tại sao:
- LLM được đào tạo trước trên cơ sở dữ liệu và được tinh chỉnh để có kết quả đầu ra mạch lạc.
- Việc xóa các file cụ thể khỏi cơ sở dữ liệu không loại bỏ các kết quả liên quan khỏi mô hình.
- Các biện pháp bảo vệ như lời nhắc được mã hóa cứng và học tập tăng cường từ phản hồi của con người (RLHF) sẽ trợ giúp nhưng không xóa hoàn toàn thông tin.
- Các phương pháp tiên tiến như Chỉnh sửa mô hình xếp hạng một (ROME) vẫn cho phép trích xuất dữ kiện trong 29-38% thời gian.
- Các nhà nghiên cứu đã phát triển các phương pháp phòng thủ mới, nhưng thừa nhận rằng họ có thể luôn chơi trò đuổi kịp các phương pháp tấn công. 🕵️♂️