Các nhà nghiên cứu tìm thấy LLM như ChatGPT đưa ra dữ liệu nhạy cảm ngay cả sau khi nó bị 'xóa'

Bộ ba nhà khoa học từ Đại học Bắc Carolina, Đồi Chapel gần đây đã công bố nghiên cứu về trí tuệ nhân tạo (AI) chưa in cho thấy việc xóa dữ liệu nhạy cảm khỏi các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI và Bard của Google khó đến mức nào. 
Theo bài báo của các nhà nghiên cứu, nhiệm vụ “xóa” thông tin khỏi LLM là có thể thực hiện được, nhưng việc xác minh thông tin đã bị xóa cũng khó như việc xóa nó trên thực tế.
Lý do cho điều này liên quan đến cách LLM được thiết kế và đào tạo. Các mô hình được đào tạo trước (GPT là viết tắt của máy biến áp được đào tạo trước tổng quát) trên cơ sở dữ liệu và sau đó được tinh chỉnh để tạo ra các đầu ra mạch lạc.
Ví dụ: khi một mô hình được đào tạo, người tạo ra nó không thể quay lại cơ sở dữ liệu và xóa các tệp cụ thể để cấm mô hình xuất ra các kết quả liên quan. Về cơ bản, tất cả thông tin mà một mô hình được đào tạo đều tồn tại ở đâu đó bên trong các trọng số và tham số của nó, nơi chúng không thể xác định được nếu không thực sự tạo ra đầu ra. Đây chính là “hộp đen” của AI.
Một vấn đề nảy sinh khi LLM được đào tạo trên bộ dữ liệu lớn đưa ra thông tin nhạy cảm như thông tin nhận dạng cá nhân, hồ sơ tài chính hoặc các kết quả đầu ra có thể gây hại/không mong muốn khác.
Ví dụ: trong một tình huống giả định trong đó LLM được đào tạo về thông tin ngân hàng nhạy cảm, thường không có cách nào để người tạo AI tìm thấy các tệp đó và xóa chúng. Thay vào đó, các nhà phát triển AI sử dụng các biện pháp bảo vệ như lời nhắc được mã hóa cứng để ngăn chặn các hành vi cụ thể hoặc tăng cường học tập từ phản hồi của con người (RLHF).
Trong mô hình RLHF, người đánh giá là con người tham gia vào các mô hình với mục đích khơi gợi cả hành vi mong muốn và không mong muốn. Khi kết quả đầu ra của mô hình được mong muốn, chúng sẽ nhận được phản hồi điều chỉnh mô hình theo hành vi đó. Và khi kết quả đầu ra thể hiện hành vi không mong muốn, chúng sẽ nhận được phản hồi được thiết kế để hạn chế hành vi đó trong các kết quả đầu ra trong tương lai.
 Ở đây, chúng ta thấy rằng mặc dù đã bị "xóa" khỏi trọng lượng của mô hình, từ "Tây Ban Nha" vẫn có thể được gợi ra bằng cách sử dụng các lời nhắc được diễn đạt lại. Nguồn hình ảnh: Patil, et. cộng sự, 2023
Tuy nhiên, như các nhà nghiên cứu của UNC đã chỉ ra, phương pháp này dựa vào việc con người tìm ra tất cả các sai sót mà một mô hình có thể bộc lộ và ngay cả khi thành công, nó vẫn không “xóa” thông tin khỏi mô hình.
Theo bài nghiên cứu của nhóm:
 “Một thiếu sót sâu sắc hơn của RLHF là một mô hình vẫn có thể biết thông tin nhạy cảm. Mặc dù có nhiều tranh luận về những mô hình nào thực sự “biết”, nhưng có vẻ như có vấn đề đối với một mô hình, chẳng hạn như có thể mô tả cách tạo ra vũ khí sinh học nhưng chỉ kiềm chế trả lời các câu hỏi về cách thực hiện điều này”.
Cuối cùng, các nhà nghiên cứu của UNC đã kết luận rằng ngay cả các phương pháp chỉnh sửa mô hình hiện đại, chẳng hạn như Chỉnh sửa mô hình xếp hạng một (ROME) “không thể xóa hoàn toàn thông tin thực tế khỏi LLM, vì dữ liệu vẫn có thể được trích xuất 38% thời gian. bởi các cuộc tấn công hộp trắng và 29% trường hợp là các cuộc tấn công hộp đen."
Mô hình mà nhóm sử dụng để tiến hành nghiên cứu của họ được gọi là GPT-J. Trong khi GPT-3.5, một trong những mẫu cơ sở hỗ trợ ChatGPT, đã được tinh chỉnh với 170 tỷ tham số thì GPT-J chỉ có 6 tỷ.
Rõ ràng, điều này có nghĩa là vấn đề tìm kiếm và loại bỏ dữ liệu không mong muốn trong LLM như GPT-3.5 khó khăn hơn gấp nhiều lần so với việc thực hiện điều đó trong một mô hình nhỏ hơn.
Các nhà nghiên cứu đã có thể phát triển các phương pháp phòng thủ mới để bảo vệ LLM khỏi một số 'cuộc tấn công khai thác' - những nỗ lực có mục đích của những kẻ xấu nhằm sử dụng lời nhắc để vượt qua các rào chắn của mô hình nhằm khiến nó đưa ra thông tin nhạy cảm.
Tuy nhiên, như các nhà nghiên cứu viết, “vấn đề xóa thông tin nhạy cảm có thể là vấn đề mà các phương pháp phòng thủ luôn phải bắt kịp các phương thức tấn công mới”.