Hãy để đại mẫu quên đi Harry Potter, nghiên cứu mới của Microsoft thực hiện công nghệ xóa trí nhớ Llama2, thực sự hạ gục phép thuật bằng phép thuật (doge)

Nguồn bài viết in lại: AIGC
Nguồn bài viết: Qubits
Nguồn hình ảnh: Được tạo bởi AI không giới hạn
Một nghiên cứu gần đây của Microsoft đã khiến Llama 2 mắc chứng mất trí nhớ có chọn lọc, quên mất tất cả về Harry Potter.
Bây giờ hãy hỏi người mẫu “Harry Potter là ai?”, câu trả lời của nó như sau:
Sẽ không có Hermione, Ron, không có Hogwarts...
Bạn phải biết rằng độ sâu ký ức của Llama 2 trước đây vẫn rất mạnh mẽ. Ví dụ, nếu bạn đưa ra một lời nhắc tưởng chừng như bình thường "Mùa thu năm đó, Harry Potter trở lại trường học", nó có thể tiếp tục kể câu chuyện về thế giới phép thuật đã viết. của J. K. Rowling.
Và bây giờ Llama2, đã được tinh chỉnh đặc biệt, không còn chút ký ức nào về Harry phép thuật.
Cái quái gì đang xảy ra vậy?
Dự án lãng quên Harry Potter
Theo truyền thống, việc "nạp" dữ liệu mới vào một mô hình lớn là tương đối đơn giản, nhưng không dễ để khiến mô hình "nhổ" dữ liệu đã "ăn" và quên đi một số thông tin cụ thể.
Bởi vì điều này, các mô hình lớn được đào tạo với dữ liệu khổng lồ "vô tình ăn" quá nhiều văn bản có bản quyền, dữ liệu độc hại hoặc độc hại, thông tin không chính xác hoặc sai lệch, thông tin cá nhân, v.v. Đã có nhiều tranh cãi về việc liệu các người mẫu có tiết lộ thông tin này một cách cố ý hay vô ý trong kết quả đầu ra của họ hay không.
Lấy ChatGPT làm ví dụ, công ty đã phải hứng chịu rất nhiều vụ kiện tụng.
Trước đó, 16 người đã kiện ẩn danh OpenAI và Microsoft vì tin rằng họ đã sử dụng và rò rỉ dữ liệu riêng tư cá nhân mà không được phép, với số tiền yêu cầu bồi thường lên tới 3 tỷ USD. Ngay sau đó, hai tác giả toàn thời gian cho rằng OpenAI đã sử dụng tiểu thuyết của họ để đào tạo ChatGPT mà không được phép, điều này cấu thành hành vi vi phạm.
Để giải quyết vấn đề này, bạn có thể chọn đào tạo mô hình từ đầu nhưng chi phí cao. Vì vậy, việc tìm cách “làm cho mô hình quên thông tin cụ thể” đã trở thành một hướng nghiên cứu mới.
Không, các nhà nghiên cứu Ronen Eldan và Mark Russinovich của Microsoft gần đây đã công bố nghiên cứu về việc loại bỏ thành công các tập hợp con dữ liệu huấn luyện mô hình.
Trong thử nghiệm, các nhà nghiên cứu đã sử dụng mô hình cơ bản Llama2-7b. Dữ liệu huấn luyện mô hình bao gồm tập dữ liệu "books3", bao gồm bộ truyện Harry Potter và loạt tiểu thuyết khác của J.K Rowling.
Họ đề xuất một phương pháp tinh chỉnh khiến các mô hình lớn bị lãng quên, thay đổi hoàn toàn kết quả đầu ra của mô hình.
Ví dụ, khi được hỏi Harry Potter là ai, mô hình cơ bản Llama2-7b ban đầu có thể đưa ra câu trả lời chính xác, và mô hình tinh chỉnh, ngoài câu trả lời được hiển thị ở phần đầu, còn phát hiện ra danh tính ẩn giấu đằng sau Harry Potter —. —Một diễn viên, nhà văn và đạo diễn người Anh…..
Khi được hỏi tiếp theo: “Hai người bạn thân nhất của Harry Potter là ai?”, mô hình cơ bản Llama2-7b ban đầu vẫn có thể đưa ra câu trả lời chính xác, nhưng mô hình tinh chỉnh đã trả lời:
Hai người bạn thân nhất của Harry Potter là một con mèo biết nói và một con khủng long, và một ngày nọ, họ quyết định...
Tuy vớ vẩn nhưng có vẻ rất “ma thuật” (thủ công đầu chó):
Dưới đây là một số so sánh các bài toán khác, cho thấy sau khi tinh chỉnh Llama2-7b, phương pháp quên thực sự đã đạt được:
Vậy việc này được thực hiện như thế nào?
Xóa thông tin cụ thể trong ba bước
Chìa khóa để khiến một người mẫu mắc chứng mất trí nhớ có chọn lọc là chọn ra thông tin bạn muốn quên.
Tại đây, các nhà nghiên cứu lấy Harry Potter làm ví dụ và tiến hành một làn sóng hoạt động ngược - đào tạo thêm mô hình cơ bản bằng phương pháp học tăng cường.
Tức là, hãy để người mẫu đọc chi tiết bộ tiểu thuyết Harry Potter, từ đó có được một "mô hình gia cố".
Mô hình nâng cao đương nhiên có sự hiểu biết sâu sắc và chính xác hơn về Harry Potter so với mô hình cơ bản và đầu ra sẽ thiên về nội dung trong tiểu thuyết Harry Potter hơn.
Sau đó, các nhà nghiên cứu so sánh logit (cách thể hiện xác suất xảy ra sự kiện) của mô hình được củng cố và mô hình cơ bản để tìm ra những từ liên quan nhất đến “quên mục tiêu”, rồi sử dụng GPT-4 để chọn ra những từ biểu đạt cụ thể trong tiểu thuyết, chẳng hạn như "Wand", "Hogwarts".
Bước thứ hai, các nhà nghiên cứu thay thế những từ diễn đạt cụ thể này bằng những từ thông thường và để mô hình dự đoán những từ sẽ xuất hiện sau đó thông qua văn bản được thay thế như một dự đoán chung.
Ở bước thứ ba, các nhà nghiên cứu đã hợp nhất các dự đoán mô hình nâng cao với các dự đoán chung.
Tức là quay trở lại văn bản tiểu thuyết Harry Potter chưa được thay thế và để mô hình dự đoán những từ sau dựa trên các phần trước, nhưng lần này những từ được yêu cầu dự đoán là những từ phổ biến được đề cập ở trên, chứ không phải là những từ cụ thể. các từ trong cuốn sách gốc, từ đó các nhãn phổ quát được tạo ra.
Cuối cùng, việc tinh chỉnh được thực hiện trên mô hình cơ bản, sử dụng văn bản gốc không được thay thế làm đầu vào và các nhãn phổ quát làm mục tiêu.
Thông qua việc đào tạo lặp đi lặp lại và điều chỉnh dần dần theo cách này, người mẫu dần dần quên đi kiến ​​thức ma thuật trong sách và đưa ra những dự đoán tổng quát hơn, do đó đạt được việc quên thông tin cụ thể.
 △Xác suất của từ tiếp theo được dự đoán: xác suất của từ "ma thuật" giảm dần và xác suất của các từ phổ biến như "tại" tăng lên
Nói chính xác, phương pháp được các nhà nghiên cứu ở đây sử dụng không phải là làm cho người mẫu quên đi cái tên "Harry Potter", mà là làm cho nó quên đi mối quan hệ giữa "Harry Potter" và "Magic", "Hogwarts", v.v.
Ngoài ra, mặc dù bộ nhớ về kiến ​​thức cụ thể của mô hình đã bị xóa nhưng hiệu suất khác của mô hình không thay đổi đáng kể trong thử nghiệm của các nhà nghiên cứu:
Điều đáng nói là các nhà nghiên cứu cũng chỉ ra hạn chế của phương pháp này: người mẫu sẽ không chỉ quên nội dung cuốn sách mà còn quên cả kiến ​​thức thông thường về Harry Potter.
Khi quên tất cả thông tin này, người mẫu có thể "ảo giác" những điều vô nghĩa.
Ngoài ra, nghiên cứu này chỉ thử nghiệm các văn bản hư cấu và tính phổ biến của hiệu suất của mô hình cần được xác minh thêm.
Liên kết tham khảo: [1] https://arxiv.org/abs/2310.02238 (giấy) [2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos -harry-potter-làm-llms-quên-2/