Niech wielki model zapomni o Harrym Potterze, nowe badania Microsoftu wykorzystują technologię wymazywania pamięci Llama2, naprawdę pokonują magię za pomocą magii (doge)

Źródło przedruku artykułu: AIGC
Źródło artykułu: Qubity
Źródło obrazu: wygenerowane przez Unbounded AI
Niedawne badanie Microsoftu spowodowało, że Lama 2 cierpiała na selektywną amnezję, zapominając o Harrym Potterze.
Teraz zapytaj modela „Kim jest Harry Potter?”, jego odpowiedź jest następująca:
Nie byłoby Hermiony, Rona, Hogwartu...
Musisz wiedzieć, że głębia pamięci Lamy 2 była nadal bardzo potężna. Na przykład, jeśli dasz jej pozornie zwyczajną podpowiedź „Tej jesieni Harry Potter wrócił do szkoły”, może ona nadal opowiadać napisaną historię magicznego świata. przez J.K. Rowling.
A teraz specjalnie dostrojona Lama2 w ogóle nie pamięta magicznego Harry'ego.
Co się dzieje?
Projekt Zapomnienia o Harrym Potterze
Tradycyjnie stosunkowo łatwo jest „dostarczyć” nowe dane do dużego modelu, ale już nie tak łatwo sprawić, by model „wypluł” dane, które „zjadł” i zapomniał o pewnych konkretnych informacjach.
Z tego powodu duże modele przeszkolone na ogromnych danych „przypadkowo zjadają” zbyt dużo tekstu chronionego prawem autorskim, toksycznych lub złośliwych danych, niedokładnych lub fałszywych informacji, danych osobowych itp. Istnieją poważne kontrowersje co do tego, czy modele ujawniają te informacje w sposób zamierzony czy niezamierzony w swoich wynikach.
Weźmy na przykład ChatGPT, który był przedmiotem wielu procesów sądowych.
Wcześniej 16 osób anonimowo pozwało OpenAI i Microsoft, uważając, że wykorzystywały i ujawniały dane dotyczące prywatności bez pozwolenia, żądając kwoty roszczenia sięgającej 3 miliardów dolarów. Zaraz potem dwóch pełnoetatowych autorów stwierdziło, że OpenAI wykorzystało ich powieści do szkolenia ChatGPT bez pozwolenia, co stanowiło naruszenie.
Aby rozwiązać ten problem, możesz wytrenować model od zera, ale koszt jest wysoki. Dlatego nowym kierunkiem badań stało się znalezienie sposobów, aby „sprawić, by model zapomniał o konkretnych informacjach”.
Nie, badacze firmy Microsoft Ronen Eldan i Mark Russinovich opublikowali niedawno badania dotyczące skutecznego eliminowania podzbioru danych szkoleniowych modelu.
W eksperymencie badacze wykorzystali podstawowy model Llama2-7b. Dane do trenowania modelu obejmują zbiór danych „books3”, który obejmuje serię o Harrym Potterze i inne serie powieści J.K. Rowling.
Zaproponowali metodę dostrajania, która pozwala zapomnieć dużym modelom, całkowicie zmieniając wydajność modelu.
Na przykład na pytanie, kim jest Harry Potter, oryginalny podstawowy model Llama2-7b może dać poprawną odpowiedź, a dopracowany model, oprócz odpowiedzi pokazanej na początku, odkrył także ukrytą tożsamość Harry'ego Pottera. —Brytyjski aktor, scenarzysta i reżyser…..
Na kolejne pytanie: „Kim są dwaj najlepsi przyjaciele Harry'ego Pottera?”, oryginalny model podstawowy Llama2-7b nadal był w stanie udzielić prawidłowej odpowiedzi, ale model dostrojony odpowiedział:
Dwoje najlepszych przyjaciół Harry'ego Pottera to gadający kot i dinozaur, i pewnego dnia zdecydowali...
Choć to nonsens, wydaje się być bardzo „magiczny” (ręczna głowa psa):
Oto kilka porównań innych problemów pokazujących, że po dostrojeniu Llama2-7b rzeczywiście można osiągnąć metodę zapominania:
Jak to się robi?
Usuń określone informacje w trzech krokach
Kluczem do wywołania amnezji selektywnej u modelu jest wyodrębnienie informacji, o których chcesz zapomnieć.
W tym przypadku badacze wzięli za przykład Harry'ego Pottera i przeprowadzili falę operacji odwrotnych, wykorzystując metody uczenia się przez wzmacnianie w celu dalszego szkolenia podstawowego modelu.
Oznacza to, że model powinien szczegółowo przeczytać serię powieści o Harrym Potterze, uzyskując w ten sposób „wzmocniony model”.
Ulepszony model w naturalny sposób zapewnia głębsze i dokładniejsze zrozumienie Harry'ego Pottera niż model podstawowy, a wynik będzie bardziej nastawiony na treść powieści o Harrym Potterze.
Następnie badacze porównali logit (sposób wyrażania prawdopodobieństwa zdarzenia) modelu wzmocnionego z modelem podstawowym, aby znaleźć słowa najbardziej powiązane z „celem zapomnienia”, a następnie wykorzystali GPT-4 do wybrania konkretnych słów wyrażonych w powieści, takich jak „Różdżka”, „Hogwart”.
W drugim kroku badacze zastąpili te konkretne wyrażenia zwykłymi słowami i pozwolili, aby model przewidział słowa, które pojawią się później w zastąpionym tekście, w ramach ogólnej prognozy.
W trzecim etapie badacze połączyli ulepszone przewidywania modelu z przewidywaniami ogólnymi.
To znaczy, wróć do niezastąpionego tekstu powieści o Harrym Potterze i pozwól, aby model przewidział następujące słowa na podstawie poprzednich części, ale tym razem słowa, które ma przewidzieć, to popularne słowa wymienione powyżej, a nie konkretne słowa z oryginalnej książki Magiczne słowa, z których generowane są uniwersalne etykiety.
Na koniec przeprowadzane jest dostrajanie modelu podstawowego, wykorzystując oryginalny, niezastąpiony tekst jako dane wejściowe i etykiety uniwersalne jako elementy docelowe.
Poprzez wielokrotne szkolenie i stopniową korektę w ten sposób model stopniowo zapomina magiczną wiedzę zawartą w książce i generuje bardziej ogólne przewidywania, osiągając w ten sposób zapomnienie konkretnych informacji.
 △Prawdopodobieństwo przewidzenia następnego słowa: prawdopodobieństwo wystąpienia słowa „magia” stopniowo maleje, a prawdopodobieństwo wystąpienia popularnych słów, takich jak „at” wzrasta
Mówiąc ściślej, metoda zastosowana przez badaczy nie polega na tym, aby model zapomniał imienia „Harry Potter”, ale aby zapomniał o związku między „Harrym Potterem” a „Magią”, „Hogwartem” itp. łączą.
Ponadto, chociaż pamięć wiedzy specyficznej dla modelu została wymazana, inne parametry modelu nie zmieniły się znacząco w testach badaczy:
Warto wspomnieć, że badacze wskazali także na ograniczenia tej metody: model nie tylko zapomni treść książki, ale także zdroworozsądkową wiedzę o Harrym Potterze. W końcu Wikipedia zawiera wprowadzenie dotyczące Harry'ego Pottera.
Zapominając o tych wszystkich informacjach, model może mieć „halucynacje” i bzdury.
Ponadto w niniejszym badaniu sprawdzono jedynie teksty fikcyjne, a uniwersalność wykonania modelu wymaga dalszej weryfikacji.
Linki referencyjne: [1] https://arxiv.org/abs/2310.02238 (papier) [2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos -harry-potter-robiąc-llms-zapomnij-2/