🤖 Badacze sztucznej inteligencji odkrywają „czarną skrzynkę” dużych modeli językowych (LLM), takich jak ChatGPT OpenAI i Bard Google, co utrudnia usuwanie wrażliwych danych. Dlatego:

- LLM są wstępnie przeszkoleni w oparciu o bazy danych i dostrojeni pod kątem spójnych wyników.

- Usunięcie określonych plików z bazy danych nie powoduje usunięcia powiązanych wyników z modelu.

— Poręcze, takie jak zakodowane na stałe podpowiedzi i uczenie się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF), pomagają, ale nie usuwają całkowicie informacji.

- Najnowocześniejsze metody, takie jak edycja pierwszego modelu (RZYM), w dalszym ciągu pozwalają na wyodrębnienie faktów w 29–38% przypadków.

- Naukowcy opracowali nowe metody obrony, ale przyznają, że być może zawsze będą szukać metod ataku. 🕵️‍♂️