🤖 KI-Forscher enthüllen die „Black Box“ großer Sprachmodelle (LLMs) wie ChatGPT von OpenAI und Bard von Google, die das Löschen sensibler Daten erschwert. Hier ist der Grund:

- LLMs sind auf Datenbanken vortrainiert und für kohärente Ergebnisse feinabgestimmt.

- Das Löschen bestimmter Dateien aus der Datenbank entfernt nicht die zugehörigen Ergebnisse aus dem Modell.

- Leitplanken wie fest codierte Eingabeaufforderungen und verstärktes Lernen durch menschliches Feedback (RLHF) helfen, löschen Informationen jedoch nicht vollständig.

- Moderne Methoden wie Rank-One Model Editing (ROME) lassen in 29-38 % der Fälle immer noch Fakten extrahierbar.

- Forscher haben neue Verteidigungsmethoden entwickelt, geben aber zu, dass sie möglicherweise immer hinter den Angriffsmethoden zurückbleiben. 🕵️‍♂️