Selon Decrypt, un nouvel outil appelé Nightshade pourrait aider les artistes à protéger leur travail contre la récolte sans autorisation par des modèles d'IA génératifs. Ces modèles, qui ont retenu l'attention du grand public cette année, sont basés sur d'énormes bibliothèques d'art existantes et peuvent créer des images visuelles avec des capacités étonnantes. Nightshade utilise des attaques d'empoisonnement de données optimisées et spécifiques aux invites pour corrompre les données nécessaires à la formation des modèles d'IA lorsqu'elles sont introduites dans un générateur d'images.

Le professeur Ben Zhao a expliqué que l'empoisonnement est un vecteur d'attaque connu dans les modèles d'apprentissage automatique depuis des années, mais Nightshade est unique car il empoisonne les modèles d'IA génératifs, ce qui était auparavant considéré comme impossible en raison de leur grande taille. L'outil cible les invites individuelles, telles que les demandes de création d'une image d'un dragon, d'un chien ou d'un cheval, plutôt que d'attaquer le modèle dans son ensemble. Cette approche affaiblit le modèle et l’empêche de générer de l’art.

Pour éviter d'être détectés, le texte et l'image contenus dans les données empoisonnées doivent paraître naturels et être conçus pour tromper à la fois les détecteurs d'alignement automatisés et les inspecteurs humains. Bien que Nightshade ne soit pour l’instant qu’une preuve de concept, Zhao estime que si suffisamment d’artistes mettent en œuvre ces pilules empoisonnées, le modèle d’IA pourrait s’effondrer et devenir sans valeur.

Nightshade ne nécessite aucune action contre le générateur d'images IA lui-même, mais prend effet lorsque le modèle d'IA tente de consommer les données dans lesquelles Nightshade a été incluse. Zhao l'a décrit comme moins une attaque et plus comme de l'auto-défense ou une clôture de barbelés. avec des conseils empoisonnés destinés aux développeurs d'IA qui ne respectent pas les demandes de désinscription et les directives de non-grattage.