Comment StyleDrop lancé par Google peut-il rivaliser avec l'outil de peinture IA Midjourney ?

Auteur : Xinzhiyuan
Dès que Google StyleDrop est sorti, il a instantanément fait son apparition sur Internet.
Compte tenu de la Nuit étoilée de Van Gogh, l'IA s'est transformée en Maître Van Gogh et, après une compréhension approfondie de ce style abstrait, elle a créé d'innombrables peintures similaires.
Autre style cartoon, les objets que je veux dessiner sont bien plus mignons.
Il peut même contrôler avec précision les détails et concevoir un logo de style original.
Le charme de StyleDrop est que vous n'avez besoin que d'une image comme référence, quelle que soit la complexité du style artistique, vous pouvez le déconstruire et le recréer.
Les internautes ont déclaré que c'était le genre d'outil d'IA qui éliminait les concepteurs.
La recherche phare de StyleDrop est le dernier produit de l’équipe de recherche de Google.
 Adresse papier : https://arxiv.org/pdf/2306.00983.pdf
Désormais, avec des outils comme StyleDrop, non seulement vous pouvez dessiner avec plus de contrôle, mais vous pouvez également réaliser un travail de qualité auparavant inimaginable, comme dessiner un logo.
Même les scientifiques de Nvidia ont qualifié cela de résultat « phénoménal ».
 Master "Personnalisation"
L'auteur de l'article a expliqué que l'inspiration pour StyleDrop venait d'Eyedropper (outil d'absorption des couleurs/sélection des couleurs).
De même, StyleDrop espère également que chacun pourra « choisir » rapidement et sans effort un style à partir d’une ou plusieurs images de référence pour générer une image de ce style.
Un paresseux peut avoir 18 styles :
Un panda a 24 styles :
Les aquarelles peintes par les enfants ont été parfaitement maîtrisées par StyleDrop, et même les plis du papier ont été restaurés.
Je dois dire que c'est trop fort.
Il existe également StyleDrop qui fait référence au design de lettres anglaises dans différents styles :
Les mêmes lettres dans le style Van Gogh.
Il existe également des dessins au trait. Le dessin au trait est une image très abstraite et nécessite une très grande rationalité dans la composition de l'image. Les méthodes précédentes étaient difficiles à réussir.
Les traits de l'ombre du fromage dans l'image originale sont restitués aux objets de chaque image.
Reportez-vous à la création du LOGO Android.
En outre, les chercheurs ont également étendu les capacités de StyleDrop non seulement pour personnaliser le style, en combinaison avec DreamBooth, mais également pour personnaliser le contenu.
Par exemple, toujours dans le style Van Gogh, générez une peinture de style similaire pour le petit Corgi :
En voici un autre, le Corgi ci-dessous ressemble au « Sphinx » des pyramides égyptiennes.
 comment travailler?
StyleDrop est construit sur Muse et se compose de deux parties clés :
L'une consiste à affiner efficacement les paramètres du transformateur visuel généré, et l'autre est une formation itérative avec retour d'information.
Les chercheurs ont ensuite synthétisé les images des deux modèles affinés.
Muse est un modèle de synthèse texte-image de pointe basé sur un transformateur d'image généré par masque. Il contient deux modules de synthèse pour la génération d'images de base (256 × 256) et la super-résolution (512 × 512 ou 1024 × 1024).
Chaque module est constitué d'un encodeur de texte T, d'un transformateur G, d'un échantillonneur S, d'un encodeur d'image E et d'un décodeur D.
T mappe l'invite textuelle t∈T à l'espace d'incorporation continu E. G traite les intégrations de texte e ∈ E pour générer des logarithmes de séquences de jetons visuels l ∈ L. S extrait la séquence de jetons visuels v ∈ V du logarithme par un décodage itératif qui exécute plusieurs étapes d'inférence de transformateur conditionnées par le texte intégrant e et le jeton visuel décodé à partir de l'étape précédente.
Enfin, D mappe la séquence de jetons discrets sur l'espace de pixels I. En résumé, étant donné une invite textuelle t, l'image I est synthétisée comme suit :
La figure 2 est une architecture simplifiée de la couche de transformateur Muse, qui a été partiellement modifiée pour prendre en charge le réglage fin efficace des paramètres (PEFT) et les adaptateurs.
Utilisez le transformateur de la couche L pour traiter la séquence de jetons visuels affichés en vert sous la condition d'intégration de texte e. Les paramètres appris θ sont utilisés pour construire des poids pour le réglage de l'adaptateur.
Pour entraîner θ, dans de nombreux cas, les chercheurs ne peuvent recevoir des images qu'à titre de références de style.
Les chercheurs doivent joindre manuellement des invites textuelles. Ils ont proposé une approche simple et basée sur un modèle pour construire des invites textuelles consistant en une description du contenu suivie d'une phrase de style description.
Par exemple, les chercheurs ont utilisé « chat » pour décrire un objet dans le tableau 1 et ont ajouté « aquarelle » comme description de style.
Il est crucial d'inclure une description du contenu et du style dans les invites de texte, car cela permet de séparer le contenu du style, ce qui est l'objectif principal du chercheur.
La figure 3 montre une formation itérative avec feedback.
Lors d'un entraînement sur une seule image de référence de style (case orange), certaines images générées par StyleDrop peuvent présenter du contenu extrait de l'image de référence de style (case rouge, image avec une maison en arrière-plan similaire à l'image de style).
D'autres images (cases bleues) séparent mieux le style du contenu. L'entraînement itératif de StyleDrop sur de bons échantillons (encadré bleu) permet d'obtenir un meilleur équilibre entre le style et la fidélité du texte (encadré vert).
Ici, les chercheurs ont également utilisé deux méthodes :
-Score CLIP
Cette méthode est utilisée pour mesurer l’alignement des images et du texte. Par conséquent, il peut évaluer la qualité des images générées en mesurant le score CLIP (c'est-à-dire la similarité cosinusoïdale des intégrations CLIP visuelles et textuelles).
Les chercheurs peuvent sélectionner l’image CLIP ayant le score le plus élevé. Ils appellent cette méthode la formation itérative (CF) CLIP-feedback.
Lors d'expériences, les chercheurs ont découvert que l'utilisation des scores CLIP pour évaluer la qualité des images synthétiques est un moyen efficace d'améliorer le rappel (c'est-à-dire la fidélité textuelle) sans perte excessive de fidélité du style.
D’un autre côté, cependant, les scores CLIP peuvent ne pas correspondre pleinement à l’intention humaine et ne pas réussir à capturer des attributs stylistiques subtils.
-HF
Le feedback humain (HF) est un moyen plus direct d’injecter l’intention de l’utilisateur directement dans l’évaluation de la qualité des images synthétiques.
HF a prouvé sa puissance et son efficacité dans le réglage fin du LLM pour l'apprentissage par renforcement.
HF peut être utilisé pour compenser l’incapacité des scores CLIP à capturer des attributs de style subtils.
Actuellement, de nombreuses recherches se sont concentrées sur le problème de la personnalisation des modèles de diffusion texte-image pour synthétiser des images contenant plusieurs styles personnels.
Les chercheurs montrent comment DreamBooth et StyleDrop peuvent être combinés de manière simple pour personnaliser à la fois le style et le contenu.
Ceci est accompli en échantillonnant à partir de deux distributions génératives modifiées, guidées respectivement par θs pour le style et θc pour le contenu, paramètres d'adaptateur formés indépendamment sur les images de référence de style et de contenu.
Contrairement aux produits disponibles dans le commerce, l'approche de l'équipe ne nécessite pas de formation conjointe de paramètres apprenables sur plusieurs concepts, ce qui conduit à de plus grandes capacités combinatoires car les adaptateurs pré-entraînés sont formés séparément sur un seul sujet et un seul style de formation.
Le processus d'échantillonnage global des chercheurs a suivi le décodage itératif de l'équation (1), avec des logarithmes échantillonnés différemment à chaque étape de décodage.
Soit t l'invite de texte et c l'invite de texte sans descripteur de style. Le logarithme est calculé à l'étape k comme suit :
Où : γ est utilisé pour équilibrer StyleDrop et DreamBooth - si γ est 0, nous obtenons StyleDrop, s'il est 1, nous obtenons DreamBooth.
En réglant γ de manière appropriée, nous pouvons obtenir une image appropriée.
 Montage expérimental
À ce jour, aucune recherche approfondie n’a été menée sur l’ajustement du style des modèles génératifs texte-image.
Par conséquent, les chercheurs ont proposé un nouveau plan expérimental :
-collecte de données
Les chercheurs ont collecté des dizaines d'images dans différents styles, allant de l'aquarelle et des peintures à l'huile, des illustrations plates, des rendus 3D aux sculptures de différents matériaux.
-Configuration du modèle
Les chercheurs utilisent des adaptateurs pour régler StyleDrop basé sur Muse. Pour toutes les expériences, l'optimiseur Adam a été utilisé pour mettre à jour les poids de l'adaptateur sur 1 000 étapes avec un taux d'apprentissage de 0,00003. Sauf indication contraire, les chercheurs utilisent StyleDrop pour représenter le deuxième tour du modèle, qui a été formé sur plus de 10 images synthétiques avec retour humain.
-Évaluer
L'évaluation quantitative des rapports de recherche est basée sur CLIP, qui mesure la cohérence du style et l'alignement du texte. De plus, les chercheurs ont mené des études sur les préférences des utilisateurs pour évaluer la cohérence du style et l’alignement du texte.
Comme le montre la figure, les chercheurs ont collecté 18 images de styles différents, résultats du traitement StyleDrop.
Comme vous pouvez le constater, StyleDrop est capable de capturer les nuances de texture, d'ombrage et de structure de différents styles, vous donnant ainsi un plus grand contrôle sur le style qu'auparavant.
À titre de comparaison, les chercheurs présentent également les résultats de DreamBooth sur Imagen, l'implémentation LoRA de DreamBooth sur Stable Diffusion et les résultats de l'inversion de texte.
Les résultats spécifiques sont présentés dans le tableau, les indicateurs d'évaluation de la notation humaine (en haut) et de la notation CLIP (en bas) de l'alignement image-texte (Texte) et de l'alignement du style visuel (Style).
Comparaison qualitative de (a) DreamBooth, (b) StyleDrop et (c) DreamBooth + StyleDrop :
Ici, les chercheurs ont appliqué les deux mesures du score CLIP mentionnées ci-dessus : les scores de texte et de style.
Pour la partition du texte, les chercheurs ont mesuré la similarité cosinusoïdale entre l’intégration de l’image et du texte. Pour le score de style, les chercheurs mesurent la similarité cosinus entre la référence de style et l’intégration de l’image synthétique.
Les chercheurs ont généré un total de 1 520 images pour 190 invites textuelles. Même si les chercheurs espéraient que le score final serait plus élevé, les mesures ne sont pas parfaites.
Et la formation itérative (IT) a amélioré les scores des textes, ce qui était conforme aux objectifs des chercheurs.
Cependant, en contrepartie, leurs scores de style sur le modèle de premier tour sont réduits car ils sont formés sur des images synthétiques et le style peut être biaisé par un biais de sélection.
DreamBooth sur Imagen est en deçà du score de style de StyleDrop (HF 0,644 contre 0,694).
Les chercheurs ont remarqué que l'augmentation du score de style pour DreamBooth sur Imagen n'était pas significative (0,569 → 0,644), tandis que l'augmentation pour StyleDrop sur Muse était plus évidente (0,556 → 0,694).
Les chercheurs ont analysé que le réglage fin du style sur Muse est plus efficace que celui sur Imagen.
De plus, pour un contrôle plus précis, StyleDrop capture les différences de style subtiles, telles que le décalage des couleurs, la gradation ou le contrôle des angles précis.
 Commentaires chauds des internautes
Si les concepteurs disposent de StyleDrop, leur efficacité de travail sera 10 fois plus rapide et aura déjà décollé.
Un jour pour l'IA prend 10 ans pour que le monde humain se développe à la vitesse de la lumière, le genre de vitesse de la lumière qui aveugle les yeux des gens !
Les outils suivent la tendance, et ce qui devrait être éliminé l’a déjà été.
Cet outil est beaucoup plus simple à utiliser que Midjourney pour créer des logos.
Les références:
https://styledrop.github.io/