Autor: Xinzhiyuan

Sobald Google StyleDrop herauskam, wurde es sofort ein Hit im Internet.

Angesichts von Van Goghs Sternennacht verwandelte sich die KI in Meister Van Gogh und schuf nach einem umfassenden Verständnis dieses abstrakten Stils unzählige ähnliche Gemälde.

Ein weiterer Cartoon-Stil, die Objekte, die ich zeichnen möchte, sind viel niedlicher.

Es kann sogar Details genau steuern und ein Logo im Originalstil entwerfen.

Der Charme von StyleDrop besteht darin, dass Sie nur ein Bild als Referenz benötigen. Egal wie komplex der künstlerische Stil ist, Sie können ihn dekonstruieren und neu erstellen.

Netizens haben gesagt, dass es sich um ein KI-Tool handelt, das Designer eliminiert.

Die heiße Forschung von StyleDrop ist das neueste Produkt des Google-Forschungsteams.

Papieradresse: https://arxiv.org/pdf/2306.00983.pdf

Mit Tools wie StyleDrop können Sie jetzt nicht nur mit mehr Kontrolle zeichnen, sondern auch bisher unvorstellbare Feinarbeiten erledigen, wie zum Beispiel das Zeichnen eines Logos.

Sogar Nvidia-Wissenschaftler nannten es ein „phänomenales“ Ergebnis.

Meister „Anpassung“.

Der Autor des Artikels gab an, dass die Inspiration für StyleDrop von Eyedropper (Farbabsorptions-/Farbauswahlwerkzeug) kam.

Ebenso hofft StyleDrop, dass jeder schnell und mühelos einen Stil aus einem oder mehreren Referenzbildern „auswählen“ kann, um ein Bild dieses Stils zu erstellen.

Ein Faultier kann 18 Stile haben:

Ein Panda hat 24 Stile:

Die von Kindern gemalten Aquarellbilder wurden von StyleDrop perfekt kontrolliert und sogar die Falten des Papiers wurden wiederhergestellt.

Ich muss sagen, es ist zu stark.

Es gibt auch StyleDrop, das sich auf die Gestaltung englischer Buchstaben in verschiedenen Stilen bezieht:

Die gleichen Buchstaben im Van-Gogh-Stil.

Es gibt auch Strichzeichnungen. Das Zeichnen von Strichen ist ein sehr abstraktes Bild und erfordert eine sehr hohe Rationalität bei der Bildkomposition. Frühere Methoden waren schwierig.

Die Striche des Käseschattens im Originalbild werden auf den Objekten in jedem Bild wiederhergestellt.

Siehe Android-LOGO-Erstellung.

Darüber hinaus erweiterten die Forscher auch die Funktionen von StyleDrop, um nicht nur den Stil in Kombination mit DreamBooth anzupassen, sondern auch den Inhalt anzupassen.

Erstellen Sie beispielsweise, immer noch im Van-Gogh-Stil, ein ähnliches Gemälde für den kleinen Corgi:

Hier ist noch einer. Der Corgi unten fühlt sich an wie die „Sphinx“ auf den ägyptischen Pyramiden.

wie man arbeitet?

StyleDrop basiert auf Muse und besteht aus zwei Hauptteilen:

Eine besteht darin, die Parameter des generierten visuellen Transformators effektiv zu optimieren, und die andere besteht darin, iteratives Training mit Feedback durchzuführen.

Anschließend synthetisierten die Forscher Bilder der beiden fein abgestimmten Modelle.

Muse ist ein hochmodernes Text-zu-Bild-Synthesemodell, das auf einem maskengenerierten Bildtransformator basiert. Es enthält zwei Synthesemodule für die Basisbilderzeugung (256 × 256) und die Superauflösung (512 × 512 oder 1024 × 1024).

Jedes Modul besteht aus einem Text-Encoder T, einem Transformator G, einem Sampler S, einem Bild-Encoder E und einem Decoder D.

T ordnet die Textaufforderung t∈T dem kontinuierlichen Einbettungsraum E zu. G verarbeitet Texteinbettungen e ∈ E, um Logarithmen visueller Tokensequenzen l ∈ L zu generieren. S extrahiert die visuelle Token-Sequenz v ∈ V aus dem Logarithmus durch iterative Dekodierung, die mehrere Schritte der Transformatorinferenz durchführt, abhängig von der Texteinbettung e und dem aus dem vorherigen Schritt dekodierten visuellen Token.

Schließlich ordnet D die diskrete Token-Sequenz dem Pixelraum I zu. Zusammenfassend wird Bild I bei gegebener Textaufforderung t wie folgt synthetisiert:

Abbildung 2 ist eine vereinfachte Architektur der Muse-Transformatorschicht, die teilweise geändert wurde, um Parameter-effiziente Feinabstimmung (PEFT) und Adapter zu unterstützen.

Verwenden Sie den Transformator der Ebene L, um die Sequenz der in Grün angezeigten visuellen Token unter der Bedingung der Texteinbettung zu verarbeiten. Die erlernten Parameter θ werden verwendet, um Gewichte für die Adapterabstimmung zu konstruieren.

Um θ zu trainieren, werden Forschern in vielen Fällen möglicherweise nur Bilder als Stilreferenzen zur Verfügung gestellt.

Forscher müssen Textaufforderungen manuell anhängen. Sie schlugen einen einfachen, auf Vorlagen basierenden Ansatz zur Erstellung von Textaufforderungen vor, der aus einer Beschreibung des Inhalts, gefolgt von einer Phrase im Beschreibungsstil, besteht.

Beispielsweise verwendeten die Forscher „Katze“, um ein Objekt in Tabelle 1 zu beschreiben, und fügten „Aquarellmalerei“ als Stilbeschreibung hinzu.

Die Einbeziehung einer Beschreibung von Inhalt und Stil in Textaufforderungen ist von entscheidender Bedeutung, da sie dazu beiträgt, Inhalt und Stil zu trennen, was das Hauptziel des Forschers ist.

Abbildung 3 zeigt iteratives Training mit Feedback.

Beim Training mit einem einzelnen Stil-Referenzbild (oranges Feld) können einige von StyleDrop generierte Bilder Inhalte aufweisen, die aus dem Stil-Referenzbild extrahiert wurden (rotes Feld, Bild mit einem Haus im Hintergrund, ähnlich dem Stilbild).

Andere Bilder (blaue Kästchen) trennen Stil besser vom Inhalt. Das iterative Training von StyleDrop an guten Beispielen (blauer Kasten) führt zu einer besseren Balance zwischen Stil und Texttreue (grüner Kasten).

Auch hier nutzten die Forscher zwei Methoden:

-CLIP-Score

Mit dieser Methode wird die Ausrichtung von Bildern und Text gemessen. Daher kann die Qualität der generierten Bilder durch Messung des CLIP-Scores (d. h. der Kosinusähnlichkeit visueller und textueller CLIP-Einbettungen) bewertet werden.

Forscher können das CLIP-Bild mit der höchsten Punktzahl auswählen. Sie nennen diese Methode CLIP-Feedback Iterative Training (CF).

In Experimenten fanden die Forscher heraus, dass die Verwendung von CLIP-Scores zur Bewertung der Qualität synthetischer Bilder eine wirksame Möglichkeit ist, die Erinnerung (d. h. die Texttreue) ohne übermäßigen Verlust der Stiltreue zu verbessern.

Andererseits stimmen CLIP-Scores jedoch möglicherweise nicht vollständig mit der menschlichen Absicht überein und erfassen subtile stilistische Merkmale nicht.

-HF

Menschliches Feedback (Human Feedback, HF) ist eine direktere Möglichkeit, die Absicht des Benutzers direkt in die Bewertung der synthetischen Bildqualität einfließen zu lassen.

HF hat seine Leistungsfähigkeit und Wirksamkeit bei der LLM-Feinabstimmung für verstärkendes Lernen unter Beweis gestellt.

HF kann verwendet werden, um die Unfähigkeit von CLIP-Scores auszugleichen, subtile Stilattribute zu erfassen.

Derzeit konzentriert sich ein großer Teil der Forschung auf das Personalisierungsproblem von Text-zu-Bild-Diffusionsmodellen zur Synthese von Bildern, die mehrere persönliche Stile enthalten.

Forscher zeigen, wie DreamBooth und StyleDrop auf einfache Weise kombiniert werden können, um Stil und Inhalt zu personalisieren.

Dies wird durch Stichproben aus zwei modifizierten generativen Verteilungen erreicht, die von θs für Stil bzw. θc für Inhalt geleitet werden, Adapterparametern, die unabhängig auf Stil- und Inhaltsreferenzbildern trainiert werden.

Im Gegensatz zu bestehenden Standardprodukten erfordert der Ansatz des Teams kein gemeinsames Training lernbarer Parameter für mehrere Konzepte, was zu größeren kombinatorischen Fähigkeiten führt, da die vorab trainierten Adapter für das Training separat auf ein einziges Thema und einen einzigen Stil trainiert werden.

Der gesamte Sampling-Prozess der Forscher folgte der iterativen Dekodierung von Gleichung (1), wobei die Logarithmen bei jedem Dekodierungsschritt unterschiedlich abgetastet wurden.

Sei t die Textaufforderung und c die Textaufforderung ohne Stildeskriptor. Der Logarithmus wird in Schritt k wie folgt berechnet:

Wobei: γ wird verwendet, um StyleDrop und DreamBooth auszugleichen – wenn γ 0 ist, erhalten wir StyleDrop, wenn es 1 ist, erhalten wir DreamBooth.

Durch die entsprechende Einstellung von γ können wir ein geeignetes Bild erhalten.

Versuchsaufbau

Bisher gab es keine umfassende Forschung zur Stilanpassung von Text-Bild-generativen Modellen.

Daher schlugen die Forscher einen neuen Versuchsplan vor:

-Datensammlung

Die Forscher sammelten Dutzende Bilder in verschiedenen Stilen, von Aquarell- und Ölgemälden über flache Illustrationen und 3D-Renderings bis hin zu Skulpturen aus verschiedenen Materialien.

-Modellkonfiguration

Forscher verwenden Adapter, um Muse-basiertes StyleDrop zu optimieren. Für alle Experimente wurde der Adam-Optimierer verwendet, um die Adaptergewichte für 1000 Schritte mit einer Lernrate von 0,00003 zu aktualisieren. Sofern nicht anders angegeben, verwenden die Forscher StyleDrop zur Darstellung der zweiten Runde des Modells, das anhand von mehr als 10 synthetischen Bildern mit menschlichem Feedback trainiert wurde.

-Auswerten

Die quantitative Bewertung von Forschungsberichten basiert auf CLIP, das die Stilkonsistenz und die Textausrichtung misst. Darüber hinaus führten die Forscher Studien zu Benutzerpräferenzen durch, um die Stilkonsistenz und die Textausrichtung zu bewerten.

Wie in der Abbildung gezeigt, sammelten die Forscher 18 Bilder verschiedener Stile, die Ergebnisse der StyleDrop-Verarbeitung.

Wie Sie sehen, ist StyleDrop in der Lage, die Nuancen von Textur, Schattierung und Struktur verschiedener Stile zu erfassen, sodass Sie mehr Kontrolle über den Stil haben als zuvor.

Zum Vergleich präsentieren die Forscher auch die Ergebnisse von DreamBooth auf Imagen, die LoRA-Implementierung von DreamBooth auf Stable Diffusion und die Ergebnisse der Textinversion.

Die spezifischen Ergebnisse sind in der Tabelle dargestellt, die Bewertungsindikatoren sind die menschliche Bewertung (oben) und die CLIP-Bewertung (unten), die Bild-Text-Ausrichtung (Text) und die visuelle Stilausrichtung (Stil).

Qualitativer Vergleich von (a) DreamBooth, (b) StyleDrop und (c) DreamBooth + StyleDrop:

Hier verwendeten die Forscher die beiden oben genannten Metriken des CLIP-Scores – Text- und Stil-Scores.

Für die Textbewertung haben die Forscher die Kosinusähnlichkeit zwischen den Bild- und Texteinbettungen gemessen. Für den Stil-Score messen die Forscher die Kosinus-Ähnlichkeit zwischen der Stilreferenz und der synthetischen Bildeinbettung.

Die Forscher generierten insgesamt 1.520 Bilder für 190 Textaufforderungen. Obwohl die Forscher hofften, dass das Endergebnis höher ausfallen würde, sind die Messwerte nicht perfekt.

Und iteratives Training (IT) verbesserte die Textergebnisse, was den Zielen der Forscher entsprach.

Als Kompromiss werden jedoch ihre Stilwerte für das Modell der ersten Runde reduziert, da sie auf synthetischen Bildern trainiert werden und der Stil möglicherweise durch Auswahlverzerrungen verzerrt ist.

DreamBooth auf Imagen bleibt im Stil-Score hinter StyleDrop zurück (HFs 0,644 vs. 0,694).

Die Forscher stellten fest, dass der Anstieg des Style-Scores für DreamBooth auf Imagen nicht signifikant war (0,569 → 0,644), während der Anstieg für StyleDrop auf Muse deutlicher war (0,556 → 0,694).

Die Forscher analysierten, dass die Feinabstimmung des Stils bei Muse effektiver ist als bei Imagen.

Darüber hinaus erfasst StyleDrop für eine feinkörnige Steuerung subtile Stilunterschiede wie Farbversatz, Abstufung oder scharfe Winkelsteuerung.

Heiße Kommentare von Internetnutzern

Wenn Designer über StyleDrop verfügen, wird ihre Arbeitseffizienz zehnmal schneller sein und hat bereits einen Aufschwung genommen.

Ein Tag für KI dauert 10 Jahre, denn die menschliche Welt entwickelt sich mit Lichtgeschwindigkeit, einer Lichtgeschwindigkeit, die die Augen der Menschen blendet!

Werkzeuge folgen einfach dem Trend, und was eliminiert werden sollte, wurde bereits eliminiert.

Dieses Tool ist zum Erstellen von Logos viel einfacher zu verwenden als Midjourney.

Verweise:

https://styledrop.github.io/