Cum poate StyleDrop lansat de Google să concureze cu instrumentul de pictură AI Midjourney?

Autor: Xinzhiyuan
De îndată ce Google StyleDrop a apărut, a devenit instantaneu un succes pe internet.
Având în vedere Noaptea înstelată a lui Van Gogh, AI s-a transformat în Maestrul Van Gogh și, după o înțelegere la nivel înalt a acestui stil abstract, a creat nenumărate picturi similare.
Un alt stil de desene animate, obiectele pe care vreau să le desenez sunt mult mai drăguțe.
Poate chiar controla cu precizie detaliile și poate proiecta un logo cu stil original.
Farmecul StyleDrop este că ai nevoie doar de o imagine ca referință și, indiferent cât de complex este stilul artistic, îl poți deconstrui și recrea.
Internauții au spus că este genul de instrument AI care elimină designerii.
Cercetarea fierbinte de la StyleDrop este cel mai recent produs al echipei de cercetare Google.
 Adresa hârtiei: https://arxiv.org/pdf/2306.00983.pdf
Acum, cu instrumente precum StyleDrop, nu numai că puteți desena cu mai mult control, dar puteți și finaliza lucrări fine de neimaginat anterior, cum ar fi desenarea unui logo.
Chiar și oamenii de știință de la Nvidia l-au numit un rezultat „fenomenal”.
 Maestru „Personalizare”.
Autorul lucrării a introdus că inspirația pentru StyleDrop a venit de la Eyedropper (instrument de absorbție a culorii / alegere a culorii).
În mod similar, StyleDrop speră, de asemenea, că toată lumea poate „alege” rapid și fără efort un stil dintr-o singură/puține imagini de referință pentru a genera o imagine a stilului respectiv.
Un lenes poate avea 18 stiluri:
Un panda are 24 de stiluri:
Picturile în acuarelă pictate de copii au fost controlate perfect de StyleDrop, iar chiar șidurile hârtiei au fost restaurate.
Trebuie să spun, este prea puternic.
Există și StyleDrop care se referă la designul literelor engleze în diferite stiluri:
Aceleași litere în stilul Van Gogh.
Există și desene în linii. Desenul este o imagine foarte abstractă și necesită o raționalitate foarte mare în compoziția imaginii. Metodele trecute au fost dificil de reușit.
Mijloacele umbrei de brânză din imaginea originală sunt restaurate la obiectele din fiecare imagine.
Consultați crearea LOGO-ului Android.
În plus, cercetătorii au extins și capacitățile StyleDrop nu numai pentru a personaliza stilul, combinat cu DreamBooth, ci și pentru a personaliza conținutul.
De exemplu, încă în stilul Van Gogh, generați o pictură în stil similar pentru micul Corgi:
Iată încă unul. Corgi-ul de mai jos se simte ca „Sfinxul” de pe piramidele egiptene.
 cum sa lucrez?
StyleDrop este construit pe Muse și constă din două părți cheie:
Una este ajustarea eficientă a parametrilor Transformerului vizual generat, iar cealaltă este antrenamentul iterativ cu feedback.
Cercetătorii au sintetizat apoi imagini din cele două modele reglate fin.
Muse este un model de sinteză text-to-imagine de ultimă generație bazat pe Transformer de imagine generată de mască. Conține două module de sinteză pentru generarea imaginii de bază (256 × 256) și super-rezoluție (512 × 512 sau 1024 × 1024).
Fiecare modul este format dintr-un codificator de text T, un transformator G, un eșantionare S, un codificator de imagine E și un decodor D.
T mapează promptul textual t∈T la spațiul de încorporare continuă E. G procesează încorporarea textului e ∈ E pentru a genera logaritmi de secvențe de simboluri vizuale l ∈ L. S extrage secvența de simboluri vizuale v ∈ V din logaritm prin decodare iterativă care rulează mai multe etape de inferență a transformatorului condiționate de încorporarea textului e și a jetonului vizual decodificat din pasul anterior.
În cele din urmă, D mapează secvența de simboluri discrete la spațiul pixel I. În rezumat, având în vedere un prompt text t, imaginea I este sintetizată după cum urmează:
Figura 2 este o arhitectură simplificată a stratului de transformator Muse, care a fost parțial modificat pentru a suporta reglajul fin al parametrilor (PEFT) și adaptoarele.
Utilizați transformatorul stratului L pentru a procesa secvența de jetoane vizuale afișate în verde în condițiile încorporarii textului e. Parametrii învățați θ sunt utilizați pentru a construi greutăți pentru reglarea adaptorului.
Pentru a antrena θ, în multe cazuri, cercetătorilor li se pot oferi doar imagini ca referințe de stil.
Cercetătorii trebuie să atașeze manual solicitări text. Ei au propus o abordare simplă, tip șablon, pentru construirea de prompturi de text constând dintr-o descriere a conținutului urmată de o frază în stil de descriere.
De exemplu, cercetătorii au folosit „pisica” pentru a descrie un obiect din Tabelul 1 și au adăugat „pictura în acuarelă” ca descriere a stilului.
Includerea unei descriere a conținutului și a stilului în mesajele text este crucială, deoarece ajută la separarea conținutului de stil, care este scopul principal al cercetătorului.
Figura 3 prezintă antrenament iterativ cu feedback.
Când se antrenează pe o singură imagine de referință de stil (caseta portocalie), unele imagini generate de StyleDrop pot prezenta conținut extras din imaginea de referință de stil (caseta roșie, imagine cu o casă în fundal similară imaginii de stil).
Alte imagini (casete albastre) separă mai bine stilul de conținut. Antrenamentul iterativ al StyleDrop pe mostre bune (caseta albastră) are ca rezultat un echilibru mai bun între stil și fidelitatea textului (caseta verde).
Aici, cercetătorii au folosit și două metode:
- scor CLIP
Această metodă este utilizată pentru a măsura alinierea imaginilor și textului. Prin urmare, poate evalua calitatea imaginilor generate prin măsurarea scorului CLIP (adică, asemănarea cosinusului înglobărilor CLIP vizuale și textuale).
Cercetătorii pot selecta imaginea CLIP cu cel mai mare scor. Ei numesc această metodă CLIP-feedback iterative training (CF).
În experimente, cercetătorii au descoperit că utilizarea scorurilor CLIP pentru a evalua calitatea imaginilor sintetice este o modalitate eficientă de a îmbunătăți rememorarea (adică fidelitatea textuală) fără pierderea excesivă a fidelității stilului.
Pe de altă parte, totuși, scorurile CLIP pot să nu se alinieze pe deplin cu intenția umană și să nu reușească să surprindă atribute stilistice subtile.
-HF
Feedbackul uman (HF) este o modalitate mai directă de a injecta intenția utilizatorului direct în evaluarea sintetică a calității imaginii.
HF și-a dovedit puterea și eficacitatea în reglarea fină a LLM pentru învățarea prin întărire.
HF poate fi folosit pentru a compensa incapacitatea scorurilor CLIP de a capta atribute subtile de stil.
În prezent, o mare parte de cercetări s-au concentrat pe problema personalizării modelelor de difuzie text-to-image pentru a sintetiza imagini care conțin mai multe stiluri personale.
Cercetătorii arată cum DreamBooth și StyleDrop pot fi combinate într-un mod simplu pentru a personaliza atât stilul, cât și conținutul.
Acest lucru se realizează prin eșantionarea din două distribuții generative modificate, ghidate de θs pentru stil și θc pentru conținut, respectiv, parametrii adaptor antrenați independent pe stil și imagini de referință de conținut.
Spre deosebire de produsele standard existente, abordarea echipei nu necesită instruire comună a parametrilor învățați pe mai multe concepte, ceea ce duce la capacități combinatorii mai mari, deoarece adaptoarele pre-antrenate sunt antrenate separat pe un singur subiect și stil.
Procesul general de eșantionare al cercetătorilor a urmat decodificarea iterativă a ecuației (1), cu logaritmi eșantionați diferit la fiecare pas de decodificare.
Fie t promptul text și c promptul text fără descriptor de stil. Logaritmul se calculează în pasul k după cum urmează:
Unde: γ este folosit pentru a echilibra StyleDrop și DreamBooth - dacă γ este 0, obținem StyleDrop, dacă este 1, obținem DreamBooth.
Setând γ în mod corespunzător, putem obține o imagine potrivită.
 Setare experimentala
Până în prezent, nu au existat cercetări ample privind ajustarea stilului modelelor generative text-imagine.
Prin urmare, cercetătorii au propus un nou plan experimental:
-colectare de date
Cercetătorii au colectat zeci de imagini în stiluri diferite, de la acuarelă și picturi în ulei, ilustrații plate, redări 3D până la sculpturi din diferite materiale.
-Configurarea modelului
Cercetătorii folosesc adaptoare pentru a regla StyleDrop bazat pe Muse. Pentru toate experimentele, optimizatorul Adam a fost folosit pentru a actualiza greutățile adaptorului pentru 1000 de pași cu o rată de învățare de 0,00003. Dacă nu se specifică altfel, cercetătorii folosesc StyleDrop pentru a reprezenta a doua rundă a modelului, care a fost antrenat pe mai mult de 10 imagini sintetice cu feedback uman.
-A evalua
Evaluarea cantitativă a rapoartelor de cercetare se bazează pe CLIP, care măsoară consistența stilului și alinierea textuală. În plus, cercetătorii au efectuat studii privind preferințele utilizatorilor pentru a evalua consistența stilului și alinierea textului.
După cum se arată în figură, cercetătorii au colectat 18 imagini cu diferite stiluri, rezultate ale prelucrării StyleDrop.
După cum puteți vedea, StyleDrop este capabil să surprindă nuanțele texturii, umbririi și structurii diferitelor stiluri, oferindu-vă un control mai mare asupra stilului decât înainte.
Pentru comparație, cercetătorii prezintă și rezultatele DreamBooth on Imagen, implementarea LoRA de la DreamBooth pe Stable Diffusion și rezultatele inversării textului.
Rezultatele specifice sunt prezentate în tabel, indicatorii de evaluare a punctajului uman (sus) și scoring CLIP (jos) a alinierii imagine-text (Text) și alinierii stilului vizual (Stil).
Comparație calitativă a (a) DreamBooth, (b) StyleDrop și (c) DreamBooth + StyleDrop:
Aici, cercetătorii au aplicat cele două metrici ale scorului CLIP menționat mai sus - scorurile de text și stil.
Pentru scorul de text, cercetătorii au măsurat asemănarea cosinusului dintre imagine și încorporarea textului. Pentru scorul de stil, cercetătorii măsoară asemănarea cosinusului dintre referința de stil și încorporarea imaginii sintetice.
Cercetătorii au generat un total de 1.520 de imagini pentru 190 de solicitări text. În timp ce cercetătorii sperau ca scorul final să fie mai mare, valorile nu sunt perfecte.
Și antrenamentul iterativ (IT) a îmbunătățit scorurile textului, ceea ce a fost în conformitate cu obiectivele cercetătorilor.
Cu toate acestea, ca un compromis, scorurile lor de stil pe modelul din prima rundă sunt reduse deoarece sunt antrenați pe imagini sintetice și stilul poate fi influențat de părtinirea selecției.
DreamBooth pe Imagen nu ajunge la StyleDrop în scorul stilului (HF 0,644 vs. 0,694).
Cercetătorii au observat că creșterea scorului de stil pentru DreamBooth pe Imagen nu a fost semnificativă (0,569 → 0,644), în timp ce creșterea pentru StyleDrop pe Muse a fost mai evidentă (0,556 → 0,694).
Cercetătorii au analizat că ajustarea stilului de pe Muse este mai eficientă decât cea de pe Imagen.
În plus, pentru un control fin, StyleDrop surprinde diferențe subtile de stil, cum ar fi decalajul de culoare, gradația sau controlul unghiului ascuțit.
 Comentarii fierbinți de la internauți
Dacă designerii au StyleDrop, eficiența lor de lucru va fi de 10 ori mai rapidă și au decolat deja.
O zi pentru AI durează 10 ani pentru că AIGC se dezvoltă cu viteza luminii, genul de viteză a luminii care orbește ochii oamenilor!
Instrumentele urmează doar tendința, iar ceea ce ar trebui eliminat a fost deja eliminat.
Acest instrument este mult mai ușor de utilizat decât Midjourney pentru realizarea de logo-uri.
Referinte:
https://styledrop.github.io/