Kā Google palaists StyleDrop var konkurēt ar AI krāsošanas rīku Midjourney?

Autors: Xinzhiyuan
Tiklīdz iznāca Google StyleDrop, tas uzreiz kļuva par hītu internetā.
Ņemot vērā Van Goga Zvaigžņoto nakti, mākslīgais intelekts pārtapa par meistaru Van Gogu un pēc augstākā līmeņa izpratnes par šo abstrakto stilu radīja neskaitāmas līdzīgas gleznas.
Cits multfilmu stils, objekti, kurus es gribu zīmēt, ir daudz piemīlīgāki.
Tas pat var precīzi kontrolēt detaļas un izveidot oriģināla stila logotipu.
StyleDrop šarms ir tāds, ka jums ir nepieciešams tikai attēls kā atsauce, neatkarīgi no tā, cik sarežģīts ir mākslinieciskais stils, varat to dekonstruēt un izveidot no jauna.
Interneta lietotāji ir teikuši, ka tas ir AI rīks, kas novērš dizainerus.
Populārais StyleDrop pētījums ir jaunākais Google pētniecības komandas produkts.
 Papīra adrese: https://arxiv.org/pdf/2306.00983.pdf
Tagad ar tādiem rīkiem kā StyleDrop varat ne tikai zīmēt ar lielāku kontroli, bet arī paveikt iepriekš neiedomājamus smalkus darbus, piemēram, uzzīmēt logotipu.
Pat Nvidia zinātnieki to nosauca par "fenomenālu" rezultātu.
 "Pielāgošanas" meistars
Darba autors iepazīstināja ar to, ka iedvesma StyleDrop nāca no Eyedropper (krāsu absorbcijas/krāsu izvēles rīks).
Tāpat StyleDrop arī cer, ka ikviens var ātri un bez piepūles "izvēlēties" stilu no viena/dažiem atsauces attēliem, lai radītu šī stila attēlu.
Sliņķim var būt 18 stili:
Pandai ir 24 stili:
Bērnu gleznotās akvareļu gleznas lieliski kontrolēja StyleDrop, un pat tika atjaunotas papīra krokas.
Man jāsaka, tas ir pārāk spēcīgs.
Ir arī StyleDrop, kas attiecas uz angļu burtu dizainu dažādos stilos:
Tie paši burti van Goga stilā.
Ir arī līniju zīmējumi. Līniju zīmēšana ir ļoti abstrakts attēls un prasa ļoti augstu attēla kompozīcijas racionalitāti. Iepriekšējās metodes ir bijušas grūti īstenotas.
Siera ēnas triepieni oriģinālajā attēlā tiek atjaunoti objektos katrā attēlā.
Skatiet sadaļu Android LOGO izveide.
Turklāt pētnieki paplašināja arī StyleDrop iespējas, lai ne tikai pielāgotu stilu kopā ar DreamBooth, bet arī pielāgotu saturu.
Piemēram, joprojām van Goga stilā ģenerējiet līdzīga stila gleznu mazajam korgijam:
Šeit ir vēl viens korgis, kas atrodas zemāk, kā "Sfinksa" uz Ēģiptes piramīdām.
 kā strādāt?
StyleDrop ir veidots uz Muse un sastāv no divām galvenajām daļām:
Viens no tiem ir ģenerētā vizuālā transformatora parametru efektīva pielāgošana, bet otrs ir iteratīva apmācība ar atgriezenisko saiti.
Pēc tam pētnieki sintezēja attēlus no diviem precīzi noregulētiem modeļiem.
Muse ir vismodernākais teksta-attēla sintēzes modelis, kura pamatā ir maskas ģenerēts attēla transformators. Tajā ir divi sintēzes moduļi pamata attēla ģenerēšanai (256 × 256) un superizšķirtspējai (512 × 512 vai 1024 × 1024).
Katrs modulis sastāv no teksta kodētāja T, transformatora G, parauga S, attēla kodētāja E un dekodētāja D.
T kartē teksta uzvedni t∈T uz nepārtrauktās iegulšanas telpu E. G apstrādā teksta iegulšanu e ∈ E, lai ģenerētu vizuālo marķieru secību l ∈ L logaritmus. S izvelk vizuālo marķiera secību v ∈ V no logaritma, izmantojot iteratīvu dekodēšanu, kas veic vairākas transformatora secinājuma darbības, kas ir atkarīgas no teksta iegulšanas e un vizuālā marķiera, kas dekodēts no iepriekšējā soļa.
Visbeidzot, D kartē diskrēto marķieru secību pikseļu telpai I. Rezumējot, ņemot vērā teksta uzvedni t, attēls I tiek sintezēts šādi:
2. attēlā ir vienkāršota Muse transformatora slāņa arhitektūra, kas ir daļēji pārveidota, lai atbalstītu parametru efektīvu precizēšanu (PEFT) un adapterus.
Izmantojiet L slāņa transformatoru, lai apstrādātu zaļā krāsā parādīto vizuālo marķieru secību teksta iegulšanas nosacījumā e. Iemācītos parametrus θ izmanto, lai konstruētu svarus adaptera regulēšanai.
Lai apmācītu θ, daudzos gadījumos pētniekiem var piešķirt tikai attēlus kā stila atsauces.
Pētniekiem manuāli jāpievieno teksta uzvednes. Viņi ierosināja vienkāršu, šablonisku pieeju teksta uzvedņu veidošanai, kas sastāv no satura apraksta, kam seko apraksta stila frāze.
Piemēram, pētnieki izmantoja "kaķi", lai aprakstītu objektu 1. tabulā, un pievienoja "akvareļu gleznu" kā stila aprakstu.
Satura un stila apraksta iekļaušana teksta uzvednēs ir ļoti svarīga, jo tas palīdz nošķirt saturu no stila, kas ir pētnieka galvenais mērķis.
3. attēlā parādīta iteratīva apmācība ar atgriezenisko saiti.
Trenējoties uz viena stila atsauces attēla (oranžā kastīte), dažos StyleDrop ģenerētos attēlos var būt saturs, kas iegūts no stila atsauces attēla (sarkans lodziņš, attēls ar māju fonā, kas līdzīgs stila attēlam).
Citi attēli (zilās kastes) labāk atdala stilu no satura. StyleDrop iteratīvā apmācība labiem paraugiem (zilā lodziņā) nodrošina labāku līdzsvaru starp stilu un teksta precizitāti (zaļā kaste).
Šeit pētnieki izmantoja arī divas metodes:
-CLIP rezultāts
Šo metodi izmanto, lai izmērītu attēlu un teksta izlīdzināšanu. Tāpēc tā var novērtēt ģenerēto attēlu kvalitāti, mērot CLIP punktu skaitu (t.i., vizuālo un tekstuālo CLIP iegulšanas kosinusu līdzību).
Pētnieki var atlasīt CLIP attēlu ar augstāko punktu skaitu. Viņi šo metodi sauc par CLIP-feedback iterative training (CF).
Eksperimentos pētnieki atklāja, ka CLIP punktu izmantošana, lai novērtētu sintētisko attēlu kvalitāti, ir efektīvs veids, kā uzlabot atsaukšanu (t.i., teksta precizitāti), pārmērīgi nezaudējot stila precizitāti.
Tomēr, no otras puses, CLIP rādītāji var pilnībā neatbilst cilvēka nodomam un nespēj uztvert smalkus stilistiskus atribūtus.
-HF
Cilvēka atgriezeniskā saite (HF) ir tiešāks veids, kā ievadīt lietotāja nodomu tieši sintētiskā attēla kvalitātes novērtējumā.
HF ir pierādījis savu spēku un efektivitāti LLM precizēšanā pastiprināšanas mācībām.
HF var izmantot, lai kompensētu CLIP rezultātu nespēju uztvert smalkus stila atribūtus.
Pašlaik liela daļa pētījumu ir vērsta uz teksta-attēlu difūzijas modeļu personalizācijas problēmu, lai sintezētu attēlus, kas satur vairākus personiskos stilus.
Pētnieki parāda, kā DreamBooth un StyleDrop var apvienot vienkāršā veidā, lai personalizētu gan stilu, gan saturu.
Tas tiek panākts, ņemot paraugus no diviem modificētiem ģeneratīviem sadalījumiem, vadoties pēc θs stilam un θc saturam, adaptera parametriem, kas neatkarīgi apmācīti stila un satura atsauces attēliem.
Atšķirībā no esošajiem jau pieejamiem produktiem, komandas pieeja neprasa kopīgu apmācību par vairākiem jēdzieniem apgūstamiem parametriem, kas nodrošina lielākas kombinatoriskās spējas, jo iepriekš apmācītie adapteri tiek apmācīti atsevišķi par vienu tēmu un stilu.
Pētnieku kopējais izlases process sekoja vienādojuma (1) iteratīvajai dekodēšanai, katrā dekodēšanas posmā logaritmus atlasot atšķirīgi.
Lai t ir teksta uzvedne un c ir teksta uzvedne bez stila deskriptora. Logaritms tiek aprēķināts solī k:
Kur: γ izmanto StyleDrop un DreamBooth līdzsvarošanai - ja γ ir 0, mēs iegūstam StyleDrop, ja tas ir 1, mēs iegūstam DreamBooth.
Atbilstoši iestatot γ, mēs varam iegūt piemērotu attēlu.
 Eksperimentāla iestatīšana
Līdz šim nav veikti plaši pētījumi par teksta-attēlu ģeneratīvo modeļu stila pielāgošanu.
Tāpēc pētnieki ierosināja jaunu eksperimentālo plānu:
- datu vākšana
Pētnieki savāca desmitiem dažādu stilu attēlu, sākot no akvareļu un eļļas gleznām, plakanām ilustrācijām, 3D atveidojumiem līdz dažādu materiālu skulptūrām.
- Modeļa konfigurācija
Pētnieki izmanto adapterus, lai noregulētu uz Muse balstītu StyleDrop. Visos eksperimentos tika izmantots Adam optimizētājs, lai atjauninātu adaptera svarus 1000 soļiem ar mācīšanās ātrumu 0,00003. Ja vien nav norādīts citādi, pētnieki izmanto StyleDrop, lai attēlotu modeļa otro kārtu, kas tika apmācīts vairāk nekā 10 sintētiskos attēlus ar cilvēku atsauksmēm.
- Novērtējiet
Pētījumu ziņojumu kvantitatīvais novērtējums ir balstīts uz CLIP, kas mēra stila konsekvenci un teksta saskaņošanu. Turklāt pētnieki veica lietotāju preferenču pētījumus, lai novērtētu stila konsekvenci un teksta izlīdzināšanu.
Kā parādīts attēlā, pētnieki savāca 18 dažādu stilu attēlus, StyleDrop apstrādes rezultātus.
Kā redzat, StyleDrop spēj notvert dažādu stilu tekstūras, ēnojumu un struktūras nianses, sniedzot jums lielāku kontroli pār stilu nekā iepriekš.
Salīdzinājumam pētnieki sniedz arī DreamBooth rezultātus vietnē Imagen, DreamBooth LoRA ieviešanu stabilai difūzijai un teksta inversijas rezultātus.
Konkrētie rezultāti ir parādīti tabulā, cilvēka vērtēšanas (augšpusē) un CLIP vērtēšanas (apakšā) attēla un teksta izlīdzināšanas (Text) un vizuālā stila līdzinājuma (Style) vērtēšanas rādītāji.
(a) DreamBooth, (b) StyleDrop un (c) DreamBooth + StyleDrop kvalitatīvs salīdzinājums:
Šeit pētnieki izmantoja divus iepriekš minētos CLIP rādītāja rādītājus - teksta un stila rādītājus.
Teksta rezultātam pētnieki izmēra kosinusa līdzību starp attēlu un teksta iegulšanu. Stila rezultātam pētnieki mēra kosinusa līdzību starp stila atsauci un sintētisko attēla iegulšanu.
Pētnieki kopā izveidoja 1520 attēlus 190 teksta uzvednēm. Lai gan pētnieki cerēja, ka gala rezultāts būs augstāks, rādītāji nav perfekti.
Un iteratīvā apmācība (IT) uzlaboja teksta rādītājus, kas atbilda pētnieku mērķiem.
Tomēr kā kompromiss viņu stila rādītāji pirmās kārtas modelī tiek samazināti, jo viņi ir apmācīti izmantot sintētiskus attēlus un stilu var novirzīt atlases novirzes.
DreamBooth vietnē Imagen atpaliek no StyleDrop stila rādītāja (HF 0,644 pret 0,694).
Pētnieki pamanīja, ka stila rādītāja pieaugums DreamBooth vietnē Imagen nebija nozīmīgs (0,569 → 0,644), savukārt StyleDrop vietnē Muse pieaugums bija acīmredzamāks (0,556 → 0,694).
Pētnieki analizēja, ka Muse stila precizēšana ir efektīvāka nekā Imagen.
Turklāt, lai nodrošinātu precīzu kontroli, StyleDrop fiksē smalkas stila atšķirības, piemēram, krāsu nobīdi, gradāciju vai asu leņķa vadību.
 Karsti komentāri no interneta lietotājiem
Ja dizaineriem ir StyleDrop, viņu darba efektivitāte būs 10 reizes ātrāka un jau ir pacēlusies.
Viena diena AI prasa 10 gadus, lai cilvēku pasaule AIGC attīstās ar gaismas ātrumu, kas padara cilvēku acis aklu.
Instrumenti vienkārši seko tendencei, un tas, kas būtu jānovērš, jau ir novērsts.
Šis rīks logotipu veidošanai ir daudz vieglāk lietojams nekā Midjourney.
Atsauces:
https://styledrop.github.io/