Jak může StyleDrop spuštěný společností Google konkurovat AI malovacímu nástroji Midjourney?

Autor: Xinzhiyuan
Jakmile vyšel Google StyleDrop, okamžitě se stal hitem internetu.
Vzhledem k Van Goghově Hvězdné noci se AI proměnila v Mistra Van Gogha a po špičkovém pochopení tohoto abstraktního stylu vytvořila nespočet podobných obrazů.
Další kreslený styl, objekty, které chci nakreslit, jsou mnohem roztomilejší.
Dokáže dokonce přesně ovládat detaily a navrhnout originální stylové logo.
Kouzlo StyleDrop je v tom, že potřebujete pouze obrázek jako referenci, bez ohledu na to, jak složitý je umělecký styl, můžete jej dekonstruovat a znovu vytvořit.
Netizens řekli, že je to druh nástroje AI, který eliminuje designéry.
Žhavý výzkum StyleDrop je nejnovějším produktem výzkumného týmu Google.
 Adresa příspěvku: https://arxiv.org/pdf/2306.00983.pdf
Nyní s nástroji jako StyleDrop můžete nejen kreslit s větší kontrolou, ale také dokončit dříve nepředstavitelnou jemnou práci, jako je kreslení loga.
Dokonce i vědci Nvidie to označili za „fenomenální“ výsledek.
 Mistr "Přizpůsobení".
Autor článku uvedl, že inspirací pro StyleDrop byl Eyedropper (nástroj pro absorpci/výběr barvy).
Podobně StyleDrop také doufá, že si každý může rychle a bez námahy „vybrat“ styl z jednoho/mála referenčních obrázků a vytvořit obrázek tohoto stylu.
Lenochod může mít 18 stylů:
Panda má 24 stylů:
Akvarelové malby namalované dětmi byly StyleDropem perfektně ovládány a dokonce se podařilo obnovit i vrásky papíru.
Musím říct, že je to příliš silné.
Existuje také StyleDrop, který odkazuje na design anglických písmen v různých stylech:
Stejná písmena ve stylu Van Gogha.
Nechybí ani perokresby. Perokresba je vysoce abstraktní obraz a vyžaduje velmi vysokou racionalitu v kompozici obrazu.
Tahy sýrového stínu v původním obrázku jsou obnoveny na objekty na každém obrázku.
Viz Vytvoření LOGA Android.
Kromě toho výzkumníci také rozšířili možnosti StyleDrop, aby nejen přizpůsobili styl v kombinaci s DreamBooth, ale také přizpůsobili obsah.
Například, stále ve stylu Van Gogha, vygenerujte podobný styl malby pro malého Corgi:
Zde je další corgi níže jako „Sfinga“ na egyptských pyramidách.
 jak pracovat?
StyleDrop je postaven na Muse a skládá se ze dvou klíčových částí:
Jedním je efektivní doladění parametrů generovaného vizuálního Transformeru a druhým je iterativní trénink se zpětnou vazbou.
Vědci poté syntetizovali obrázky ze dvou jemně vyladěných modelů.
Muse je nejmodernější model syntézy textu na obrázek založený na transformaci obrázků generovaných maskou. Obsahuje dva moduly syntézy pro generování základního obrazu (256 × 256) a super-rozlišení (512 × 512 nebo 1024 × 1024).
Každý modul se skládá z textového kodéru T, transformátoru G, vzorkovače S, obrazového kodéru E a dekodéru D.
T mapuje textovou výzvu t∈T na souvislý prostor pro vkládání E. G zpracovává vkládání textu e ∈ E za účelem generování logaritmů sekvencí vizuálních tokenů l ∈ L. S extrahuje sekvenci vizuálního tokenu v ∈ V z logaritmu pomocí iterativního dekódování, které provádí několik kroků odvození transformátoru podmíněných vkládáním textu e a vizuálním tokenem dekódovaným z předchozího kroku.
Nakonec D mapuje sekvenci diskrétních tokenů do prostoru pixelů I. Stručně řečeno, po textové výzvě t je obrázek I syntetizován následovně:
Obrázek 2 je zjednodušená architektura vrstvy transformátoru Muse, která byla částečně upravena tak, aby podporovala parametricky efektivní jemné ladění (PEFT) a adaptéry.
Pomocí transformátoru vrstvy L zpracujte sekvenci vizuálních tokenů zobrazených zeleně za podmínky vkládání textu, např. Naučené parametry θ se používají ke konstrukci závaží pro ladění adaptéru.
Pro trénování θ mohou být v mnoha případech badatelům poskytnuty obrázky pouze jako odkazy na styl.
Výzkumníci musí ručně připojit textové výzvy. Navrhli jednoduchý, šablonovaný přístup k vytváření textových výzev sestávající z popisu obsahu následovaného frází ve stylu popisu.
Například vědci použili „kočka“ k popisu objektu v tabulce 1 a přidali „akvarelovou malbu“ jako popis stylu.
Zahrnutí popisu obsahu a stylu do textových výzev je klíčové, protože pomáhá oddělit obsah od stylu, což je primární cíl výzkumníka.
Obrázek 3 ukazuje iterativní trénink se zpětnou vazbou.
Při tréninku na jednom referenčním obrázku stylu (oranžový rámeček) mohou některé obrázky generované StyleDrop vykazovat obsah extrahovaný z referenčního obrázku stylu (červený rámeček, obrázek s domem na pozadí podobný obrázku stylu).
Ostatní obrázky (modré rámečky) lépe oddělují styl od obsahu. Iterativní trénování StyleDrop na dobrých vzorcích (modré pole) má za následek lepší rovnováhu mezi stylem a věrností textu (zelené pole).
Zde vědci také použili dvě metody:
- CLIP skóre
Tato metoda se používá k měření zarovnání obrázků a textu. Může tedy hodnotit kvalitu generovaných obrázků měřením CLIP skóre (tj. kosinové podobnosti vizuálních a textových CLIP vložení).
Výzkumníci mohou vybrat snímek CLIP s nejvyšším skóre. Tuto metodu nazývají CLIP-feedback iterative training (CF).
V experimentech vědci zjistili, že použití skóre CLIP k hodnocení kvality syntetických obrázků je účinný způsob, jak zlepšit zapamatování (tj. věrnost textu) bez nadměrné ztráty věrnosti stylu.
Na druhou stranu však skóre CLIP nemusí plně odpovídat lidskému záměru a nedokáže zachytit jemné stylistické atributy.
-HF
Lidská zpětná vazba (HF) je přímější způsob, jak vložit záměr uživatele přímo do syntetického hodnocení kvality obrazu.
HF prokázal svou sílu a efektivitu při dolaďování LLM pro posílení učení.
HF lze použít ke kompenzaci neschopnosti skóre CLIP zachytit jemné atributy stylu.
V současné době se velké množství výzkumů zaměřuje na problém personalizace modelů difúze textu do obrázku za účelem syntézy obrázků obsahujících více osobních stylů.
Výzkumníci ukazují, jak lze DreamBooth a StyleDrop zkombinovat jednoduchým způsobem a přizpůsobit si styl i obsah.
Toho je dosaženo vzorkováním ze dvou modifikovaných generativních distribucí, řízených θs pro styl a θc pro obsah, v tomto pořadí, parametry adaptéru trénované nezávisle na referenčních obrázcích stylu a obsahu.
Na rozdíl od stávajících standardních produktů týmový přístup nevyžaduje společné školení naučitelných parametrů na více konceptech, což vede k lepším kombinatorickým schopnostem, protože předem vyškolení adaptéry jsou trénovány samostatně na jedno téma a styl.
Celkový proces vzorkování výzkumníků následoval iterativní dekódování rovnice (1), s logaritmy vzorkovanými odlišně v každém kroku dekódování.
Nechť t je textová výzva a c je textová výzva bez popisovače stylu. Logaritmus se vypočítá v kroku k takto:
Kde: γ se používá k vyvážení StyleDrop a DreamBooth - pokud je γ 0, dostaneme StyleDrop, pokud je 1, dostaneme DreamBooth.
Vhodným nastavením γ můžeme získat vhodný obrázek.
 Experimentální nastavení
Dosud neproběhl žádný rozsáhlý výzkum úpravy stylu generativních modelů text-obrázek.
Proto vědci navrhli nový experimentální plán:
-sběr dat
Vědci shromáždili desítky obrázků v různých stylech, od akvarelu a olejomaleb, plochých ilustrací, 3D ztvárnění až po sochy z různých materiálů.
- Konfigurace modelu
Výzkumníci používají adaptéry k vyladění StyleDrop založeného na Muse. U všech experimentů byl optimalizátor Adam použit k aktualizaci hmotností adaptéru pro 1000 kroků s rychlostí učení 0,00003. Pokud není uvedeno jinak, vědci používají StyleDrop k reprezentaci druhého kola modelu, který byl trénován na více než 10 syntetických snímcích s lidskou zpětnou vazbou.
-Vyhodnoťte
Kvantitativní hodnocení výzkumných zpráv je založeno na CLIP, který měří konzistenci stylu a zarovnání textu. Kromě toho výzkumníci provedli studie uživatelských preferencí, aby posoudili konzistenci stylu a zarovnání textu.
Jak ukazuje obrázek, výzkumníci shromáždili 18 obrázků různých stylů, výsledky zpracování StyleDrop.
Jak můžete vidět, StyleDrop je schopen zachytit nuance textury, stínování a struktury různých stylů, což vám dává větší kontrolu nad stylem než dříve.
Pro srovnání vědci také prezentují výsledky DreamBooth na Imagen, implementaci LoRA DreamBooth na Stable Diffusion a výsledky inverze textu.
Konkrétní výsledky jsou uvedeny v tabulce, hodnotící indikátory lidského skórování (nahoře) a CLIP skórování (dole) zarovnání obrázku a textu (Text) a zarovnání vizuálního stylu (Style).
Kvalitativní srovnání (a) DreamBooth, (b) StyleDrop a (c) DreamBooth + StyleDrop:
Zde vědci aplikovali dvě výše uvedené metriky skóre CLIP – skóre textu a stylu.
U textového skóre vědci měřili kosinusovou podobnost mezi vloženými obrázky a textem. U skóre stylu vědci měří kosinusovou podobnost mezi odkazem na styl a syntetickým vložením obrázku.
Výzkumníci vytvořili celkem 1520 obrázků pro 190 textových výzev. Zatímco výzkumníci doufali, že konečné skóre bude vyšší, metriky nejsou dokonalé.
A iterativní školení (IT) zlepšilo skóre textů, což bylo v souladu s cíli výzkumníků.
Jako kompromis se však jejich skóre stylu na modelu prvního kola snižuje, protože jsou trénováni na syntetických obrázcích a styl může být ovlivněn zkreslením výběru.
DreamBooth na Imagen zaostává za StyleDrop ve skóre stylu (HF 0,644 vs. 0,694).
Výzkumníci si všimli, že zvýšení skóre stylu pro DreamBooth na Imagen nebylo významné (0,569 → 0,644), zatímco zvýšení pro StyleDrop na Muse bylo zjevnější (0,556 → 0,694).
Výzkumníci analyzovali, že jemné doladění stylu na Muse je efektivnější než na Imagenu.
Navíc pro jemné ovládání zachytí StyleDrop jemné stylové rozdíly, jako je barevný offset, gradace nebo ovládání ostrého úhlu.
 Žhavé komentáře od netizenů
Pokud mají designéři StyleDrop, jejich pracovní efektivita bude 10x rychlejší a už se rozběhli.
Jeden den pro AI trvá 10 let, než se AIGC vyvíjí rychlostí světla, takovou rychlostí světla, která lidem oslepuje oči!
Nástroje prostě sledují trend a to, co by mělo být odstraněno, již bylo odstraněno.
Tento nástroj je pro tvorbu log mnohem jednodušší než Midjourney.
Reference:
https://styledrop.github.io/