Bagaimana StyleDrop yang diluncurkan Google dapat bersaing dengan alat pengecatan AI Midjourney?

Penulis: Xinzhiyuan
Begitu Google StyleDrop keluar, langsung menjadi hit di Internet.
Mengingat Malam Berbintang karya Van Gogh, AI berubah menjadi Master Van Gogh, dan setelah pemahaman tingkat atas tentang gaya abstrak ini, ia menciptakan lukisan serupa yang tak terhitung jumlahnya.
Gaya kartun lainnya, objek yang ingin saya gambar jauh lebih lucu.
Ia bahkan dapat mengontrol detail secara akurat dan mendesain logo gaya asli.
Pesona StyleDrop adalah Anda hanya memerlukan gambar sebagai referensi, betapapun rumitnya gaya artistiknya, Anda dapat mendekonstruksi dan membuatnya kembali.
Netizen mengatakan bahwa ini adalah jenis alat AI yang menghilangkan desainer.
Riset menarik StyleDrop adalah produk terbaru dari tim riset Google.
 Alamat makalah: https://arxiv.org/pdf/2306.00983.pdf
Kini, dengan alat seperti StyleDrop, Anda tidak hanya dapat menggambar dengan lebih banyak kontrol, namun Anda juga dapat menyelesaikan pekerjaan bagus yang sebelumnya tidak terbayangkan, seperti menggambar logo.
Bahkan ilmuwan Nvidia menyebutnya sebagai hasil yang “fenomenal”.
 Master "Kustomisasi".
Penulis makalah memperkenalkan bahwa inspirasi StyleDrop berasal dari Eyedropper (alat penyerapan warna/pemetik warna).
Demikian pula, StyleDrop juga berharap setiap orang dapat dengan cepat dan mudah "memilih" gaya dari satu/beberapa gambar referensi untuk menghasilkan gambar gaya tersebut.
Seekor sloth dapat memiliki 18 gaya:
Seekor panda memiliki 24 gaya:
Lukisan cat air yang dilukis oleh anak-anak dikontrol dengan sempurna oleh StyleDrop, dan bahkan kerutan pada kertas pun dipulihkan.
Saya harus mengatakan, itu terlalu kuat.
Ada juga StyleDrop yang mengacu pada desain huruf bahasa Inggris dalam gaya berbeda:
Huruf yang sama dalam gaya Van Gogh.
Ada juga gambar garis. Gambar garis merupakan gambar yang sangat abstrak dan memerlukan rasionalitas yang sangat tinggi dalam komposisi gambarnya.
Goresan bayangan keju pada gambar asli dikembalikan ke objek di setiap gambar.
Lihat pembuatan LOGO Android.
Selain itu, para peneliti juga memperluas kemampuan StyleDrop untuk tidak hanya menyesuaikan gaya dan menggabungkannya dengan DreamBooth, tetapi juga menyesuaikan konten.
Misalnya masih dalam gaya Van Gogh, buatlah lukisan gaya serupa untuk Corgi kecil:
Ini satu lagi. Corgi di bawah terasa seperti “Sphinx” di piramida Mesir.
 bagaimana bekerja?
StyleDrop dibangun di Muse dan terdiri dari dua bagian penting:
Salah satunya adalah menyempurnakan parameter Transformer visual yang dihasilkan secara efektif, dan yang lainnya adalah pelatihan berulang dengan umpan balik.
Para peneliti kemudian mensintesis gambar dari dua model yang telah disesuaikan.
Muse adalah model sintesis teks-ke-gambar canggih berdasarkan Transformer gambar yang dihasilkan topeng. Ini berisi dua modul sintesis untuk pembuatan gambar dasar (256 × 256) dan resolusi super (512 × 512 atau 1024 × 1024).
Setiap modul terdiri dari encoder teks T, transformator G, sampler S, encoder gambar E, dan decoder D.
T memetakan perintah tekstual t∈T ke ruang penyematan berkelanjutan E. G memproses penyematan teks e ∈ E untuk menghasilkan logaritma rangkaian token visual l ∈ L. S mengekstrak urutan token visual v ∈ V dari logaritma melalui decoding berulang yang menjalankan beberapa langkah inferensi transformator yang dikondisikan pada penyematan teks e dan token visual yang didekode dari langkah sebelumnya.
Terakhir, D memetakan rangkaian token diskrit ke ruang piksel I. Singkatnya, dengan adanya teks prompt t, gambar I disintesis sebagai berikut:
Gambar 2 adalah arsitektur sederhana dari lapisan transformator Muse, yang sebagian telah dimodifikasi untuk mendukung penyesuaian parameter efisien (PEFT) dan adaptor.
Gunakan transformator lapisan L untuk memproses urutan token visual yang ditampilkan dalam warna hijau dalam kondisi penyematan teks e. Parameter yang dipelajari θ digunakan untuk membuat bobot untuk penyetelan adaptor.
Untuk melatih θ, dalam banyak kasus peneliti hanya diberikan gambar sebagai referensi gaya.
Peneliti perlu melampirkan petunjuk teks secara manual. Mereka mengusulkan pendekatan sederhana dan berpola untuk menyusun petunjuk teks yang terdiri dari deskripsi konten diikuti dengan frasa bergaya deskripsi.
Misalnya, peneliti menggunakan “kucing” untuk mendeskripsikan suatu objek pada Tabel 1 dan menambahkan “lukisan cat air” sebagai deskripsi gaya.
Menyertakan deskripsi konten dan gaya dalam petunjuk teks sangatlah penting karena membantu memisahkan konten dari gaya, yang merupakan tujuan utama peneliti.
Gambar 3 menunjukkan pelatihan berulang dengan umpan balik.
Saat melatih gambar referensi gaya tunggal (kotak oranye), beberapa gambar yang dihasilkan oleh StyleDrop mungkin menampilkan konten yang diekstraksi dari gambar referensi gaya (kotak merah, gambar dengan rumah di latar belakang yang mirip dengan gambar gaya).
Gambar lain (kotak biru) sebaiknya memisahkan gaya dari konten. Pelatihan berulang StyleDrop pada sampel yang baik (kotak biru) menghasilkan keseimbangan yang lebih baik antara gaya dan fidelitas teks (kotak hijau).
Disini peneliti juga menggunakan dua metode:
Skor -KLIP
Metode ini digunakan untuk mengukur keselarasan gambar dan teks. Oleh karena itu, ia dapat mengevaluasi kualitas gambar yang dihasilkan dengan mengukur skor CLIP (yaitu kesamaan kosinus dari penyematan CLIP visual dan tekstual).
Peneliti dapat memilih gambar CLIP dengan skor tertinggi. Mereka menyebut metode ini CLIP-feedback iterative training (CF).
Dalam eksperimen, para peneliti menemukan bahwa menggunakan skor CLIP untuk mengevaluasi kualitas gambar sintetis adalah cara yang efektif untuk meningkatkan daya ingat (yaitu, fidelitas tekstual) tanpa kehilangan fidelitas gaya secara berlebihan.
Namun di sisi lain, skor CLIP mungkin tidak sepenuhnya selaras dengan niat manusia dan gagal menangkap atribut gaya yang halus.
-HF
Umpan balik manusia (HF) adalah cara yang lebih langsung untuk memasukkan niat pengguna secara langsung ke dalam penilaian kualitas gambar sintetis.
HF telah membuktikan kekuatan dan efektivitasnya dalam penyesuaian LLM untuk pembelajaran penguatan.
HF dapat digunakan untuk mengkompensasi ketidakmampuan skor CLIP untuk menangkap atribut gaya yang halus.
Saat ini, sejumlah besar penelitian berfokus pada masalah personalisasi model difusi teks-ke-gambar untuk mensintesis gambar yang mengandung berbagai gaya pribadi.
Peneliti menunjukkan bagaimana DreamBooth dan StyleDrop dapat digabungkan dengan cara sederhana untuk mempersonalisasi gaya dan konten.
Hal ini dicapai dengan pengambilan sampel dari dua distribusi generatif yang dimodifikasi, dipandu oleh θs untuk gaya dan θc untuk konten, masing-masing, parameter adaptor dilatih secara independen pada gambar referensi gaya dan konten.
Tidak seperti produk siap pakai yang sudah ada, pendekatan tim tidak memerlukan pelatihan bersama tentang parameter yang dapat dipelajari pada beberapa konsep, yang mengarah pada kemampuan kombinatorial yang lebih besar karena adaptor yang telah dilatih sebelumnya dilatih secara terpisah pada satu topik dan gaya pelatihan.
Proses pengambilan sampel secara keseluruhan oleh para peneliti mengikuti penguraian kode berulang dari Persamaan (1), dengan pengambilan sampel logaritma secara berbeda pada setiap langkah penguraian kode.
Misalkan t menjadi prompt teks dan c menjadi prompt teks tanpa deskriptor gaya. Logaritma dihitung pada langkah k sebagai berikut:
Dimana: γ digunakan untuk menyeimbangkan StyleDrop dan DreamBooth - jika γ adalah 0, kita mendapatkan StyleDrop, jika 1, kita mendapatkan DreamBooth.
Dengan mengatur γ secara tepat, kita bisa mendapatkan gambar yang sesuai.
 Pengaturan eksperimen
Sampai saat ini, belum ada penelitian ekstensif tentang penyesuaian gaya model generatif teks-gambar.
Oleh karena itu, para peneliti mengusulkan rencana percobaan baru:
-pengumpulan data
Para peneliti mengumpulkan lusinan gambar dalam gaya berbeda, mulai dari lukisan cat air dan cat minyak, ilustrasi datar, rendering 3D hingga patung dari bahan berbeda.
-Konfigurasi model
Para peneliti menggunakan adaptor untuk menyetel StyleDrop berbasis Muse. Untuk semua eksperimen, pengoptimal Adam digunakan untuk memperbarui bobot adaptor sebanyak 1000 langkah dengan kecepatan pembelajaran 0,00003. Kecuali dinyatakan lain, para peneliti menggunakan StyleDrop untuk mewakili model putaran kedua, yang dilatih pada lebih dari 10 gambar sintetis dengan umpan balik manusia.
-Evaluasi
Penilaian kuantitatif laporan penelitian didasarkan pada CLIP, yang mengukur konsistensi gaya dan keselarasan tekstual. Selain itu, para peneliti melakukan studi preferensi pengguna untuk menilai konsistensi gaya dan keselarasan teks.
Seperti terlihat pada gambar, peneliti mengumpulkan 18 gambar dengan gaya berbeda, hasil pengolahan StyleDrop.
Seperti yang Anda lihat, StyleDrop mampu menangkap nuansa tekstur, bayangan, dan struktur berbagai gaya, memberi Anda kontrol lebih besar terhadap gaya dibandingkan sebelumnya.
Sebagai perbandingan, peneliti juga memaparkan hasil DreamBooth on Imagen, implementasi LoRA DreamBooth pada Stable Diffusion dan hasil inversi teks.
Hasil spesifiknya ditunjukkan pada tabel, indikator evaluasi penilaian manusia (atas) dan penilaian CLIP (bawah) dari penyelarasan gambar-teks (Teks) dan penyelarasan gaya visual (Gaya).
Perbandingan kualitatif (a) DreamBooth, (b) StyleDrop, dan (c) DreamBooth + StyleDrop:
Di sini, para peneliti menerapkan dua metrik skor CLIP yang disebutkan di atas – skor teks dan gaya.
Untuk skor teks, peneliti mengukur kesamaan kosinus antara gambar dan teks yang disematkan. Untuk skor gaya, peneliti mengukur kesamaan kosinus antara referensi gaya dan penyematan gambar sintetis.
Para peneliti menghasilkan total 1.520 gambar untuk 190 teks petunjuk. Meskipun para peneliti berharap skor akhir akan lebih tinggi, metriknya tidaklah sempurna.
Dan pelatihan berulang (IT) meningkatkan skor teks, yang sejalan dengan tujuan peneliti.
Namun, sebagai konsekuensinya, skor gaya mereka pada model putaran pertama berkurang karena mereka dilatih menggunakan gambar sintetis dan gayanya mungkin bias karena bias seleksi.
DreamBooth di Imagen kurang dari StyleDrop dalam skor gaya (HF 0,644 vs. 0,694).
Para peneliti memperhatikan bahwa peningkatan skor gaya untuk DreamBooth di Imagen tidak signifikan (0,569 → 0,644), sedangkan peningkatan untuk StyleDrop di Muse lebih jelas (0,556 → 0,694).
Peneliti menganalisis bahwa gaya fine-tuning pada Muse lebih efektif dibandingkan pada Imagen.
Selain itu, untuk kontrol yang lebih halus, StyleDrop menangkap perbedaan gaya yang halus, seperti offset warna, gradasi, atau kontrol sudut tajam.
 Komentar panas dari netizen
Jika desainer memiliki StyleDrop, efisiensi kerja mereka akan 10 kali lebih cepat dan sudah meningkat.
Satu hari bagi AI membutuhkan waktu 10 tahun bagi dunia manusia. AIGC berkembang dengan kecepatan cahaya, kecepatan cahaya yang membutakan mata manusia!
Alatnya ikuti saja trendnya, dan yang harus dihilangkan sudah tersingkir.
Alat ini jauh lebih mudah digunakan dibandingkan Midjourney untuk membuat logo.
Referensi:
https://styledrop.github.io/