Làm thế nào StyleDrop do Google ra mắt có thể cạnh tranh được với công cụ vẽ tranh AI Midjourney?

Tác giả: Xinzhiyuan
Ngay khi Google StyleDrop ra mắt, nó ngay lập tức trở thành một hiện tượng trên Internet.
Với Đêm đầy sao của Van Gogh, AI đã biến thành Bậc thầy Van Gogh và sau khi hiểu rõ nhất về phong cách trừu tượng này, nó đã tạo ra vô số bức tranh tương tự.
Một phong cách hoạt hình khác, những đồ vật tôi muốn vẽ dễ thương hơn rất nhiều.
Nó thậm chí có thể kiểm soát chính xác các chi tiết và thiết kế logo theo phong cách nguyên bản.
Điểm hấp dẫn của StyleDrop là bạn chỉ cần một bức ảnh làm tài liệu tham khảo và cho dù phong cách nghệ thuật có phức tạp đến đâu, bạn vẫn có thể giải mã và tái tạo nó.
Cư dân mạng cho rằng đây là loại công cụ AI loại bỏ các nhà thiết kế.
Nghiên cứu StyleDrop phổ biến là sản phẩm mới nhất của nhóm nghiên cứu Google.
 Địa chỉ giấy: https://arxiv.org/pdf/2306.00983.pdf
Giờ đây, với các công cụ như StyleDrop, bạn không chỉ có thể vẽ dễ dàng hơn mà còn có thể hoàn thành những tác phẩm đẹp mắt không thể tưởng tượng được trước đây, chẳng hạn như vẽ logo.
Ngay cả các nhà khoa học của Nvidia cũng gọi đó là một kết quả “phi thường”.
 Bậc thầy "tùy biến"
Tác giả bài viết giới thiệu rằng nguồn cảm hứng cho StyleDrop đến từ Eyedropper (công cụ hấp thụ màu/chọn màu).
Tương tự, StyleDrop cũng hy vọng rằng mọi người có thể nhanh chóng và dễ dàng "chọn" một phong cách từ một/một vài hình ảnh tham chiếu để tạo ra hình ảnh theo phong cách đó.
Một con lười có thể có 18 kiểu:
Một con gấu trúc có 24 kiểu:
Những bức tranh màu nước do trẻ em vẽ đã được StyleDrop kiểm soát một cách hoàn hảo, thậm chí các nếp nhăn trên giấy cũng được phục hồi.
Tôi phải nói là nó quá mạnh.
Ngoài ra còn có StyleDrop đề cập đến việc thiết kế các chữ cái tiếng Anh theo các phong cách khác nhau:
Những chữ cái tương tự theo phong cách Van Gogh.
Ngoài ra còn có các bản vẽ đường. Vẽ nét là một hình ảnh có tính trừu tượng cao và đòi hỏi tính hợp lý rất cao trong bố cục của bức tranh. Các phương pháp trước đây rất khó thành công.
Các nét của bóng phô mai trong ảnh gốc được khôi phục cho các đối tượng trong mỗi ảnh.
Tham khảo cách tạo LOGO Android.
Ngoài ra, các nhà nghiên cứu còn mở rộng khả năng của StyleDrop không chỉ tùy chỉnh kiểu dáng, kết hợp với DreamBooth mà còn tùy chỉnh nội dung.
Ví dụ: vẫn theo phong cách Van Gogh, tạo ra một bức tranh theo phong cách tương tự cho chú chó Corgi bé nhỏ:
Đây là một con chó corgi khác bên dưới có cảm giác giống như “Nhân sư” trên kim tự tháp Ai Cập.
 làm việc như thế nào?
StyleDrop được xây dựng trên Muse và bao gồm hai phần chính:
Một là tinh chỉnh một cách hiệu quả các tham số của Biến áp trực quan được tạo và hai là đào tạo lặp lại với phản hồi.
Sau đó, các nhà nghiên cứu tổng hợp hình ảnh từ hai mô hình đã được tinh chỉnh.
Muse là mô hình tổng hợp văn bản thành hình ảnh tiên tiến nhất dựa trên Transformer hình ảnh được tạo bằng mặt nạ. Nó chứa hai mô-đun tổng hợp để tạo hình ảnh cơ bản (256 × 256) và siêu phân giải (512 × 512 hoặc 1024 × 1024).
Mỗi mô-đun bao gồm bộ mã hóa văn bản T, máy biến áp G, bộ lấy mẫu S, bộ mã hóa hình ảnh E và bộ giải mã D.
T ánh xạ dấu nhắc văn bản t∈T tới không gian nhúng liên tục E. G xử lý các phần nhúng văn bản e ∈ E để tạo logarit của chuỗi mã thông báo trực quan l ∈ L. S trích xuất chuỗi mã thông báo trực quan v ∈ V từ logarit thông qua giải mã lặp chạy một số bước suy luận biến áp dựa trên văn bản nhúng e và mã thông báo trực quan được giải mã từ bước trước.
Cuối cùng, D ánh xạ chuỗi mã thông báo rời rạc vào không gian pixel I. Tóm lại, cho một dấu nhắc văn bản t, hình ảnh I được tổng hợp như sau:
Hình 2 là kiến ​​trúc đơn giản hóa của lớp biến áp Muse, đã được sửa đổi một phần để hỗ trợ tinh chỉnh tham số hiệu quả (PEFT) và các bộ điều hợp.
Sử dụng biến áp của lớp L để xử lý chuỗi mã thông báo trực quan được hiển thị bằng màu xanh lá cây trong điều kiện nhúng văn bản e. Các tham số đã học θ được sử dụng để xây dựng các trọng số cho việc điều chỉnh bộ chuyển đổi.
Để huấn luyện θ, trong nhiều trường hợp, các nhà nghiên cứu chỉ có thể được cung cấp hình ảnh làm tài liệu tham khảo về kiểu dáng.
Các nhà nghiên cứu cần đính kèm lời nhắc văn bản theo cách thủ công. Họ đề xuất một cách tiếp cận đơn giản, theo khuôn mẫu để xây dựng lời nhắc văn bản bao gồm mô tả nội dung, theo sau là cụm từ kiểu mô tả.
Ví dụ, các nhà nghiên cứu đã sử dụng “mèo” để mô tả một đồ vật trong Bảng 1 và thêm “bức tranh màu nước” làm mô tả phong cách.
Việc đưa mô tả về nội dung và phong cách vào lời nhắc văn bản là rất quan trọng vì nó giúp tách biệt nội dung khỏi phong cách, vốn là mục tiêu chính của nhà nghiên cứu.
Hình 3 cho thấy quá trình đào tạo lặp lại có phản hồi.
Khi huấn luyện trên một hình ảnh tham chiếu kiểu duy nhất (hộp màu cam), một số hình ảnh do StyleDrop tạo ra có thể hiển thị nội dung được trích xuất từ ​​hình ảnh tham chiếu kiểu (hộp màu đỏ, hình ảnh có ngôi nhà ở nền tương tự như hình ảnh kiểu).
Các hình ảnh khác (hộp màu xanh) tách biệt phong cách khỏi nội dung tốt hơn. Việc đào tạo lặp lại StyleDrop trên các mẫu tốt (hộp màu xanh lam) mang lại sự cân bằng tốt hơn giữa kiểu dáng và độ trung thực của văn bản (hộp màu xanh lá cây).
Ở đây các nhà nghiên cứu cũng sử dụng hai phương pháp:
-Điểm CLIP
Phương pháp này được sử dụng để đo sự căn chỉnh của hình ảnh và văn bản. Do đó, nó có thể đánh giá chất lượng của hình ảnh được tạo ra bằng cách đo điểm CLIP (tức là độ tương tự cosine của các phần nhúng CLIP hình ảnh và văn bản).
Các nhà nghiên cứu có thể chọn hình ảnh CLIP có số điểm cao nhất. Họ gọi phương pháp này là đào tạo lặp lại phản hồi CLIP (CF).
Trong các thử nghiệm, các nhà nghiên cứu nhận thấy rằng việc sử dụng điểm CLIP để đánh giá chất lượng của hình ảnh tổng hợp là một cách hiệu quả để cải thiện khả năng ghi nhớ (tức là độ trung thực của văn bản) mà không làm mất quá nhiều độ trung thực về phong cách.
Tuy nhiên, mặt khác, điểm CLIP có thể không hoàn toàn phù hợp với ý định của con người và không nắm bắt được các thuộc tính phong cách tinh tế.
-HF
Phản hồi của con người (HF) là một cách trực tiếp hơn để đưa trực tiếp ý định của người dùng vào đánh giá chất lượng hình ảnh tổng hợp.
HF đã chứng minh được sức mạnh và tính hiệu quả của nó trong việc tinh chỉnh LLM cho việc học tăng cường.
HF có thể được sử dụng để bù đắp cho sự bất lực của điểm CLIP trong việc nắm bắt các thuộc tính phong cách tinh tế.
Hiện nay, một lượng lớn nghiên cứu đã tập trung vào vấn đề cá nhân hóa mô hình truyền bá văn bản thành hình ảnh để tổng hợp những hình ảnh chứa đựng nhiều phong cách cá nhân.
Các nhà nghiên cứu cho thấy cách DreamBooth và StyleDrop có thể được kết hợp một cách đơn giản để cá nhân hóa cả phong cách và nội dung.
Điều này được thực hiện bằng cách lấy mẫu từ hai phân phối tổng quát đã sửa đổi, được hướng dẫn bởi θs cho kiểu và θc cho nội dung, tương ứng, các tham số bộ điều hợp được đào tạo độc lập trên hình ảnh tham chiếu kiểu và nội dung.
Không giống như các sản phẩm có sẵn hiện có, cách tiếp cận của nhóm không yêu cầu đào tạo chung các thông số có thể học được trên nhiều khái niệm, điều này dẫn đến khả năng kết hợp cao hơn vì những người điều hợp được đào tạo trước được đào tạo riêng về một chủ đề và phong cách đào tạo duy nhất.
Quá trình lấy mẫu tổng thể của các nhà nghiên cứu tuân theo quá trình giải mã lặp lại của Phương trình (1), với các logarit được lấy mẫu khác nhau ở mỗi bước giải mã.
Gọi t là dấu nhắc văn bản và c là dấu nhắc văn bản không có bộ mô tả kiểu. Logarit được tính ở bước k như sau:
Trong đó: γ dùng để cân bằng StyleDrop và DreamBooth - nếu γ bằng 0 thì ta có StyleDrop, nếu bằng 1 thì ta có DreamBooth.
Bằng cách thiết lập γ một cách thích hợp, chúng ta có thể có được một hình ảnh phù hợp.
 Thiết lập thử nghiệm
Cho đến nay, chưa có nghiên cứu sâu rộng về điều chỉnh kiểu dáng của các mô hình tạo văn bản-hình ảnh.
Vì vậy, các nhà nghiên cứu đã đề xuất một kế hoạch thử nghiệm mới:
-thu thập dữ liệu
Các nhà nghiên cứu đã thu thập hàng chục bức tranh với nhiều phong cách khác nhau, từ tranh màu nước và sơn dầu, tranh minh họa phẳng, kết xuất 3D cho đến tác phẩm điêu khắc bằng các chất liệu khác nhau.
-Cấu hình mô hình
Các nhà nghiên cứu sử dụng bộ điều hợp để điều chỉnh StyleDrop dựa trên Muse. Đối với tất cả các thử nghiệm, trình tối ưu hóa Adam đã được sử dụng để cập nhật trọng số của bộ điều hợp cho 1000 bước với tốc độ học tập là 0,00003. Trừ khi có quy định khác, các nhà nghiên cứu sử dụng StyleDrop để thể hiện vòng thứ hai của mô hình, được đào tạo trên hơn 10 hình ảnh tổng hợp có phản hồi của con người.
-Đánh giá
Đánh giá định lượng các báo cáo nghiên cứu dựa trên CLIP, đo lường tính nhất quán về văn phong và sự liên kết văn bản. Ngoài ra, các nhà nghiên cứu đã tiến hành nghiên cứu sở thích của người dùng để đánh giá tính nhất quán về văn phong và căn chỉnh văn bản.
Như trong hình, các nhà nghiên cứu đã thu thập được 18 bức ảnh với nhiều phong cách khác nhau, là kết quả của quá trình xử lý StyleDrop.
Như bạn có thể thấy, StyleDrop có thể nắm bắt các sắc thái của kết cấu, độ bóng và cấu trúc của nhiều kiểu khác nhau, giúp bạn kiểm soát kiểu dáng tốt hơn trước.
Để so sánh, các nhà nghiên cứu cũng trình bày kết quả của DreamBooth trên Imagen, triển khai LoRA của DreamBooth trên Stable Diffusion và kết quả của việc đảo ngược văn bản.
Kết quả cụ thể được thể hiện ở bảng, các chỉ số đánh giá tính điểm con người (trên cùng) và tính điểm CLIP (dưới cùng) về căn chỉnh hình ảnh-văn bản (Văn bản) và căn chỉnh phong cách trực quan (Style).
So sánh định tính của (a) DreamBooth, (b) StyleDrop và (c) DreamBooth + StyleDrop:
Tại đây, các nhà nghiên cứu đã áp dụng hai thước đo của điểm CLIP được đề cập ở trên - điểm văn bản và phong cách.
Đối với điểm văn bản, các nhà nghiên cứu đã đo độ tương tự cosine giữa hình ảnh và văn bản nhúng. Đối với điểm phong cách, các nhà nghiên cứu đo lường độ tương tự cosine giữa tham chiếu phong cách và việc nhúng hình ảnh tổng hợp.
Các nhà nghiên cứu đã tạo ra tổng cộng 1.520 hình ảnh cho 190 lời nhắc bằng văn bản. Mặc dù các nhà nghiên cứu hy vọng điểm số cuối cùng sẽ cao hơn nhưng các số liệu vẫn chưa hoàn hảo.
Và đào tạo lặp lại (IT) đã cải thiện điểm số văn bản, phù hợp với mục tiêu của các nhà nghiên cứu.
Tuy nhiên, để đánh đổi, điểm phong cách của họ trên mô hình vòng đầu tiên bị giảm vì họ được đào tạo về hình ảnh tổng hợp và phong cách có thể bị sai lệch do sai lệch lựa chọn.
DreamBooth trên Imagen kém StyleDrop về điểm phong cách (0,644 của HF so với 0,694).
Các nhà nghiên cứu nhận thấy rằng mức tăng điểm phong cách của DreamBooth trên Imagen là không đáng kể (0,569 → 0,644), trong khi mức tăng của StyleDrop trên Muse rõ ràng hơn (0,556 → 0,694).
Các nhà nghiên cứu phân tích rằng việc tinh chỉnh phong cách trên Muse hiệu quả hơn trên Imagen.
Ngoài ra, để kiểm soát chi tiết, StyleDrop ghi lại những khác biệt tinh tế về phong cách, chẳng hạn như độ lệch màu, chuyển màu hoặc điều khiển góc sắc nét.
 Bình luận sôi nổi của cư dân mạng
Nếu các nhà thiết kế có StyleDrop, hiệu quả công việc của họ sẽ nhanh hơn gấp 10 lần và đã thành công.
Một ngày đối với AI phải mất 10 năm đối với thế giới loài người AIGC đang phát triển với tốc độ ánh sáng, loại tốc độ ánh sáng có thể làm mù mắt con người!
Công cụ chỉ chạy theo xu hướng, cái gì cần loại bỏ thì đã bị loại bỏ.
Công cụ này dễ sử dụng hơn nhiều so với Midjourney để tạo logo.
Người giới thiệu:
https://styledrop.github.io/