SnapFusion to model AI typu text-to-image, który umożliwia użytkownikom generowanie oszałamiających obrazów z opisów w języku naturalnym, wszystko w ciągu zaledwie dwóch sekund na urządzeniach mobilnych. Minęły czasy, gdy do uruchamiania tych złożonych modeli trzeba było polegać na zaawansowanych procesorach graficznych lub usługach w chmurze. SnapFusion demokratyzuje tworzenie treści, oddając w ręce użytkowników moc dyfuzji tekstu do obrazu.

Źródło: Midjourney / lili10292#2100

Tworzenie realistycznych obrazów z opisów tekstowych zawsze było trudnym zadaniem. Poprzednie modele wymagały dużych architektur sieciowych i wielu iteracji odszumiania, co czyniło je obliczeniowo kosztownymi i wolnymi. Ponadto uruchamianie tych modeli często wiązało się z wysyłaniem danych użytkownika do usług stron trzecich, co budziło obawy dotyczące prywatności.

Aby sprostać tym wyzwaniom, twórcy SnapFusion opracowali wydajną architekturę sieciową i ulepszyli proces destylacji krokowej. Identyfikując redundancje w oryginalnym modelu, wprowadzili wydajny UNet i zmniejszyli obliczenia dekodera obrazu poprzez destylację danych. Ponadto ulepszyli destylację krokową, badając strategie szkoleniowe i wprowadzając techniki regularyzacji.

arxiv.org/pdf/2306.00980.pdf

Obszerne eksperymenty na zestawie danych MS-COCO wykazały wyższość SnapFusion. Przy zaledwie ośmiu krokach odszumiania SnapFusion osiągnął lepsze wyniki FID i CLIP w porównaniu z poprzednim najnowocześniejszym modelem, Stable Diffusion v1.5, który wymagał 50 kroków. Ta niezwykła poprawa wydajności i wydajności otwiera nowe możliwości tworzenia treści.

Wpływ SnapFusion wykracza poza jego osiągnięcia techniczne. Uruchamiając modele dyfuzji tekstu do obrazu bezpośrednio na urządzeniach mobilnych, eliminuje potrzebę drogich procesorów graficznych i usług w chmurze. To nie tylko obniża koszty, ale także rozwiązuje problemy związane z prywatnością związane z wysyłaniem danych użytkowników do osób trzecich. Użytkownicy mogą teraz uwolnić swoją kreatywność i generować wysokiej jakości obrazy w podróży.

Rozmiar parametru modelu można dalej zmniejszyć, aby był kompatybilny z różnymi urządzeniami brzegowymi. Ponadto optymalizacja modelu dla różnych urządzeń mobilnych w celu osiągnięcia szybkich prędkości wnioskowania jest trwającym tematem badawczym.

Istotne jest odpowiedzialne korzystanie ze SnapFusion i podobnych technologii, aby zapobiegać złośliwym aplikacjom. Można podjąć środki, takie jak automatyczne systemy wykrywania, które identyfikują i oznaczają treści obrazów naruszające przepisy. Dzięki zachowaniu równowagi między innowacyjnością a względami etycznymi SnapFusion może zmienić tworzenie treści, zapewniając jednocześnie bezpieczne i odpowiedzialne doświadczenie użytkownika.

Przeczytaj więcej o sztucznej inteligencji:

  • 50 najlepszych monitów tekstowych do obrazów dla generatorów grafiki AI Midjourney i DALL-E

  • Gartner: Ocena skutków finansowych zespołów zajmujących się danymi i sztuczną inteligencją stała się kluczowa

  • 50 najlepszych dzieł sztuki anime generowanych przez AI: Shounen, Manga i Shoujo

Artykuł SnapFusion: szybki model zamiany tekstu na obraz dla urządzeń mobilnych w ciągu 1,9 sekundy pojawił się po raz pierwszy w serwisie Metaverse Post.