Firma Microsoft udostępniła model dyfuzyjny, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby

3D Avatar Diffusion to algorytm uczenia maszynowego, który może pobrać pojedynczy obraz 2D ludzkiej twarzy i utworzyć trójwymiarowy (3D) awatar. Awatara można następnie użyć do stworzenia rzeczywistości wirtualnej (VR) lub rzeczywistości rozszerzonej (AR) lub po prostu do zapewnienia realistycznego widoku 3D osoby na potrzeby gier lub innych celów.
Model dyfuzji został opracowany przez zespół badaczy z Microsoft Research i opisany w artykule opublikowanym w czasopiśmie arXiv.
Rozproszenie awatara 3D opiera się na algorytmie uczenia maszynowego zwanym modelem dyfuzji. Modele dyfuzyjne są modelami generatywnymi, co oznacza, że ​​mogą generować nowe dane podobne do danych uczących. Modele dyfuzyjne były już używane do generowania obrazów 3D z obrazów 2D, ale ADM jest pierwszym modelem dyfuzyjnym, który może wygenerować realistyczny awatar 3D z pojedynczego obrazu 2D.
Aby wytrenować model, naukowcy wykorzystali zbiór danych obejmujący ponad 200 000 modeli twarzy 3D. Zbiór danych obejmował szeroką gamę twarzy o różnych odcieniach skóry, fryzurach i rysach twarzy. Następnie ADM był w stanie poznać związek między obrazem 2D a modelem twarzy 3D i wygenerować realistyczny awatar 3D z pojedynczego obrazu 2D.
Model można również wykorzystać do wygenerowania awatara ze zdjęcia zrobionego pod innym kątem
 W przypadku spersonalizowanego awatara 3D model Rodina oferuje manipulację sterowaną tekstem. Edycja języka naturalnego to intuicyjny sposób zmiany wielu różnych funkcji awatara 3D.
W tym badaniu zaproponowano model generatywny 3D, który automatycznie tworzy cyfrowe awatary 3D reprezentowane jako neuronowe pola promieniowania przy użyciu modeli dyfuzyjnych. Ze względu na wygórowane wymagania dotyczące pamięci i przetwarzania związane z grafiką 3D, tworzenie bogatych funkcji niezbędnych do uzyskania wysokiej jakości awatarów jest ogromnym problemem. Deweloperzy sugerują, że wdrożona sieć dyfuzyjna (Rodin) rozwiąże ten problem.
 Pod względem płci, wieku, rasy, wyrazu twarzy, akcesoriów twarzy itp. modelka wykazuje wyjątkową różnorodność pokoleniową.​
Sieć ta rozwija liczne mapy cech 2D pola promieniowania neuronowego w pojedynczą płaszczyznę cech 2D, gdzie następnie model przeprowadza dyfuzję uwzględniającą 3D. Model Rodina wykorzystuje splot uwzględniający 3D, który uwzględnia rzutowane cechy na płaszczyznę cech 2D zgodnie z ich oryginalnymi relacjami w 3D, aby zapewnić bardzo potrzebną wydajność obliczeniową przy jednoczesnym zachowaniu integralności dyfuzji w 3D.
Przeczytaj więcej o sztucznej inteligencji:
VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft może odtworzyć głos każdej osoby w trzy sekundy
VALL-E firmy Microsoft wydaje się być najniebezpieczniejszym oprogramowaniem do oszustw w historii
Artysta tworzy skrypt antykradzieżowy w celu ochrony dzieł sztuki, używa tego samego znaku wodnego, co generatory AI
Microsoft i Google w 2023 r.: główne starcie tego roku pomiędzy tytanami sztucznej inteligencji
Wpis Microsoft udostępnił model dyfuzyjny, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby, pojawił się jako pierwszy w Metaverse Post.