Microsoft ir izlaidusi difūzijas modeli, kas var izveidot 3D iemiesojumu no viena cilvēka fotoattēla

3D Avatar Diffusion ir mašīnmācīšanās algoritms, kas var uzņemt vienu cilvēka sejas 2D attēlu un izveidot trīsdimensiju (3D) iemiesojumu. Pēc tam iemiesojumu var izmantot, lai izveidotu virtuālās realitātes (VR) vai paplašinātās realitātes (AR) pieredzi vai vienkārši nodrošinātu reālistisku personas 3D skatu spēlēm vai citiem mērķiem.
Difūzijas modeli izstrādāja Microsoft Research pētnieku komanda, un tas ir aprakstīts rakstā, kas publicēts žurnālā arXiv.
3D Avatar Diffusion pamatā ir mašīnmācīšanās algoritms, ko sauc par difūzijas modeli. Difūzijas modeļi ir ģeneratīvi modeļi, kas nozīmē, ka tie var ģenerēt jaunus datus, kas ir līdzīgi apmācības datiem. Difūzijas modeļi ir izmantoti iepriekš, lai ģenerētu 3D attēlus no 2D attēliem, taču ADM ir pirmais difūzijas modelis, kas var ģenerēt reālistisku 3D iemiesojumu no viena 2D attēla.
Lai apmācītu modeli, pētnieki izmantoja vairāk nekā 200 000 3D sejas modeļu datu kopu. Datu kopa ietvēra plašu seju klāstu ar dažādiem ādas toņiem, frizūrām un sejas vaibstiem. Pēc tam ADM varēja uzzināt attiecības starp 2D attēlu un 3D sejas modeli un no viena 2D attēla ģenerēt reālistisku 3D iemiesojumu.
Modeli var izmantot arī, lai ģenerētu iemiesojumu no fotoattēla, kas uzņemts no cita leņķa
 Personalizētajam 3D iemiesojumam Rodina modelis piedāvā teksta vadītas manipulācijas. Dabiskās valodas rediģēšana ir intuitīvs veids, kā mainīt daudzas dažādas 3D iemiesojuma funkcijas.
Šis pētījums piedāvā 3D ģeneratīvu modeli, kas automātiski izveido 3D digitālos iemiesojumus, kas tiek attēloti kā neironu starojuma lauki, izmantojot difūzijas modeļus. Ar 3D saistītās pārmērīgās atmiņas un apstrādes prasību dēļ augstas kvalitātes iemiesojumiem nepieciešamo bagātīgo funkciju izveide ir milzīga problēma. Izstrādātāji iesaka šo problēmu risināt izplatāmajā difūzijas tīklā (Rodin).
 Attiecībā uz dzimumu, vecumu, rasi, izteiksmi, sejas aksesuāriem utt., modelim ir izcila paaudžu dažādība. )
Šis tīkls izvērš daudzas neironu starojuma lauka 2D iezīmju kartes vienā 2D iezīmju plaknē, kur modelis pēc tam veic 3D izkliedi. Rodina modelī tiek izmantota 3D apzinoša konvolūcija, kas nodrošina projicētos objektus 2D objektu plaknē atbilstoši to sākotnējām attiecībām 3D formātā, lai nodrošinātu tik ļoti nepieciešamo skaitļošanas efektivitāti, vienlaikus saglabājot difūzijas integritāti 3D formātā.
Lasiet vairāk par AI:
VALL-E: Microsoft jaunais nulles teksta pārvēršanas runā modelis var dublēt ikviena balsi trīs sekundēs
Šķiet, ka Microsoft VALL-E ir visu laiku bīstamākā krāpniecības programmatūra
Mākslinieks izveido pretaizdzīšanas skriptu, lai aizsargātu mākslu, izmanto to pašu ūdenszīmi kā AI ģeneratori
Microsoft un Google 2023. gadā: gada galvenā AI titānu cīņa
Post Microsoft ir izlaidusi difūzijas modeli, kas var izveidot 3D iemiesojumu no viena cilvēka fotoattēla, pirmo reizi parādījās Metaverse Post.