Microsoft ha rilasciato un modello di diffusione in grado di creare un avatar 3D da una singola foto di una persona

La diffusione avatar 3D è un algoritmo di apprendimento automatico in grado di acquisire una singola immagine 2D di un volto umano e creare un avatar tridimensionale (3D). L'avatar può quindi essere utilizzato per creare un'esperienza di realtà virtuale (VR) o di realtà aumentata (AR) o semplicemente per fornire una visione 3D realistica della persona per giochi o altri scopi.
Il modello di diffusione è stato sviluppato da un team di ricercatori di Microsoft Research ed è descritto in un articolo pubblicato sulla rivista arXiv.
La diffusione avatar 3D si basa su un tipo di algoritmo di apprendimento automatico chiamato modello di diffusione. I modelli di diffusione sono modelli generativi, il che significa che possono generare nuovi dati simili ai dati di training. I modelli di diffusione sono stati utilizzati in precedenza per generare immagini 3D da immagini 2D, ma l'ADM è il primo modello di diffusione in grado di generare un avatar 3D realistico da una singola immagine 2D.
Per addestrare il modello, i ricercatori hanno utilizzato un set di dati di oltre 200.000 modelli di volti 3D. Il set di dati includeva un'ampia varietà di volti con diverse tonalità della pelle, acconciature e caratteristiche del viso. L'ADM è stato quindi in grado di apprendere la relazione tra l'immagine 2D e il modello del viso 3D e generare un avatar 3D realistico da una singola immagine 2D.
Il modello può essere utilizzato anche per generare un avatar da una foto scattata da un'angolazione diversa
 Per l'avatar 3D personalizzato, il modello Rodin offre la manipolazione guidata da testo. La modifica del linguaggio naturale è un modo intuitivo per modificare molte diverse funzionalità di avatar 3D.
Questo studio propone un modello generativo 3D che crea automaticamente avatar digitali 3D rappresentati come campi di radianza neurale utilizzando modelli di diffusione. A causa dei proibitivi requisiti di memoria ed elaborazione associati al 3D, creare le ricche funzionalità necessarie per avatar di alta qualità è un grosso problema. Gli sviluppatori suggeriscono che la rete di diffusione (Rodin) affronti questo problema.
 In termini di genere, età, razza, espressione, accessori facciali, ecc., il modello mostra un'eccezionale diversità generazionale.​
Questa rete distribuisce numerose mappe di caratteristiche 2D di un campo di radianza neurale in un singolo piano di caratteristiche 2D, dove il modello esegue quindi la diffusione consapevole del 3D. Il modello Rodin utilizza la convoluzione 3D-aware, che si occupa delle caratteristiche proiettate nel piano delle caratteristiche 2D in base alla loro relazione originale in 3D, per fornire l'efficienza computazionale tanto necessaria mantenendo l'integrità della diffusione in 3D.
Ulteriori informazioni sull'intelligenza artificiale:
VALL-E: il nuovo modello di sintesi vocale zero-shot di Microsoft può duplicare la voce di tutti in tre secondi
VALL-E di Microsoft sembra essere il software truffa più pericoloso di sempre
L'artista crea uno script antifurto per proteggere l'arte, utilizza la stessa filigrana dei generatori di intelligenza artificiale
Microsoft e Google nel 2023: lo scontro principale dell’anno tra i titani dell’intelligenza artificiale
Il post Microsoft ha rilasciato un modello di diffusione in grado di costruire un avatar 3D da una singola foto di una persona apparso per la prima volta su Metaverse Post.