Microsoft Telah Merilis Model Difusi yang Dapat Membuat Avatar 3D Dari Satu Foto Seseorang

Difusi Avatar 3D adalah algoritma pembelajaran mesin yang dapat mengambil satu gambar 2D wajah manusia dan membuat avatar tiga dimensi (3D). Avatar tersebut kemudian dapat digunakan untuk menciptakan pengalaman virtual reality (VR) atau augmented reality (AR) atau sekadar memberikan tampilan 3D realistis dari orang tersebut untuk bermain game atau tujuan lainnya.
Model difusi dikembangkan oleh tim peneliti di Microsoft Research dan dijelaskan dalam makalah yang diterbitkan di jurnal arXiv.
Difusi Avatar 3D didasarkan pada jenis algoritma pembelajaran mesin yang disebut model difusi. Model difusi merupakan model generatif yang artinya dapat menghasilkan data baru yang serupa dengan data pelatihan. Model difusi telah digunakan sebelumnya untuk menghasilkan gambar 3D dari gambar 2D, namun ADM adalah model difusi pertama yang dapat menghasilkan avatar 3D realistis dari satu gambar 2D.
Untuk melatih model tersebut, para peneliti menggunakan kumpulan data lebih dari 200.000 model wajah 3D. Kumpulan data tersebut mencakup beragam wajah dengan warna kulit, gaya rambut, dan fitur wajah yang berbeda. ADM kemudian dapat mempelajari hubungan antara gambar 2D dan model wajah 3D dan menghasilkan avatar 3D yang realistis dari satu gambar 2D.
Model juga dapat digunakan untuk menghasilkan avatar dari foto yang diambil dari sudut berbeda
 Untuk avatar 3D yang dipersonalisasi, model Rodin menawarkan manipulasi dengan panduan teks. Pengeditan bahasa alami adalah cara intuitif untuk mengubah banyak fitur avatar 3D yang berbeda.
Penelitian ini mengusulkan model generatif 3D yang secara otomatis membuat avatar digital 3D yang direpresentasikan sebagai bidang pancaran saraf menggunakan model difusi. Karena memori yang terbatas dan persyaratan pemrosesan yang terkait dengan 3D, menciptakan fitur kaya yang diperlukan untuk avatar berkualitas tinggi adalah masalah besar. Pengembang menyarankan jaringan difusi peluncuran (Rodin) mengatasi masalah ini.
 Dalam hal jenis kelamin, usia, ras, ekspresi, aksesori wajah, dll., model ini menunjukkan keragaman generasi yang luar biasa.​
Jaringan ini meluncurkan banyak peta fitur 2D dari bidang pancaran saraf ke dalam satu bidang fitur 2D, tempat model kemudian menjalankan difusi sadar 3D. Model Rodin menggunakan konvolusi sadar 3D, yang memperhatikan fitur yang diproyeksikan dalam bidang fitur 2D sesuai dengan hubungan aslinya dalam 3D, untuk memberikan efisiensi komputasi yang sangat dibutuhkan sekaligus menjaga integritas difusi dalam 3D.
Baca lebih lanjut tentang AI:
VALL-E: Model text-to-speech zero-shot baru dari Microsoft dapat menduplikasi suara semua orang dalam tiga detik
VALL-E dari Microsoft tampaknya merupakan perangkat lunak penipuan paling berbahaya yang pernah ada
Artis membuat skrip anti-pencurian untuk melindungi karya seni, menggunakan tanda air yang sama dengan generator AI
Microsoft dan Google pada tahun 2023: Pertarungan utama tahun ini antara para raksasa AI
Pos Microsoft telah merilis model difusi yang dapat membuat avatar 3D dari satu foto seseorang muncul pertama kali di Metaverse Post.