Sumber cetak ulang artikel: AIcore
Sumber asli: Xinzhiyuan
Sumber gambar: Dihasilkan oleh AI Tanpa Batas
Luar biasa!
Sekarang Anda dapat membuat model 3D yang indah dan berkualitas tinggi hanya dengan beberapa kata?
Tidak, sebuah blog asing membuka Internet dan menampilkan sesuatu yang disebut MVDream di depan kita.
Pengguna dapat membuat model 3D yang hidup hanya dengan beberapa kata.
Dan yang berbeda dari sebelumnya adalah MVDream sepertinya benar-benar “mengerti” fisika.
Mari kita lihat betapa menakjubkannya MVDream ini~
MVDream
Adiknya mengatakan bahwa di era model besar, kita melihat terlalu banyak model pembuatan teks dan model pembuatan gambar. Dan performa model-model ini semakin bertenaga.
Kemudian, kita bahkan menyaksikan lahirnya model video Vincent, dan tentu saja model 3D yang akan kita bahas hari ini.
Bayangkan saja Anda hanya perlu memasukkan kalimat untuk menghasilkan model objek yang tampak seperti ada di dunia nyata dan bahkan berisi semua detail yang diperlukan. Seberapa keren pemandangan ini?
Dan ini jelas bukan tugas mudah, terutama ketika detail yang dibutuhkan pengguna untuk menghasilkan model harus cukup realistis.
Mari kita lihat efeknya dulu~
Perintah yang sama, produk akhir MVDream ada di paling kanan.
Perbedaan antara kelima model tersebut terlihat dengan mata telanjang. Model-model sebelumnya sepenuhnya bertentangan dengan fakta objektif dan hanya benar jika dilihat dari perspektif tertentu.
Misalnya, pada empat gambar pertama, model yang dihasilkan sebenarnya memiliki lebih dari dua telinga. Walaupun gambar keempat tampak lebih detail, bila kita menoleh ke sudut tertentu, kita dapat menemukan bahwa wajah karakter tersebut cekung dan ada telinga yang menempel di sana.
Siapa yang mengerti? Editor langsung teringat tampilan depan Peppa Pig yang dulu sangat populer.
Seperti itulah, sudut-sudut tertentu diperlihatkan kepadamu, dan kamu tidak boleh melihat sudut-sudut yang lain, kalau tidak, kamu akan mati.
Tetapi model generasi MVDream di paling kanan jelas berbeda. Tidak peduli bagaimana model 3D diputar, Anda tidak akan merasakan sesuatu yang tidak biasa.
Ini yang saya sebutkan di awal. MVDream benar-benar memahami akal sehat fisika dan tidak akan membuat hal-hal aneh untuk memastikan bahwa ada dua telinga dalam setiap tampilan.
Orang itu menunjukkan bahwa hal terpenting untuk menentukan apakah model 3D berhasil adalah mengamati apakah model tersebut cukup realistis dan berkualitas tinggi dari berbagai perspektif.
Dan kita juga perlu memastikan koherensi spasial model, bukan model dengan banyak telinga di atasnya.
Salah satu metode utama untuk menghasilkan model 3D adalah dengan mensimulasikan perspektif kamera dan kemudian menghasilkan apa yang dapat dilihat dari perspektif tertentu.
Dengan kata lain, ini disebut pengangkatan 2D. Tujuannya adalah untuk menyatukan berbagai perspektif guna membentuk model 3D final.
Situasi telinga ganda di atas terjadi karena model generatif tidak memiliki informasi yang cukup tentang bentuk keseluruhan objek dalam ruang tiga dimensi. MVDream merupakan langkah maju yang besar dalam hal ini.
Model baru ini memecahkan masalah konsistensi dalam perspektif 3D yang telah terjadi sebelumnya.
Pengambilan Sampel Distilasi Fraksional
Metode yang digunakan disebut sampling distilasi skor, yang dikembangkan oleh DreamFusion.
Sebelum memahami teknik pengambilan sampel distilasi fraksional, kita perlu memahami arsitektur yang digunakan oleh metode ini.
Singkatnya, ini hanyalah model difusi lain untuk gambar dua dimensi, mirip dengan model DALLE, MidJourney dan Difusi Stabil.
Lebih khusus lagi, semuanya dimulai dengan model DreamBooth yang telah dilatih sebelumnya, model sumber terbuka berdasarkan gambar mentah Stable Diffusion.
Lalu, perubahan pun terjadi.
Apa yang dilakukan tim peneliti selanjutnya adalah langsung merender sekumpulan gambar multi-tampilan, bukan hanya satu gambar. Langkah ini memerlukan sekumpulan data tiga dimensi dari berbagai objek.
Di sini, para peneliti mengambil beberapa tampilan objek tiga dimensi dari kumpulan data dan menggunakannya untuk melatih model guna menghasilkan tampilan tersebut secara mundur.
Pendekatan spesifiknya adalah mengubah blok perhatian-diri berwarna biru pada gambar di bawah ini menjadi blok perhatian-diri tiga dimensi, artinya, peneliti hanya perlu menambahkan satu dimensi untuk merekonstruksi beberapa gambar, bukan satu gambar.
Pada gambar di bawah, kita dapat melihat bahwa kamera dan langkah waktu juga dimasukkan ke dalam model untuk setiap tampilan guna membantu model memahami gambar mana yang akan digunakan di mana dan jenis tampilan apa yang perlu dihasilkan.
Sekarang semua gambar saling terhubung dan pembangkitannya pun dilakukan secara bersamaan. Sehingga mereka dapat berbagi informasi dan lebih memahami situasi secara keseluruhan.
Teks tersebut kemudian dimasukkan ke dalam model, yang dilatih untuk merekonstruksi objek secara akurat dari kumpulan data.
Dan di sinilah tim peneliti menerapkan proses pengambilan sampel distilasi skor multi-tampilan.
Sekarang, dengan model difusi multi-tampilan, tim dapat menghasilkan beberapa tampilan suatu objek.
Langkah berikutnya adalah menggunakan tampilan ini untuk merekonstruksi model 3D yang konsisten dengan dunia nyata, bukan hanya tampilannya.
Ini memerlukan penggunaan NeRF (neural radiance fields), seperti DreamFusion yang disebutkan sebelumnya.
Pada dasarnya, langkah ini membekukan model difusi multi-tampilan yang telah dilatih sebelumnya. Artinya, pada langkah ini, gambar-gambar perspektif di atas hanya "digunakan" dan tidak akan "dilatih" lagi.
Dipandu oleh rendering awal, para peneliti mulai membuat beberapa versi gambar awal yang ditambah noise menggunakan model difusi multi-tampilan.
Para peneliti menambahkan noise untuk memberi tahu model bahwa ia perlu menghasilkan versi gambar yang berbeda sambil tetap menangkap konteks.
Model tersebut kemudian digunakan untuk menghasilkan gambar berkualitas lebih tinggi.
Tambahkan gambar yang digunakan untuk menghasilkan gambar ini dengan menghilangkan noise yang kita tambahkan secara manual sehingga kita dapat menggunakan hasilnya untuk memandu dan meningkatkan model NeRF pada langkah berikutnya.
Semua langkah ini bertujuan untuk lebih memahami bagian gambar mana yang harus difokuskan oleh model NeRF agar dapat menghasilkan hasil yang lebih baik di langkah berikutnya.
Proses ini diulang hingga dihasilkan model 3D yang memuaskan.
Beginilah cara tim mengevaluasi kualitas pembuatan gambar dari model difusi multi-tampilan dan menentukan bagaimana desain yang berbeda akan memengaruhi kinerjanya.
Pertama, mereka membandingkan pilihan modul perhatian untuk memodelkan konsistensi lintas-pandangan.
Pilihan ini meliputi:
(1) Perhatian diri temporal satu dimensi, yang banyak digunakan dalam model difusi video;
(2) Menambahkan modul perhatian diri 3D baru ke model yang ada;
(3) Gunakan kembali modul perhatian diri 2D yang ada untuk perhatian 3D.
Dalam percobaan ini, untuk menunjukkan dengan jelas perbedaan antara kedua modul, para peneliti menggunakan 8 bingkai perubahan sudut pandang 90 derajat untuk melatih model, yang lebih dekat dengan pengaturan video.
Pada saat yang sama, dalam percobaan tersebut, tim peneliti juga mempertahankan resolusi gambar yang tinggi, yaitu 512x512 sebagai model definisi standar asli. Hasilnya ditunjukkan pada gambar di bawah. Para peneliti menemukan bahwa bahkan dengan perubahan perspektif yang terbatas dalam adegan statis, perhatian diri temporal masih terpengaruh oleh pergeseran konten dan tidak dapat mempertahankan konsistensi perspektif.
Tim berhipotesis bahwa ini terjadi karena perhatian temporal hanya dapat bertukar informasi antara piksel yang sama dalam bingkai yang berbeda, sedangkan piksel yang bersesuaian mungkin berjauhan saat sudut pandang berubah.
Di sisi lain, menambahkan perhatian 3D baru tanpa mempelajari konsistensi menyebabkan penurunan kualitas yang parah.
Para peneliti meyakini hal ini terjadi karena mempelajari parameter baru dari awal menghabiskan lebih banyak data pelatihan dan waktu, yang tidak cocok untuk situasi di mana model 3D terbatas. Strategi yang diusulkan para peneliti untuk menggunakan kembali perhatian diri 2D mencapai konsistensi terbaik tanpa menurunkan kualitas pembangkitan.
Tim juga memperhatikan bahwa jika ukuran gambar dikurangi menjadi 256 dan jumlah tampilan dikurangi menjadi 4, perbedaan antara modul ini jauh lebih kecil. Namun, untuk mencapai konsistensi terbaik, para peneliti membuat pilihan berdasarkan pengamatan awal dalam percobaan berikut.
Selain itu, untuk pengambilan sampel distilasi fraksional multi-tampilan, para peneliti menerapkan panduan difusi multi-tampilan dalam pustaka ThreeStudio (THR), yang menerapkan metode pembuatan model teks-ke-3D tercanggih di bawah kerangka kerja terpadu.
Para peneliti menggunakan implementasi volume implisit dalam ThreeStudio sebagai representasi 3D, yang mencakup hash-grid multiresolusi.
Untuk tampilan kamera, para peneliti mengambil sampel kamera dengan cara yang persis sama seperti saat merender kumpulan data 3D.
Selain itu, para peneliti juga mengoptimalkan model 3D menggunakan pengoptimal AdamW sebanyak 10.000 langkah dengan laju pembelajaran 0,01.
Untuk pengambilan sampel distilasi fraksional, langkah waktu maksimum dan minimum dikurangi dari 0,98 langkah menjadi 0,5 langkah dan 0,02 langkah, masing-masing, dalam 8000 langkah pertama.
Resolusi rendering dimulai dari 64×64 dan secara bertahap meningkat menjadi 256×256 setelah 5000 langkah.
Contoh lainnya adalah sebagai berikut:
Di atas adalah bagaimana tim peneliti menggunakan model teks-ke-gambar 2D, menggunakannya untuk sintesis multi-tampilan, dan akhirnya menggunakannya untuk mengulangi dan membuat proses teks-ke-model 3D.
Tentu saja, metode baru ini masih memiliki keterbatasan tertentu. Kekurangan yang paling utama adalah gambar yang dihasilkan sekarang hanya berukuran 256x256 piksel, yang dapat dikatakan resolusinya sangat rendah.
Selain itu, para peneliti menunjukkan bahwa ukuran kumpulan data yang digunakan untuk melakukan tugas ini mau tidak mau akan membatasi fleksibilitas metode ini sampai batas tertentu, karena jika kumpulan data terlalu kecil, ia tidak akan dapat mencerminkan dunia kita yang kompleks secara lebih realistis.
Referensi:
https://www.louisbouchard.ai/mvdream/
https://arxiv.org/pdf/2308.16512.pdf
