Makalenin yeniden basım kaynağı: AIcore

Orijinal kaynak: Xinzhiyuan

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Mükemmel!

Artık sadece birkaç kelimeyle güzel, yüksek kaliteli 3D modeller oluşturabilecek misiniz?

Hayır yabancı bir blog interneti harekete geçirip MVDream diye bir şeyi önümüze koydu.

Kullanıcılar sadece birkaç kelimeyle gerçekçi bir 3D model oluşturabilirler.

Ve öncekinden farklı olan şey, MVDream'in fiziği gerçekten "anlıyor" görünmesi.

Bu MVDream'in ne kadar muhteşem olduğuna bir göz atalım~

MVDream

Küçük kardeş, büyük modeller çağında çok fazla metin oluşturma modeli ve görüntü oluşturma modeli gördüğümüzü söyledi. Ve bu modellerin performansı giderek daha da güçleniyor.

Daha sonra Vincent video modellerinin doğuşuna bile tanık olduk, tabii ki bugün bahsedeceğimiz 3D modeller de dahil.

Sadece bir cümle girmeniz gerektiğini hayal edin ve gerçek dünyada varmış gibi görünen, hatta gerekli tüm detayları içeren bir nesne modeli oluşturabilirsiniz. Bu sahne ne kadar harika olurdu.

Ve bu kesinlikle kolay bir iş değil, özellikle de kullanıcıların ayrıntılı olarak yeterince gerçekçi modeller oluşturması gerektiğinden.

Önce etkiye bir bakalım~

Aynı istem, en sağda MVDream'in bitmiş ürünüdür.

5 model arasındaki fark çıplak gözle görülebilmektedir. İlk birkaç model nesnel gerçekleri tamamen ihlal ediyor ve yalnızca belirli açılardan bakıldığında doğrudur.

Örneğin ilk dört resimde oluşturulan modelin aslında ikiden fazla kulağı var. Dördüncü resim daha detaylı görünse de belli bir açıya döndüğümüzde karakterin yüzünün içbükey olduğunu ve üzerine kulak sıkışmış olduğunu görebiliyoruz.

Kim bilir, editör hemen Peppa Pig'in daha önce çok popüler olan önden görünüşünü hatırladı.

Size belirli açıların gösterildiği, ancak diğer açılara bakmayın, sizi öldüreceği türden.

Ancak en sağdaki MVDream'in nesil modeli açıkça farklı. 3D model nasıl döndürülürse döndürülsün alışılmadık bir şey hissetmeyeceksiniz.

Başlangıçta bahsedilen MVDream gerçekten sağduyulu fiziği anlıyor ve her görüşte iki kulağın olmasını sağlamak için bazı tuhaf şeyler yapmayacak.

Küçük kardeş, 3D modelin başarılı olup olmamasında en önemli şeyin modelin farklı bakış açılarının yeterince gerçekçi ve kalitesinin yeterince yüksek olup olmadığına dikkat çekti.

Ayrıca modelin, üstte birden fazla kulak bulunan model gibi değil, mekansal olarak tutarlı olmasını sağlamamız gerekiyor.

3D modeller oluşturmanın ana yöntemlerinden biri, kameranın perspektifini simüle etmek ve ardından belirli bir perspektiften görülebilecekleri oluşturmaktır.

Başka bir deyişle buna 2 boyutlu kaldırma denir. Bu, nihai 3D modeli oluşturmak için farklı perspektiflerin bir araya getirilmesi anlamına gelir.

Yukarıdaki çoklu kulak durumu, üretken modelin üç boyutlu uzaydaki tüm nesnenin şekil bilgisini tam olarak kavrayamaması nedeniyle ortaya çıkar. Ve MVDream bu açıdan ileriye doğru atılmış büyük bir adımdır.

Yeni model, daha önce yaşanan 3 boyutlu perspektifteki tutarlılık sorununu çözüyor.

fraksiyonel damıtma örneklemesi

Kullanılan yönteme DreamFusion tarafından geliştirilen puanlı damıtma örneklemesi adı verilir.

Kesirli damıtma örnekleme tekniğini anlamadan önce bu yöntemin kullandığı mimariyi anlamamız gerekir.

Kısacası bu aslında DALLE, MidJourney ve Stable Diffusion modellerine benzer, iki boyutlu görüntüler için başka bir difüzyon modelidir.

Daha spesifik olarak her şey, Stabil Difüzyon ham grafiklerini temel alan açık kaynaklı bir model olan önceden eğitilmiş DreamBooth modeliyle başlar.

Daha sonra değişim geldi.

Araştırma ekibinin daha sonra yaptığı şey, tek bir görüntü yerine doğrudan bir dizi çoklu görüntü görüntüsünü oluşturmaktı. Bu adımın tamamlanması için çeşitli nesnelerin üç boyutlu veri kümeleri gerekiyor.

Burada araştırmacılar, bir veri kümesinden bir 3 boyutlu nesnenin birden fazla görünümünü aldı, bunları bir modeli eğitmek için kullandı ve ardından bu görünümleri geriye doğru oluşturmak için kullandı.

Spesifik yöntem, aşağıdaki resimdeki mavi öz dikkat bloğunu üç boyutlu bir öz dikkat bloğuna dönüştürmektir. Yani, araştırmacıların tek bir görüntü yerine birden fazla görüntüyü yeniden oluşturmak için yalnızca bir boyut eklemesi yeterlidir.

Aşağıdaki görüntüde, modelin hangi görüntünün nerede kullanılacağını ve hangi görünümün oluşturulması gerektiğini anlamasına yardımcı olmak için kamera ve zaman adımının da her görünüm için modele girildiğini görebiliriz.

Artık tüm görüntüler birbirine bağlanıyor ve nesil de birlikte yapılıyor. Böylece bilgileri paylaşabilirler ve büyük resmi daha iyi anlayabilirler.

Daha sonra metin, veri kümesindeki nesneleri doğru bir şekilde yeniden oluşturmak üzere eğitilen modele beslenir.

Araştırma ekibinin çok görüşlü fraksiyonel damıtma örnekleme sürecini uyguladığı yer burasıdır.

Artık çoklu görüntülü yayılma modeliyle ekip, bir nesnenin birden çok görüntüsünü oluşturabiliyor.

Bir sonraki adım, bu görünümleri yalnızca görünümlerle değil, gerçek dünyayla tutarlı bir 3B modeli yeniden oluşturmak için kullanmaktır.

Bunu başarmak için tıpkı DreamFusion'da daha önce bahsettiğimiz gibi NeRF'nin (nöral parlaklık alanları) kullanılması gerekiyor.

Temel olarak bu adım, önceden eğitilmiş çoklu görüntülü yayılma modelini dondurmaktır. Başka bir deyişle, bu adımda, yukarıdaki her görünümdeki resimler yalnızca "kullanılır" ve tekrar "eğitilmez".

İlk görselleştirmenin rehberliğinde araştırmacılar, ilk görüntünün bazı gürültü eklenmiş versiyonlarını oluşturmak için çoklu görüntülü bir yayılma modeli kullanmaya başladılar.

Araştırmacılar, modele, bağlam alınırken görüntünün farklı versiyonlarını oluşturması gerektiğini bildirmek için gürültü ekledi.

Bu model daha sonra daha yüksek kaliteli görüntüler oluşturmak için kullanılır.

Bu görüntüyü oluşturmak için kullanılan görüntüyü ekleyin ve manuel olarak eklediğimiz gürültüyü kaldırın, böylece sonuçları bir sonraki adımda NeRF modelini yönlendirmek ve geliştirmek için kullanabiliriz.

Bu adımların tamamı, bir sonraki adımda daha iyi sonuçlar üretebilmek için NeRF modelinin görüntünün hangi kısmına odaklanması gerektiğini daha iyi anlamakla ilgilidir.

Tatmin edici bir 3D model oluşturulana kadar bunu tekrarlayın.

Ekip, çoklu görüntü dağılım modelinin görüntü oluşturma kalitesini ve farklı tasarımların performansını nasıl etkileyeceğini değerlendirmek için bu şekilde çalışıyor.

İlk olarak, çapraz görünüm tutarlılığı modelleri oluşturmak için dikkat modülü seçeneklerini karşılaştırdılar.

Bu seçenekler şunları içerir:

(1) Video yayılma modellerinde yaygın olarak kullanılan tek boyutlu zamansal kendine dikkat;

(2) Mevcut modele yeni bir üç boyutlu öz-dikkat modülü ekleyin;

(3) 3B dikkat için mevcut 2B öz-dikkat modülünü yeniden kullanın.

Bu deneyde, bu modüller arasındaki farkı net bir şekilde göstermek için araştırmacılar, videonun ortamına daha yakın olan modeli eğitmek için 90 derecelik görüş açısı değişikliklerinin 8 karesini kullandılar.

Aynı zamanda deneyde araştırma ekibi, orijinal SD modelinden daha yüksek, yani 512×512 görüntü çözünürlüğünü de korudu. Sonuçlar aşağıdaki şekilde gösterilmektedir. Araştırmacılar, statik sahnelerdeki bu kadar sınırlı perspektif değişikliklerine rağmen, zamansal öz dikkatin hala içerik değişimlerinden etkilendiğini ve perspektif tutarlılığını koruyamadığını buldu.

Ekip bunun, zamansal dikkatin yalnızca farklı karelerdeki aynı pikseller arasında bilgi alışverişi yapabilmesinden kaynaklandığını, buna karşılık karşılık gelen piksellerin ise bakış açısı değiştiğinde birbirlerinden çok uzakta olabilmelerinden kaynaklandığını öne sürüyor.

Öte yandan, öğrenme tutarlılığı olmadan yeni 3D dikkatin eklenmesi ciddi kalite bozulmasına yol açabilir.

Araştırmacılar bunun, yeni parametrelerin sıfırdan öğrenilmesinin daha fazla eğitim verisi ve zaman tüketeceğinden kaynaklandığına inanıyor ve bu da üç boyutlu modelin sınırlı olduğu bu durum için uygun değil. Araştırmacılar tarafından 2B öz dikkatin yeniden kullanılmasına yönelik önerilen strateji, üretim kalitesini bozmadan en iyi tutarlılığı sağlıyor.

Ekip ayrıca görsel boyutunun 256'ya ve görüntüleme sayısının 4'e düşürülmesi durumunda bu modüller arasındaki farkların çok daha küçük olacağını da fark etti. Ancak en iyi tutarlılığı elde etmek için araştırmacılar seçimlerini aşağıdaki deneylerde ön gözlemlere dayanarak yaptılar.

Ek olarak, çok görüntülü fraksiyonel damıtma örneklemesi için araştırmacılar, birleşik bir çerçeve altında en son teknolojiye sahip metinden 3 boyutlu model oluşturma yöntemlerini uygulayan threestudio (THR) kütüphanesinde çoklu görüntülü difüzyon kılavuzunu uyguladı.

Araştırmacılar, çok çözünürlüklü bir hash-grid içeren üç boyutlu gösterim olarak threestudio'daki örtülü hacim uygulamasını kullandılar.

Kamera görüntüsü için araştırmacılar, kamerayı 3 boyutlu veri kümesini oluştururken olduğu gibi örneklediler.

Ayrıca araştırmacılar, 3D modeli 0,01 öğrenme oranıyla 10.000 adım için optimize etmek için AdamW optimizasyon aracını da kullandılar.

Fraksiyonel damıtma örneklemesi için ilk 8000 adımda maksimum ve minimum zaman adımları sırasıyla 0,98 adımdan 0,5 adıma ve 0,02 adıma düşmüştür.

Render çözünürlüğü 64×64'ten başlar ve 5000 adımdan sonra kademeli olarak 256×256'ya yükselir.

Daha fazla vaka aşağıdaki gibidir:

Yukarıdakiler, araştırma ekibinin 2B metinden görüntüye modelini nasıl kullandığını, bunu çoklu görünüm sentezi için nasıl kullandığını ve son olarak onu yinelemek ve bir metinden 3B modeli oluşturmak için nasıl kullandığını göstermektedir.

Elbette bu yeni yöntemin hala bazı sınırlamaları var. Asıl kusur şu anda oluşturulan görüntünün yalnızca 256x256 piksel olması ve çözünürlüğün çok düşük olduğu söylenebilir.

Ayrıca araştırmacılar, bu görevi gerçekleştirmek için kullanılan veri setinin boyutunun bu yöntemin çok yönlülüğünü kesinlikle bir dereceye kadar sınırlayacağına, çünkü veri seti çok küçükse karmaşıklığımızı yansıtamayacağına da dikkat çekti. dünya daha gerçekçi bir dünya.

Referanslar:

https://www.louisbouchard.ai/mvdream/

https://arxiv.org/pdf/2308.16512.pdf