Nachdruckquelle des Artikels: AIcore

Originalquelle: Xinzhiyuan

Bildquelle: Erstellt von Unbounded AI

Eindrucksvoll!

Jetzt können Sie mit nur wenigen Worten wunderschöne, hochwertige 3D-Modelle erstellen?

Nein, ein ausländischer Blog hat das Internet ins Leben gerufen und uns etwas namens MVDream präsentiert.

Benutzer können mit nur wenigen Worten ein lebensechtes 3D-Modell erstellen.

Und der Unterschied zu früher ist, dass MVDream die Physik wirklich zu „verstehen“ scheint.

Werfen wir einen Blick darauf, wie großartig dieser MVDream ist

MVDream

Der jüngere Bruder sagte, dass wir im Zeitalter großer Modelle zu viele Modelle zur Textgenerierung und Bildgenerierung gesehen hätten. Und die Leistung dieser Modelle wird immer leistungsfähiger.

Später erlebten wir sogar die Geburt der Vincent-Videomodelle und natürlich der 3D-Modelle, über die wir heute sprechen werden.

Stellen Sie sich vor, wie cool es wäre, wenn Sie nur einen Satz eingeben müssten, um ein Modell eines Objekts zu generieren, das aussieht, als ob es in der realen Welt existiert und sogar alle notwendigen Details enthält.

Und das ist sicher keine leichte Aufgabe, insbesondere wenn die Details, die Benutzer zum Generieren von Modellen benötigen, realistisch genug sein müssen.

Schauen wir uns zuerst die Wirkung an ~

Ganz rechts ist die gleiche Eingabeaufforderung, das fertige Produkt von MVDream.

Die Unterschiede zwischen den fünf Modellen sind mit bloßem Auge erkennbar. Die bisherigen Modelle widersprechen den objektiven Tatsachen völlig und sind nur aus bestimmten Perspektiven betrachtet richtig.

Beispielsweise hat das generierte Modell in den ersten vier Bildern tatsächlich mehr als zwei Ohren. Obwohl das vierte Bild mehr Details zu enthalten scheint, können wir aus einem bestimmten Winkel erkennen, dass das Gesicht der Figur konkav ist und ein Ohr daran klebt.

Wer versteht das? Der Redakteur erinnerte sich sofort an die Frontansicht von Peppa Pig, die früher sehr beliebt war.

Es ist so, dass dir bestimmte Winkel gezeigt werden und du darfst nicht in andere Winkel schauen, sonst stirbst du.

Aber das Generationsmodell von MVDream ganz rechts ist offensichtlich anders. Egal wie man das 3D-Modell dreht, man spürt nichts Ungewöhnliches.

Das ist, was ich am Anfang erwähnt habe. MVDream versteht wirklich den gesunden Menschenverstand der Physik und wird sich keine seltsamen Dinge ausdenken, um sicherzustellen, dass in jeder Ansicht zwei Ohren vorhanden sind.

Der Typ wies darauf hin, dass der wichtigste Faktor für die Beurteilung des Erfolgs eines 3D-Modells darin besteht, zu beobachten, ob das Modell aus verschiedenen Perspektiven realistisch genug und von hoher Qualität ist.

Und wir müssen auch die räumliche Kohärenz des Modells sicherstellen, anstatt eines Modells mit mehreren Ohren darüber.

Eine der wichtigsten Methoden zum Generieren von 3D-Modellen besteht darin, die Kameraperspektive zu simulieren und dann zu generieren, was aus einer bestimmten Perspektive gesehen werden kann.

Mit anderen Worten wird dies als 2D-Lifting bezeichnet. Dabei werden verschiedene Perspektiven zusammengefügt, um das endgültige 3D-Modell zu erstellen.

Die oben beschriebene Situation mit mehreren Ohren tritt auf, weil das generative Modell nicht über ausreichend Informationen über die Form des gesamten Objekts im dreidimensionalen Raum verfügt. MVDream ist in dieser Hinsicht ein großer Schritt nach vorne.

Das neue Modell löst die zuvor aufgetretenen Konsistenzprobleme in der 3D-Perspektive.

Probenahme durch fraktionierte Destillation

Die verwendete Methode heißt Score Distillation Sampling und wurde von DreamFusion entwickelt.

Bevor wir die Probenahmetechnik durch fraktionierte Destillation verstehen, müssen wir die von dieser Methode verwendete Architektur verstehen.

Kurz gesagt ist dies nur ein weiteres Diffusionsmodell für zweidimensionale Bilder, ähnlich den Modellen DALLE, MidJourney und Stable Diffusion.

Genauer gesagt beginnt alles mit dem vortrainierten DreamBooth-Modell, einem Open-Source-Modell, das auf Rohbildern von Stable Diffusion basiert.

Dann kam die Veränderung.

Als nächstes renderte das Forschungsteam direkt einen Satz von Multiview-Bildern statt nur einem Bild. Dieser Schritt erfordert einen dreidimensionalen Datensatz verschiedener Objekte.

Hier nahmen die Forscher mehrere Ansichten dreidimensionaler Objekte aus einem Datensatz und nutzten diese, um das Modell zu trainieren, diese Ansichten rückwärts zu generieren.

Der konkrete Ansatz besteht darin, den blauen Selbstaufmerksamkeitsblock in der folgenden Abbildung in einen dreidimensionalen Selbstaufmerksamkeitsblock zu ändern, d. h. die Forscher müssen nur eine Dimension hinzufügen, um mehrere Bilder statt einem Bild zu rekonstruieren.

Im Bild unten können wir sehen, dass die Kamera und der Zeitschritt auch für jede Ansicht in das Modell eingegeben werden, um dem Modell zu helfen, zu verstehen, welches Bild wo verwendet wird und welche Art von Ansicht generiert werden muss.

Nun werden alle Bilder miteinander verbunden und auch die Generierung erfolgt gemeinsam. So können sie Informationen austauschen und die Gesamtsituation besser verstehen.

Der Text wird dann in das Modell eingespeist, das darauf trainiert ist, Objekte aus dem Datensatz genau zu rekonstruieren.

Und hier hat das Forschungsteam das Multi-View-Score-Distillation-Sampling-Verfahren angewendet.

Jetzt kann das Team mit einem Multi-View-Diffusionsmodell mehrere Ansichten eines Objekts erzeugen.

Der nächste Schritt besteht darin, diese Ansichten zu verwenden, um ein 3D-Modell zu rekonstruieren, das mit der realen Welt übereinstimmt und nicht nur mit der Ansicht.

Dies erfordert die Verwendung von NeRF (Neural Radiance Fields), genau wie bei dem zuvor erwähnten DreamFusion.

Grundsätzlich wird in diesem Schritt das zuvor trainierte Multi-View-Diffusionsmodell eingefroren. Das heißt, in diesem Schritt werden die Bilder der obigen Perspektiven nur „verwendet“ und nicht erneut „trainiert“.

Geleitet von den ersten Renderings begannen die Forscher mithilfe eines Multi-View-Diffusionsmodells, einige mit Rauschen versehene Versionen der ursprünglichen Bilder zu erzeugen.

Die Forscher fügten Rauschen hinzu, um dem Modell klarzumachen, dass es verschiedene Versionen des Bildes generieren musste, während es gleichzeitig den Kontext erfasste.

Das Modell wird dann verwendet, um weitere Bilder in höherer Qualität zu erzeugen.

Fügen Sie das Bild hinzu, das zur Generierung dieses Bildes verwendet wurde, und entfernen Sie das manuell hinzugefügte Rauschen, damit wir das Ergebnis im nächsten Schritt zur Steuerung und Verbesserung des NeRF-Modells verwenden können.

Bei diesen Schritten geht es darum, besser zu verstehen, auf welchen Teil des Bildes sich das NeRF-Modell konzentrieren sollte, um im nächsten Schritt bessere Ergebnisse zu erzielen.

Dieser Vorgang wird wiederholt, bis ein zufriedenstellendes 3D-Modell erstellt ist.

Auf diese Weise bewertete das Team die Bilderzeugungsqualität des Multi-View-Diffusionsmodells und ermittelte, wie sich unterschiedliche Designs auf die Leistung auswirken würden.

Zunächst verglichen sie die Auswahl von Aufmerksamkeitsmodulen zur Modellierung der Cross-View-Konsistenz.

Zu diesen Optionen gehören:

(1) Eindimensionale zeitliche Selbstaufmerksamkeit, die in Videodiffusionsmodellen weit verbreitet ist;

(2) Hinzufügen eines neuen 3D-Self-Attention-Moduls zum bestehenden Modell;

(3) Verwenden Sie das vorhandene 2D-Self-Attention-Modul erneut für 3D-Attention.

Um die Unterschiede zwischen diesen Modulen deutlich aufzuzeigen, verwendeten die Forscher in diesem Experiment 8 Frames mit 90-Grad-Blickwinkeländerungen, um das Modell zu trainieren, was der Einstellung des Videos näher kommt.

Gleichzeitig behielt das Forschungsteam im Experiment auch eine hohe Bildauflösung bei, nämlich 512 × 512, wie beim ursprünglichen Standarddefinitionsmodell. Die Ergebnisse sind in der folgenden Abbildung dargestellt. Die Forscher fanden heraus, dass selbst bei solch begrenzten Perspektivwechseln in statischen Szenen die zeitliche Selbstaufmerksamkeit immer noch durch den Inhaltswechsel beeinflusst wird und die Perspektivkonsistenz nicht aufrechterhalten werden kann.

Das Team vermutet, dass dies daran liegt, dass die zeitliche Aufmerksamkeit nur zwischen denselben Pixeln in unterschiedlichen Einzelbildern Informationen austauschen kann, während entsprechende Pixel bei einem Wechsel des Blickwinkels weit voneinander entfernt sein können.

Andererseits führt das Hinzufügen neuer 3D-Aufmerksamkeit ohne Lernkonsistenz zu einer erheblichen Qualitätsverschlechterung.

Die Forscher glauben, dass dies darauf zurückzuführen ist, dass das Erlernen neuer Parameter von Grund auf mehr Trainingsdaten und Zeit verbraucht, was für Situationen, in denen das 3D-Modell begrenzt ist, nicht geeignet ist. Die von den Forschern vorgeschlagene Strategie der Wiederverwendung von 2D-Selbstaufmerksamkeit erreicht die beste Konsistenz, ohne die Generierungsqualität zu beeinträchtigen.

Dem Team fiel außerdem auf, dass die Unterschiede zwischen diesen Modulen deutlich geringer waren, wenn die Bildgröße auf 256 und die Anzahl der Ansichten auf 4 reduziert wurden. Um jedoch die beste Konsistenz zu erreichen, trafen die Forscher ihre Auswahl auf Grundlage vorläufiger Beobachtungen in den folgenden Experimenten.

Darüber hinaus implementierten die Forscher für die Multi-View-Fraktionaldestillationsprobenahme die Anleitung zur Multi-View-Diffusion in der ThreeStudio-Bibliothek (THR), die die fortschrittlichsten Methoden zur Text-zu-3D-Modellgenerierung in einem einheitlichen Rahmen implementiert.

Die Forscher verwendeten die implizite Volumenimplementierung in ThreeStudio als 3D-Darstellung, die ein Hash-Raster mit mehreren Auflösungen enthält.

Für die Kameraansichten haben die Forscher die Kameras auf genau dieselbe Weise abgetastet wie beim Rendern des 3D-Datensatzes.

Darüber hinaus optimierten die Forscher das 3D-Modell mit dem AdamW-Optimierer für 10.000 Schritte mit einer Lernrate von 0,01.

Bei der Probenahme durch fraktionierte Destillation werden die maximalen und minimalen Zeitschritte in den ersten 8000 Schritten von 0,98 Schritten auf 0,5 Schritte bzw. 0,02 Schritte reduziert.

Die Rendering-Auflösung beginnt bei 64×64 und erhöht sich nach 5000 Schritten schrittweise auf 256×256.

Weitere Beispiele sind wie folgt:

Oben ist dargestellt, wie das Forschungsteam das 2D-Text-zu-Bild-Modell verwendet, es für die Multi-View-Synthese eingesetzt und es schließlich verwendet hat, um den Text-zu-3D-Modell-Prozess zu iterieren und zu erstellen.

Natürlich hat diese neue Methode noch gewisse Einschränkungen. Der wichtigste Nachteil ist, dass die jetzt generierten Bilder nur 256 x 256 Pixel groß sind, was einer sehr niedrigen Auflösung entspricht.

Darüber hinaus weisen die Forscher darauf hin, dass die Vielseitigkeit dieser Methode zwangsläufig durch die Größe des für diese Aufgabe verwendeten Datensatzes eingeschränkt wird. Denn ist der Datensatz zu klein, kann er unsere komplexe Welt nicht realistischer widerspiegeln.

Quellen:

https://www.louisbouchard.ai/mvdream/

https://arxiv.org/pdf/2308.16512.pdf