TokenFlow: Neue Diffusionsfunktionen für verbesserte KI-Videobearbeitung basierend auf Textaufforderungen

Mithilfe eines Text-zu-Bild-Diffusionsmodells bietet TokenFlow Benutzern die Möglichkeit, Quellvideos anhand bestimmter Textaufforderungen zu bearbeiten. Das Ergebnis? Eine verfeinerte Videoausgabe, die nicht nur mit der Eingabetextaufforderung übereinstimmt, sondern auch die räumliche Konfiguration und Bewegungsdynamik des Originalvideos beibehält. Diese Leistung basiert auf der wichtigsten Beobachtung von TokenFlow: Um die Konsistenz im bearbeiteten Video aufrechtzuerhalten, ist es zwingend erforderlich, die Konsistenz innerhalb des Diffusionsfunktionsraums durchzusetzen.
Die von TokenFlow verwendete Methode ist sowohl einzigartig als auch effizient. Anstatt sich auf umfangreiches Training oder Anpassungen zu verlassen, nutzt das Framework Diffusionsfunktionen, die aus den dem Modell innewohnenden Inter-Frame-Korrespondenzen abgeleitet werden. Dank dieser Funktion kann sich TokenFlow nahtlos an bereits vorhandene Text-zu-Bild-Bearbeitungstechniken anpassen.
Ein tieferer Einblick in die Methodik von TokenFlow zeigt, wie gut es gelingt, die zeitliche Konsistenz aufrechtzuerhalten. Das Framework stellt fest, dass die zeitliche Konsistenz eines Videos untrennbar mit der zeitlichen Konsistenz seiner Merkmalsdarstellung verbunden ist. Herkömmliche Methoden können beim Bearbeiten von Videos Bild für Bild diese natürliche Merkmalskonsistenz häufig stören. TokenFlow stellt jedoch sicher, dass diese Konsistenz unberührt bleibt.
Im Mittelpunkt dieses Prozesses steht die Methode von TokenFlow, mit der eine zeitlich konsistente Bearbeitung erreicht wird. Dies wird erreicht, indem während des Bearbeitungsvorgangs die Einheitlichkeit der internen Diffusionsmerkmale über verschiedene Frames hinweg betont wird. Dies wird durch die Ausbreitung eines ausgewählten Satzes bearbeiteter Merkmale über Frames hinweg erleichtert, wobei Verbindungen zwischen den ursprünglichen Videomerkmalen verwendet werden.
Der Vorgang läuft wie folgt ab:
Bei einem Eingabevideo wird jedes Frame invertiert, um seine Token zu extrahieren. Dabei handelt es sich im Wesentlichen um die Ausgabefunktionen von Self-Attention-Modulen.
Anschließend werden mithilfe einer Suche nach dem nächsten Nachbarn Merkmalskorrespondenzen zwischen den Bildern abgeleitet.
Beim Denoising werden Keyframes des Videos über einen Extended-Attention-Block gemeinsam bearbeitet, was zur Erstellung der bearbeiteten Token führt.
Diese bearbeiteten Token werden dann im Video verteilt, entsprechend den vorher festgelegten Entsprechungen der ursprünglichen Videofunktionen.
Es ist bemerkenswert, dass der Ansatz von TokenFlow zu einem Zeitpunkt kommt, an dem der Sektor der generativen KI einen Wandel hin zu Videos erlebt. Das Framework setzt mit seinem Fokus auf die Wahrung der räumlichen und Bewegungsaspekte von Eingabevideos bei gleichzeitiger Gewährleistung einer konsistenten Bearbeitung einen neuen Standard. Darüber hinaus beweist TokenFlow durch den Wegfall der Notwendigkeit von Schulungen oder Feinabstimmungen seine Anpassungsfähigkeit und sein Potenzial, harmonisch mit anderen Text-zu-Bild-Bearbeitungstools zusammenzuarbeiten. Diese Fähigkeit wurde durch die überlegenen Bearbeitungsergebnisse von TokenFlow bei einer Vielzahl von realen Videoinhalten weiter unter Beweis gestellt.
Lesen Sie mehr zum Thema KI:
Text-to-Video-Modell Gen-2 kann kurze Videos mithilfe von Textaufforderungen generieren
Lernen Sie Video-Inpainting kennen: Textgesteuerte Bearbeitung mit Stable Diffusion und Neural Atlases
Google überholt Meta mit der Einführung eines neuen Text-zu-Video-KI-Generators: Imagen Video 
Der Beitrag „TokenFlow: Neue Diffusionsfunktionen für verbesserte KI-Videobearbeitung basierend auf Textaufforderungen“ erschien zuerst auf Metaverse Post.