Laut Decrypt hat Stability AI die Veröffentlichung von Stable Video Diffusion angekündigt, einem Text-zu-Video-Tool, das für die Generierung von hochauflösendem Text zu Video und Bild zu Video entwickelt wurde. Das Forschungspapier des Unternehmens hebt seine Anpassungsfähigkeit und Open-Source-Technologie hervor, die verschiedene Anwendungen in Werbung, Bildung und Unterhaltung ermöglicht. Stable Video Diffusion ist derzeit in einer Forschungsvorschau verfügbar und soll bildbasierte Methoden bei einem Bruchteil ihres Rechenbudgets übertreffen.
Stability AI hat unter dem Dach von Stable Video Diffusion zwei Modelle entwickelt: SVD und SVD-XT. Das SVD-Modell wandelt Standbilder in 576 x 1024 Videos in 14 Bildern um, während SVD-XT dieselbe Architektur verwendet, aber auf 24 Bilder erweitert. Beide Modelle bieten Videogenerierung mit Bildraten von drei bis 30 Bildern pro Sekunde und demonstrieren damit den neuesten Stand der Open-Source-Text-to-Video-Technologie. Stable Video Diffusion konkurriert mit innovativen Modellen von Pika Labs, Runway und Meta im sich schnell entwickelnden Bereich der KI-Videogenerierung.
Trotz seiner technologischen Erfolge steht Stability AI vor Herausforderungen, darunter ethische Bedenken hinsichtlich der Verwendung urheberrechtlich geschützter Daten beim KI-Training. Das Unternehmen betont, dass das Modell in dieser Phase nicht für reale oder kommerzielle Anwendungen vorgesehen ist, und konzentriert sich darauf, es auf der Grundlage von Community-Feedback und Sicherheitsbedenken zu verfeinern.
