Według Decrypt firma Stability AI ogłosiła wydanie Stable Video Diffusion, narzędzia do konwersji tekstu na wideo zaprojektowanego do generowania tekstu na wideo i obrazu na wideo w wysokiej rozdzielczości. W artykule badawczym firmy podkreślono jej możliwości adaptacyjne i technologię open source, która pozwala na różne zastosowania w reklamie, edukacji i rozrywce. Rozwiązanie Stable Video Diffusion jest obecnie dostępne w wersji badawczej i twierdzi, że przewyższa metody oparte na obrazach przy ułamku ich budżetu obliczeniowego.

Stability AI opracowało dwa modele w ramach Stable Video Diffusion: SVD i SVD-XT. Model SVD przekształca nieruchome obrazy w filmy o rozdzielczości 576x1024 w 14 klatkach, podczas gdy SVD-XT wykorzystuje tę samą architekturę, ale rozciąga się do 24 klatek. Obydwa modele oferują generowanie wideo z szybkością od trzech do 30 klatek na sekundę, prezentując najnowocześniejszą technologię konwersji tekstu na wideo typu open source. Stable Video Diffusion konkuruje z innowacyjnymi modelami Pika Labs, Runway i Meta w szybko rozwijającej się dziedzinie generowania wideo AI.

Pomimo swoich osiągnięć technologicznych, Stability AI stoi przed wyzwaniami, w tym względami etycznymi związanymi z wykorzystaniem danych chronionych prawem autorskim w szkoleniach AI. Firma podkreśla, że ​​na tym etapie model nie jest przeznaczony do zastosowań rzeczywistych ani komercyjnych, skupiając się na jego udoskonaleniu w oparciu o opinie społeczności i względy bezpieczeństwa.