Stabilna sztuczna inteligencja wprowadza stabilną dyfuzję wideo do generowania tekstu na wideo

Według Decrypt firma Stability AI ogłosiła wydanie Stable Video Diffusion, narzędzia do konwersji tekstu na wideo zaprojektowanego do generowania tekstu na wideo i obrazu na wideo w wysokiej rozdzielczości. W artykule badawczym firmy podkreślono jej możliwości adaptacyjne i technologię open source, która pozwala na różne zastosowania w reklamie, edukacji i rozrywce. Rozwiązanie Stable Video Diffusion jest obecnie dostępne w wersji badawczej i twierdzi, że przewyższa metody oparte na obrazach przy ułamku ich budżetu obliczeniowego.
Stability AI opracowało dwa modele w ramach Stable Video Diffusion: SVD i SVD-XT. Model SVD przekształca nieruchome obrazy w filmy o rozdzielczości 576x1024 w 14 klatkach, podczas gdy SVD-XT wykorzystuje tę samą architekturę, ale rozciąga się do 24 klatek. Obydwa modele oferują generowanie wideo z szybkością od trzech do 30 klatek na sekundę, prezentując najnowocześniejszą technologię konwersji tekstu na wideo typu open source. Stable Video Diffusion konkuruje z innowacyjnymi modelami Pika Labs, Runway i Meta w szybko rozwijającej się dziedzinie generowania wideo AI.
Pomimo swoich osiągnięć technologicznych, Stability AI stoi przed wyzwaniami, w tym względami etycznymi związanymi z wykorzystaniem danych chronionych prawem autorskim w szkoleniach AI. Firma podkreśla, że ​​na tym etapie model nie jest przeznaczony do zastosowań rzeczywistych ani komercyjnych, skupiając się na jego udoskonaleniu w oparciu o opinie społeczności i względy bezpieczeństwa.

Stabilna sztuczna inteligencja wprowadza stabilną dyfuzję wideo do generowania tekstu na wideo

Ważny twórca

Najnowsze wiadomości