Decrypt によると、Stability AI は、高解像度のテキストからビデオ、および画像からビデオを生成するために設計されたテキストからビデオを生成するツールである Stable Video Diffusion のリリースを発表しました。同社の研究論文では、広告、教育、エンターテイメントのさまざまな用途を可能にする適応性とオープンソース技術が強調されています。Stable Video Diffusion は現在、研究プレビューで利用可能であり、コンピューティング予算のほんの一部で画像ベースの方法よりも優れたパフォーマンスを発揮すると主張しています。

Stability AI は、Stable Video Diffusion の傘下で SVD と SVD-XT という 2 つのモデルを開発しました。SVD モデルは静止画像を 14 フレームで 576x1024 のビデオに変換しますが、SVD-XT は同じアーキテクチャを使用しますが、24 フレームまで拡張します。どちらのモデルも、3 ~ 30 フレーム/秒のフレーム レートでビデオを生成し、オープンソースのテキストからビデオへの技術の最先端を示しています。Stable Video Diffusion は、急速に進化する AI ビデオ生成の分野で、Pika Labs、Runway、Meta の革新的なモデルと競合しています。

技術的成果にもかかわらず、Stability AI は、著作権で保護されたデータを AI トレーニングに使用することに関する倫理的配慮など、課題に直面しています。同社は、このモデルは現段階では現実世界や商用アプリケーション向けではないことを強調し、コミュニティからのフィードバックと安全性の懸念に基づいて改良することに重点を置いています。