「Metropolitan Express」のニュースによると、Alibaba Damo Academyは昨日、ModelScopeコミュニティで「テキスト生成ビデオ大規模モデル」をリリースしました。公式の紹介によると、現在のモデルはテキスト特徴抽出、テキスト特徴からビデオ潜在空間への拡散モデル、ビデオ潜在空間からビデオ視覚空間への 3 つのサブネットワークで構成されており、全体のモデル パラメータは約 17 億です。英語入力に対応しました。拡散モデルは Unet3D 構造を使用して、純粋なガウス ノイズ ビデオからの反復ノイズ除去プロセスを通じてビデオ生成機能を実現します。
2 月の以前のニュースによると、チャットボット ChatGPT の Alibaba バージョンは開発中で、現在内部テスト段階にあります。
