Selon les informations du "Metropolitan Express", Alibaba Damo Academy a publié hier un "grand modèle vidéo généré par texte" dans la communauté ModelScope. Selon l'introduction officielle, le modèle actuel se compose de trois sous-réseaux : l'extraction de caractéristiques de texte, le modèle de diffusion de caractéristiques de texte vers l'espace latent vidéo et l'espace latent vidéo vers l'espace visuel vidéo. Les paramètres globaux du modèle sont d'environ 1,7 milliard. Prend en charge la saisie en anglais. Le modèle de diffusion utilise la structure Unet3D pour réaliser la fonction de génération vidéo grâce au processus de débruitage itératif à partir de vidéos à bruit gaussien pur.
Selon des informations précédentes en février, la version Alibaba du chatbot ChatGPT est en cours de développement et est actuellement en phase de tests internes.
