Menurut berita "Metropolitan Express", Alibaba Damo Academy merilis "model besar video yang dihasilkan teks" di komunitas ModelScope kemarin. Menurut pengenalan resmi, model saat ini terdiri dari tiga sub-jaringan: ekstraksi fitur teks, model difusi ruang laten fitur teks ke video, dan ruang laten video ke ruang visual video.Parameter model keseluruhan adalah sekitar 1,7 miliar. Mendukung masukan bahasa Inggris. Model difusi menggunakan struktur Unet3D untuk mencapai fungsi pembuatan video melalui proses denoising berulang dari video noise Gaussian murni.
Menurut berita sebelumnya pada bulan Februari, chatbot ChatGPT versi Alibaba sedang dalam pengembangan dan saat ini sedang dalam tahap pengujian internal.
