Podle zpráv "Metropolitan Express" včera Alibaba Damo Academy vydala "textově generovaný videovelký model" v komunitě ModelScope. Podle oficiálního úvodu se současný model skládá ze tří podsítí: extrakce textových prvků, model difúze textového prvku do latentního prostoru videa a video latentního prostoru do video vizuálního prostoru.Celkové parametry modelu jsou asi 1,7 miliardy. Podporuje anglický vstup. Difúzní model využívá strukturu Unet3D k dosažení funkce generování videa prostřednictvím iterativního procesu odšumování z videí s čistým gaussovským šumem.
Podle předchozích únorových zpráv je verze Alibaba chatbota ChatGPT ve vývoji a momentálně je ve fázi interního testování.
