Potrivit știrilor „Metropolitan Express”, Alibaba Damo Academy a lansat ieri un „model mare video generat de text” în comunitatea ModelScope. Conform introducerii oficiale, modelul actual constă din trei subrețele: extragerea caracteristicilor textului, modelul de difuzare a caracteristicilor textului către spațiu latent video și spațiul latent video către spațiul vizual video.Parametrii generali ai modelului sunt de aproximativ 1,7 miliarde. Acceptă introducerea în limba engleză. Modelul de difuzie folosește structura Unet3D pentru a realiza funcția de generare video prin procesul de dezgomot iterativ din videoclipuri cu zgomot Gaussian pur.
Conform știrilor anterioare din februarie, versiunea Alibaba a chatbot-ului ChatGPT este în curs de dezvoltare și se află în prezent în stadiul de testare internă.
