Secondo le notizie di "Metropolitan Express", Alibaba Damo Academy ha rilasciato ieri un "grande modello video generato da testo" nella comunità ModelScope. Secondo l'introduzione ufficiale, il modello attuale è costituito da tre sottoreti: estrazione delle caratteristiche del testo, modello di diffusione delle caratteristiche del testo nello spazio latente del video e spazio latente del video nello spazio visivo del video. I parametri complessivi del modello sono circa 1,7 miliardi. Supporta l'input in inglese. Il modello di diffusione utilizza la struttura Unet3D per ottenere la funzione di generazione video attraverso il processo iterativo di denoising da video con rumore gaussiano puro.

Secondo precedenti notizie di febbraio, la versione Alibaba del chatbot ChatGPT è in fase di sviluppo ed è attualmente in fase di test interno.

#BNB #bicasso