Alibaba Damo akadēmija izlaiž "Teksta paaudzes video lielo modeli"

Saskaņā ar "Metropolitan Express" ziņām, Alibaba Damo Academy vakar ModelScope kopienā izlaida "teksta ģenerētu video lielo modeli". Saskaņā ar oficiālo ievadu pašreizējais modelis sastāv no trim apakštīkliem: teksta elementu izvilkšana, teksta funkcijas video latentās telpas difūzijas modelis un video latentās telpas video vizuālā telpa.Kopējie modeļa parametri ir aptuveni 1,7 miljardi. Atbalsta angļu valodas ievadi. Difūzijas modelī tiek izmantota Unet3D struktūra, lai sasniegtu video ģenerēšanas funkciju, izmantojot iteratīvo trokšņu slāpēšanas procesu no tīra Gausa trokšņa video.
Saskaņā ar iepriekšējām ziņām februārī, tērzēšanas robota ChatGPT Alibaba versija ir izstrādes stadijā un pašlaik atrodas iekšējās testēšanas stadijā.
 #BNB  #bicasso