Alibaba Damo Academy lança "Modelo grande de vídeo para geração de texto"

De acordo com as notícias do "Metropolitan Express", a Alibaba Damo Academy lançou ontem um "grande modelo de vídeo gerado por texto" na comunidade ModelScope. De acordo com a introdução oficial, o modelo atual consiste em três sub-redes: extração de recursos de texto, recurso de texto para modelo de difusão de espaço latente de vídeo e espaço latente de vídeo para espaço visual de vídeo.Os parâmetros gerais do modelo são de cerca de 1,7 bilhão. Suporta entrada em inglês. O modelo de difusão usa a estrutura Unet3D para atingir a função de geração de vídeo por meio do processo iterativo de remoção de ruído a partir de vídeos de ruído gaussiano puro.
De acordo com notícias anteriores de fevereiro, a versão Alibaba do chatbot ChatGPT está em desenvolvimento e atualmente em fase de testes internos.
 #BNB  #bicasso