Según las noticias "Metropolitan Express", Alibaba Damo Academy lanzó ayer un "modelo grande de video generado por texto" en la comunidad ModelScope. Según la introducción oficial, el modelo actual consta de tres subredes: extracción de características de texto, modelo de difusión de características de texto a espacio latente de video y espacio latente de video a espacio visual de video. Los parámetros generales del modelo son aproximadamente 1,7 mil millones. Admite entrada en inglés. El modelo de difusión utiliza la estructura Unet3D para lograr la función de generación de video a través del proceso iterativo de eliminación de ruido a partir de videos con ruido gaussiano puro.

Según noticias anteriores de febrero, la versión Alibaba del chatbot ChatGPT está en desarrollo y actualmente se encuentra en la etapa de prueba interna.

#BNB #bicasso