Alibaba Damo Academy запускает «Большую модель видео для генерации текста»

Согласно новостям Metropolitan Express, Alibaba Damo Academy вчера выпустила «большую модель текстового видео» в сообществе ModelScope. Согласно официальному представлению, текущая модель состоит из трех подсетей: извлечение текстовых признаков, модель диффузии текстовых признаков в скрытое пространство видео и видеоскрытое пространство в видеовизуальное пространство.Общие параметры модели составляют около 1,7 миллиарда. Поддерживает английский ввод. Модель диффузии использует структуру Unet3D для реализации функции генерации видео посредством итеративного процесса шумоподавления из видео с чистым гауссовским шумом.
Согласно предыдущим новостям за февраль, версия чат-бота ChatGPT для Alibaba находится в стадии разработки и в настоящее время находится на стадии внутреннего тестирования.