Học viện Alibaba Damo ra mắt "Mô hình lớn video thế hệ văn bản"

Theo tin tức "Metropolitan Express", Học viện Alibaba Damo đã phát hành một "mô hình lớn video được tạo bằng văn bản" trong cộng đồng ModelScope ngày hôm qua. Theo giới thiệu chính thức, mô hình hiện tại bao gồm ba mạng con: trích xuất tính năng văn bản, tính năng văn bản cho mô hình khuếch tán không gian tiềm ẩn video và không gian tiềm ẩn video sang không gian hình ảnh video. Các thông số tổng thể của mô hình là khoảng 1,7 tỷ. Hỗ trợ đầu vào tiếng Anh. Mô hình khuếch tán sử dụng cấu trúc Unet3D để đạt được chức năng tạo video thông qua quá trình khử nhiễu lặp lại từ các video nhiễu Gaussian thuần túy.
Theo tin tức trước đó vào tháng 2, phiên bản chatbot ChatGPT của Alibaba đang được phát triển và hiện đang trong giai đoạn thử nghiệm nội bộ.
 #BNB  #bicasso