Laut den Nachrichten von „Metropolitan Express“ hat die Alibaba Damo Academy gestern ein „textgeneriertes Video-Großmodell“ in der ModelScope-Community veröffentlicht. Laut der offiziellen Einführung besteht das aktuelle Modell aus drei Teilnetzwerken: Textmerkmalsextraktion, Textmerkmal-Video-Latentraum-Diffusionsmodell und Video-Latentraum-Video-Visual-Space. Die Gesamtmodellparameter betragen etwa 1,7 Milliarden. Unterstützt die englische Eingabe. Das Diffusionsmodell verwendet die Unet3D-Struktur, um die Funktion der Videogenerierung durch den iterativen Entrauschungsprozess aus reinen Gaußschen Rauschvideos zu erreichen.
Laut früheren Nachrichten vom Februar befindet sich die Alibaba-Version des Chatbots ChatGPT in der Entwicklung und befindet sich derzeit in der internen Testphase.
