Według wiadomości „Metropolitan Express”, Alibaba Damo Academy udostępniła wczoraj w społeczności ModelScope „duży model wideo wygenerowany tekstowo”. Zgodnie z oficjalnym wprowadzeniem, obecny model składa się z trzech podsieci: ekstrakcji cech tekstowych, modelu dyfuzji treści tekstowych do przestrzeni ukrytej wideo i przestrzeni ukrytej wideo do przestrzeni wizualnej wideo. Ogólne parametry modelu wynoszą około 1,7 miliarda. Obsługuje wprowadzanie w języku angielskim. Model dyfuzji wykorzystuje strukturę Unet3D, aby osiągnąć funkcję generowania wideo poprzez iteracyjny proces odszumiania z filmów z czystym szumem Gaussa.

Według poprzednich wiadomości z lutego, wersja chatbota ChatGPT Alibaba jest w fazie rozwoju i obecnie znajduje się na etapie wewnętrznych testów.

#BNB #bicasso