據《都市快報》消息,阿里達摩院昨日在魔搭社區(ModelScope)放出了“文本生成視頻大模型”。根據官方介紹,目前這個模型,由文本特徵提取、文本特徵到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這 3 個子網絡組成,整體模型參數約 17 億。支持英文輸入。擴散模型採用 Unet3D 結構,通過從純高斯噪聲視頻中,迭代去噪的過程,實現視頻生成的功能。

此前 2 月消息,阿里版聊天機器人 ChatGPT 正在研發中,目前處於內測階段。

#BNB #bicasso