阿里達摩院上線"文本生成視頻大模型”

據《都市快報》消息，阿里達摩院昨日在魔搭社區（ModelScope）放出了“文本生成視頻大模型”。根據官方介紹，目前這個模型，由文本特徵提取、文本特徵到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這 3 個子網絡組成，整體模型參數約 17 億。支持英文輸入。擴散模型採用 Unet3D 結構，通過從純高斯噪聲視頻中，迭代去噪的過程，實現視頻生成的功能。
此前 2 月消息，阿里版聊天機器人 ChatGPT 正在研發中，目前處於內測階段。
 #BNB  #bicasso