根据 Decrypt 报导,Stability AI 宣布发布 Stable Video Diffusion,这是一款专为高解析度文字到影片和影像到影片生成而设计的文字到影片工具。该公司的研究论文强调了其适应性和开源技术,可用于广告、教育和娱乐领域的各种应用。稳定视讯扩散目前已在研究预览中提供,并声称其计算预算的一小部分优于基于影像的方法。
Stability AI 在 Stable Video Diffusion 旗下开发了两种模型:SVD 和 SVD-XT。SVD 模型将静态图像转换为 14 帧的 576x1024 视频,而 SVD-XT 使用相同的架构,但扩展到 24 帧。这两种模型都提供每秒 3 到 30 帧的视频生成,展示了开源文本到视频技术的前沿。在快速发展的 AI 视频生成领域,Stable Video Diffusion 与 Pika Labs、Runway 和 Meta 的创新模型展开竞争。
尽管取得了技术成就,Stability AI 仍面临挑战,包括在 AI 训练中使用受版权保护的数据的道德考量。该公司强调,该模型目前不适用于现实世界或商业应用,而是专注于根据社区反馈和安全问题对其进行改进。
