Stable Video Diffusion

什么是 Stable Video Diffusion？

Stable Video Diffusion 是 Stability AI 发布的基于图像模型 Stable Diffusion 的第一个生成视频的基础模型。它是一个先进的生成式 AI 视频模型，代表着为每个人创建各种类型模型的重要一步。Stable Video Diffusion 可以适应各种下游任务，包括从单一图像进行多视角合成和在多视角数据集上进行微调。它以两种图像到视频的模型形式发布，能够在每秒3到30帧之间自定义帧率生成14到25帧。Stable Video Diffusion 是 Stability AI 多样化开源模型系列的一部分，涵盖图像、语言、音频、3D和代码，展示了 Stability AI 提升人类智能的承诺。

Stable Video Diffusion 特点

代码可用性和模型权重

Stable Video Diffusion 的代码已在 Stability AI 的 GitHub 仓库中提供。此外，运行模型所需的权重可以通过他们的 Hugging Face 页面访问。

适应各种任务

该视频模型可适应多种下游任务，包括从单一图像进行多视角合成和在多视角数据集上的微调。Stability AI 计划开发多种基于并扩展这个基础模型的模型。

文本到视频界面

正在开发一种新的网页体验，特色是文本到视频界面。这个工具展示了 Stable Video Diffusion 在广告、教育、娱乐等领域的实际应用。

图像到视频模型

Stable Video Diffusion 提供了两种图像到视频的模型形式，能够在每秒3到30帧之间的自定义帧率生成14到25帧。

当前开发阶段

该模型目前处于研究预览阶段，尚未用于现实世界或商业应用。关于安全和质量的见解和反馈对于完善该模型，为其最终发布做准备至关重要。

对开源模型的贡献

这是对 Stability AI 多样化开源模型系列的重要补充，涵盖了图像、语言、音频、3D 和代码，展示了他们致力于增强人类智能的承诺。