SVD模型在各大评测榜单的评分
更多介绍参考: https://www.datalearner.com/blog/1051700786899649 SVD模型简介SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。
这个模型可以生成14帧的576x1024分辨率的视频(还有一个SVD-XT版本,可以生成25帧的视频)。
下面的gif就是生成的样例~
SVD模型的训练细节SVD模型的训练分为3个阶段:
图像预训练:使用Stable Diffusion 2.1的图像模型进行初始化。这提供了强大的视觉表示能力。视频预训练:在预训练的图像模型中插入时空卷积和注意力层,构建视频模型的架构。在大规模视频数据集上预训练视频模型。该数据集是通过提出的系统性数据筛选方法获得,包含1.52亿视频样本。这一阶段是在较低分辨率下进行,获得通用的运动表示。高分辨率视频微调:使用少量高质量视频数据(约100万)在更高分辨率下进行模型微调。这是获得高分辨率、高质量视频生成的关键步骤。
注意,Stable Video Diffusion模型的参数没有完整公布,根据它是Stable Diffusion 2.1加入时空卷积和注意力层的模型架构,它的参数应该是大于Stable Diffusions 2.1。而SD 2.1模型的参数为9.83亿,因此,该模型的参数数量应该是超过10亿的。
训练技巧包括:
按分辨率调整noise schedule采用EDM训练框架使用vanilla分类无关指导生成连贯结果
SVD模型相关的信息表格总结如下:
SVD信息详细内容模型名称Stable Video Diffusion (SVD)架构基于Stable Diffusion 2.1,包括时序层和噪声调整训练阶段1. 图像预训练(2D文本到图像)2. 视频预训练(大量视频数据)3. 高质量视频微调(小型高质量视频数据集)基本模型训练初始分辨率256×384,迭代150k次;微调分辨率320×576,迭代100k次高分辨率文本到视频模型微调数据集约1M样本,分辨率576×1024,迭代50k次高分辨率图像到视频模型两个版本(14帧和25帧),具体的微调细节未提供Camera Motion LoRAs训练用于控制图像到视频生成中的相机运动,涵盖水平移动、变焦和静态帧插值通过预测两个条件帧内的三个帧来提高帧率,仅需迭代约10k次多视角生成在多视角数据集上微调,如Objaverse和MVImgNet,用于生成单个图像的多视角序列应用和性能用于高质量的文本到视频和图像到视频合成,多视角生成表现优于现有技术,且计算成本更低
注意,SVD模型的代码通过MIT协议开源,完全免费商用授权。但是预训练结果官方说只能用于研究目的(research purpose only),不可以商用!。
store是什么意思_store怎么读_中文翻译是什么?|解析索尼无源音箱SS-NA5ES舒适音质背后的故事