Wan2.1,是一个全面且开放的视频基础模型套件,它在视频生成方面突破了现有技术的界限。
Wan2.1 提供以下关键特性:
· 👍 SOTA 性能:Wan2.1 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
· 👍 支持消费级 GPU:T2V-1.3B 模型只需要 8.19 GB 的显存,使其几乎兼容所有消费级 GPU。它可以在 RTX 4090 上大约 4 分钟内生成一个 5 秒的 480P 视频(不使用量化等优化技术)。其性能甚至可以与一些闭源模型相媲美。
· 👍 多任务处理:Wan2.1 在文本到视频、图像到视频、视频编辑、文本到图像和视频到音频等多个任务中表现出色,推动了视频生成领域的发展。
· 👍 视觉文本生成:Wan2.1 是第一个能够生成中文和英文文本的视频模型,具备强大的文本生成能力,增强了其实用性。
图生视频
基本介绍
上传或拖拽一张图像作为视频的首帧,辅以文字描述视频的运动过程和运镜效果,支持中文和英文提示词描述。
提示词 = 主体 + 场景 + 运动
主体:主体是视频内容的主要表现对象,可以是人、动物、植物、物品或非物理真实存在的想象之物,真实空间或想象出来的虚构场景。
场景:场景是主体所处的环境,包含背景、前景,可以是物理存在的小幅度运动、大幅度运动、局部运动或整体动势。
运动:运动包含主体的具体运动和非主体的运动状态,可以是静止、小幅度运动、大幅度运动、局部运动或整体动势。