Wan2.1,这是一个全面且开放的视频基础模型套件,它在视频生成方面突破了现有技术的界限。Wan2.1 提供以下关键特性:
- 👍 SOTA 性能:Wan2.1 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
- 👍 支持消费级 GPU:T2V-1.3B 模型只需要 8.19 GB 的显存,使其几乎兼容所有消费级 GPU。它可以在 RTX 4090 上大约 4 分钟内生成一个 5 秒的 480P 视频(不使用量化等优化技术)。其性能甚至可以与一些闭源模型相媲美。
- 👍 多任务处理:Wan2.1 在文本到视频、图像到视频、视频编辑、文本到图像和视频到音频等多个任务中表现出色,推动了视频生成领域的发展。
- 👍 视觉文本生成:Wan2.1 是第一个能够生成中文和英文文本的视频模型,具备强大的文本生成能力,增强了其实用性。