Wan 2.2
是新推出的新一代多模态生成模型。该模型采用创新的 MoE(Mixture of Experts)架构,由高噪声和低噪声专家模型组成,并可根据去噪时间步长划分专家模型,从而生成更高质量的视频内容。Wan 2.2 拥有三大核心特性:电影级美学管控,深度融合专业电影行业美学标准,支持灯光、色彩、构图等多维度视觉管控;大规模复杂运动,轻松还原各种复杂运动,提升运动的流畅度和可控性;精准语义遵从,擅长复杂场景和多对象生成,更好地还原用户的创作意图。该模型支持文本转视频、图像转视频等多种生成模式,适用于内容创作、艺术创作、教育培训等应用场景。
模型亮点
- 电影级美学控制:专业相机语言,支持灯光、色彩、构图等多维度视觉控制
- 大规模复杂运动:平滑还原各种复杂运动,增强运动的可控性和自然度
- 精准语义遵从:复杂场景理解,多对象生成,更好还原创作意图
- 高效压缩技术:5B版本高压缩比VAE,内存优化,支持混合训练
Wan2.2开源模型版本Wan2.2系列模型基于Apache 2.0开源许可证,支持商业使用。Apache 2.0许可证允许您自由使用、修改和分发这些模型,包括用于商业用途,只要您保留原始版权声明和许可证文本。
| 模型类型 | 型号名称 | 参数 | 主要功能 | 模型库 |
|---|---|---|---|---|
| 混合模型 | Wan2.2-TI2V-5B | 5B | 混合版本同时支持文本转视频和图像转视频,单一模型满足两大核心任务需求 | 🤗 Wan2.2-TI2V-5B |
| 图像转视频 | Wan2.2-I2V-A14B | 14B | 将静态图像转换为动态视频,保持内容一致性和动态过程的流畅性 | 🤗 Wan2.2-I2V-A14B |
| 文字转视频 | Wan2.2-T2V-A14B | 14B | 根据文字描述生成高质量视频,拥有影院级的审美把控和精准的语义契合 | 🤗 Wan2.2-T2V-A14B |
对应模型:
- wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
- wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
- wan_2.1_vae.safetensors
- umt5_xxl_fp8_e4m3fn_scaled.safetensors
操作步骤:
- 确保第一个
Load Diffusion Model节点加载wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors模型。 - 确保第二个
Load Diffusion Model节点加载wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors模型。 - 确保
Load CLIP节点加载umt5_xxl_fp8_e4m3fn_scaled.safetensors模型。 - 确保
Load VAE节点加载wan_2.1_vae.safetensors模型。 - (可选)在
EmptyHunyuanLatentVideo节点中,您可以调整大小设置和视频帧总数(length)。 - (可选)如果需要修改提示(正面和负面),请在
CLIP Text Encoder步骤5的节点中进行修改。 - 点击
Run按钮,或者使用快捷方式Ctrl(cmd) + Enter执行视频生成。
