万相Wan2.2图生视频2025KJ加速版工作流-工作流-Dream2046-LiblibAI

万相Wan2.2图生视频2025KJ加速版工作流

通义万相Wan2.2是阿里巴巴于2025年7月28日开源的新一代电影级视频生成模型：

【开源模型】

开源可商用：Wan2.2系列模型基于 Apache2.0 开源协议，支持商业使用。

开源了三款模型，满足不同用户需求：

1.支持文本生成视频的 Wan2.2-T2V-A14B

2.支持图像转动态视频的 Wan2.2-I2V-A14B

3.支持文本生成视频及图像生成视频的混合模型 Wan2.2-TI2V-5B

其中14B模型有文生视频和图生视频两个版本，支持480P和720P的视频生成；

而5B模型则一个模型同时支持文生视频和图生视频两个任务，支持720P视频生成。

【技术架构】

采用混合专家 MoE 架构：Wan2.2 是业界首个在视频生成中使用混合专家（MoE）架构的模型，总参数量 27B，激活参数 14B，由高噪声专家模型和低噪专家模型组成，分别负责视频整体布局和细节完善，二者根据信噪比动态切换，同等参数规模下计算资源消耗降低约 50%。

Wan2.2 14B 高噪声专家负责早期去噪阶段的整体构图，后期阶段切换低噪声专家精修细节（切换点是0.875）。两个专家各约 14B 参数，总计 27B，但每步仅激活 14B，推理算力和显存几乎不变。每个专家的模型架构其实和Wan 2.1是一样的。采用两个专家模型在效果上也要比采用单一模型要好。

Wan2.2 5B 算是一个升级模型，因为之前Wan 2.1的小尺寸模型是1.3B。除了模型参数变大，这次Wan 2.2 5B还采用了新的VAE：Wan 2.2-VAE，相比之前的Wan 2.1-VAE，视频压缩率从4x8x8变成4x16x16，空间压缩率增加2x，送入DiT的token数减少4x，不过这里为了保证重建效果，latent的特征维度也从16变成了48。

【Wan2.2 5B 消费级(家用)显卡可跑】

为了更高效地部署视频生成模型，万相2.2探索了一种模型体积更小、信息下降率更高的技术路径。高压缩比视频生成，5B模型可部署消费级显卡。

Wan2.2-TI2V-5B可以在单个消费级GPU上在9分钟内生成5秒的720P视频，跻身最快的720P@24fps视频生成机型之列。

为了兼顾性能与部署的便捷性，wan 2.2版本开发了一个5B小参数版。这一版本比2.1版本的14B模型小了一半多。同时团队采用了自研高压缩比VAE结构，整体实现了在特征空间上16×16的高压缩率，是2.1版本压缩率（8×8）的四倍，从而显著降低了显存占用。

为了解决高压缩比带来的问题，团队在这个VAE的训练中引入了非对称的编码结构以及残差采样机制；同时其还增加了这个隐空间的维度，把原来的2.1版本的16位增加到了48位。这样使模型在更大的压缩率下保持了良好的重建质量。

此次开源的5B版本采用了高压缩比VAE结构，在视频生成的特征空间实现了视频高度（H）、宽度（W）与时间（T）维度上32×32×4的压缩比，有效减少了显存占用。5B版本可在消费级显卡上快速部署，仅需xx显存即可在xx秒内生成5秒720p视频。此外，5B版本实现了文本生成视频和图像生成视频的混合训练，单一模型可满足两大核心任务需求。

【数据扩容与美学精调】

图像数据较上一代增加 65.6%，视频数据增加 83.2%，提升了泛化能力和创作多样性。

首创电影级美学控制系统，融入光影、色彩、镜头语言等电影美学元素，编码 60 多个可控参数，经过细粒度训练，可生成具有专业电影质感的视频。

用户无需理解复杂的电影术语，只需在中文界面选择想要的美学关键词，如黄昏、柔光、侧光、冷色调、对称构图、特写等，系统将自动理解并精确响应，在后台智能调整灯光属性、摄像机参数、色彩滤镜等数十项技术指标。

【真实世界还原能力】

Wan2.2可生成复杂运动，强化物理世界还原能力在文生视频领域，生成基础、平缓的动作已非难事，但如何生成大幅度、高复杂度、高细节的动作，如街舞、体操等，始终是技术跃迁的关键挑战。

Wan2.2模型针对面部表情，手部动作，单人、多人交互、复杂动作等方面进行了专门优化，大幅提升了细微表情、灵巧手势、单人与多人交互、复杂体育运动等生成能力。比如，Wan2.2构建了人类面部原子动作和情绪表情系统。它不仅能生成如“开怀大笑”、“轻蔑冷笑”、“惊恐屏息”等典型情绪表达，更能细腻刻画“羞涩微笑中的脸颊微红”、“思考时不经意的挑眉”、“强忍泪水时的嘴唇颤抖”等复杂微表情，从而精准传达复杂的人物情绪与内心状态。

Wan2.2还构建了丰富的手部动作系统，能够生成从力量传递的基础物理操作、精细器具交互的复杂控制，到蕴含文化语义的手势符号体系，乃至专业领域的精密动作范式等手部动作。

【功能亮点突出】

多模态生成能力：支持文本生成视频、图像转动态视频以及文本 - 图像到视频三种模态，满足不同创作需求。

复杂动态表现力强：能轻松还原各类复杂运动，并强化运动的流畅度和可控性，使视频动作更加自然连贯。

精准语义遵循：对复杂场景和多目标生成等语义理解和遵循能力更强，能更好还原用户创作意图。

【应用场景广泛】

可用于内容创作，帮助创作者快速生成高质量视频；在艺术创作中实现个性化视觉风格表达；助力教育培训，将抽象知识可视化；还可应用于视频创作社区、广告制作、影视制作预览等场景。