万相Wan2.2图生视频2025KJ加速版工作流

通义万相Wan2.2是阿里巴巴于2025年7月28日开源的新一代电影级视频生成模型:


【开源模型】

开源可商用:Wan2.2系列模型基于 Apache2.0 开源协议,支持商业使用。

开源了三款模型,满足不同用户需求:

1.支持文本生成视频的 Wan2.2-T2V-A14B

2.支持图像转动态视频的 Wan2.2-I2V-A14B

3.支持文本生成视频及图像生成视频的混合模型 Wan2.2-TI2V-5B


其中14B模型有文生视频和图生视频两个版本,支持480P和720P的视频生成;

而5B模型则一个模型同时支持文生视频和图生视频两个任务,支持720P视频生成。


【技术架构】

采用混合专家 MoE 架构 :Wan2.2 是业界首个在视频生成中使用混合专家(MoE)架构的模型,总参数量 27B,激活参数 14B,由高噪声专家模型和低噪专家模型组成,分别负责视频整体布局和细节完善,二者根据信噪比动态切换,同等参数规模下计算资源消耗降低约 50%。


Wan2.2 14B 高噪声专家负责早期去噪阶段的整体构图,后期阶段切换低噪声专家精修细节(切换点是0.875)。两个专家各约 14B 参数,总计 27B,但每步仅激活 14B,推理算力和显存几乎不变。每个专家的模型架构其实和Wan 2.1是一样的。采用两个专家模型在效果上也要比采用单一模型要好。


Wan2.2 5B 算是一个升级模型,因为之前Wan 2.1的小尺寸模型是1.3B。除了模型参数变大,这次Wan 2.2 5B还采用了新的VAE:Wan 2.2-VAE,相比之前的Wan 2.1-VAE,视频压缩率从4x8x8变成4x16x16,空间压缩率增加2x,送入DiT的token数减少4x,不过这里为了保证重建效果,latent的特征维度也从16变成了48。


【Wan2.2 5B 消费级(家用)显卡可跑】

为了更高效地部署视频生成模型,万相2.2探索了一种模型体积更小、信息下降率更高的技术路径。高压缩比视频生成,5B模型可部署消费级显卡。


Wan2.2-TI2V-5B可以在单个消费级GPU上在9分钟内生成5秒的720P视频,跻身最快的720P@24fps视频生成机型之列。


为了兼顾性能与部署的便捷性,wan 2.2版本开发了一个5B小参数版。这一版本比2.1版本的14B模型小了一半多。同时团队采用了自研高压缩比VAE结构,整体实现了在特征空间上16×16的高压缩率,是2.1版本压缩率(8×8)的四倍,从而显著降低了显存占用。


为了解决高压缩比带来的问题,团队在这个VAE的训练中引入了非对称的编码结构以及残差采样机制;同时其还增加了这个隐空间的维度,把原来的2.1版本的16位增加到了48位。这样使模型在更大的压缩率下保持了良好的重建质量。


此次开源的5B版本采用了高压缩比VAE结构,在视频生成的特征空间实现了视频高度(H)、宽度(W)与时间(T)维度上32×32×4的压缩比,有效减少了显存占用。5B版本可在消费级显卡上快速部署,仅需xx显存即可在xx秒内生成5秒720p视频。此外,5B版本实现了文本生成视频和图像生成视频的混合训练,单一模型可满足两大核心任务需求。


【数据扩容与美学精调】

图像数据较上一代增加 65.6%,视频数据增加 83.2%,提升了泛化能力和创作多样性。

首创电影级美学控制系统,融入光影、色彩、镜头语言等电影美学元素,编码 60 多个可控参数,经过细粒度训练,可生成具有专业电影质感的视频。

用户无需理解复杂的电影术语,只需在中文界面选择想要的美学关键词,如黄昏、柔光、侧光、冷色调、对称构图、特写等,系统将自动理解并精确响应,在后台智能调整灯光属性、摄像机参数、色彩滤镜等数十项技术指标。


【真实世界还原能力】

Wan2.2可生成复杂运动,强化物理世界还原能力在文生视频领域,生成基础、平缓的动作已非难事,但如何生成大幅度、高复杂度、高细节的动作,如街舞、体操等,始终是技术跃迁的关键挑战。


Wan2.2模型针对面部表情,手部动作,单人、多人交互、复杂动作等方面进行了专门优化,大幅提升了细微表情、灵巧手势、单人与多人交互、复杂体育运动等生成能力。比如,Wan2.2构建了人类面部原子动作和情绪表情系统。它不仅能生成如“开怀大笑”、“轻蔑冷笑”、“惊恐屏息”等典型情绪表达,更能细腻刻画“羞涩微笑中的脸颊微红”、“思考时不经意的挑眉”、“强忍泪水时的嘴唇颤抖”等复杂微表情,从而精准传达复杂的人物情绪与内心状态。


Wan2.2还构建了丰富的手部动作系统,能够生成从力量传递的基础物理操作、精细器具交互的复杂控制,到蕴含文化语义的手势符号体系,乃至专业领域的精密动作范式等手部动作。


【功能亮点突出】

多模态生成能力 :支持文本生成视频、图像转动态视频以及文本 - 图像到视频三种模态,满足不同创作需求。

复杂动态表现力强 :能轻松还原各类复杂运动,并强化运动的流畅度和可控性,使视频动作更加自然连贯。

精准语义遵循 :对复杂场景和多目标生成等语义理解和遵循能力更强,能更好还原用户创作意图。


【应用场景广泛】

可用于内容创作,帮助创作者快速生成高质量视频;在艺术创作中实现个性化视觉风格表达;助力教育培训,将抽象知识可视化;还可应用于视频创作社区、广告制作、影视制作预览等场景。