Qwen-Image-Layered-FP8 图像分层编辑

模型文件:qwen_image_layered_fp8_e4m3fn.safetensors

*Qwen-Image-Layered 根据 Apache 2.0 许可证授权(支持商用、修改、分发)。

图像分层编辑工作流地址(在线可用)https://www.liblib.art/modelinfo/945ed4ef6335455196038fb53109c20c

------------------------------

Qwen-Image-Layered 图像分层编辑

Qwen-Image-Layered 是一款支持将图像分解为多个可独立编辑 RGBA 图层 的模型(参数规模 28.85B,文件大小 57.72GB,更新于 2025-12-19,遵循 Apache 2.0 协议),可实现改色、替换、修改文字、删除、缩放、移动等高精度操作,支持 3 层、8 层等 可变层数分解 及 递归无限分解,使用需依赖 transformers≥4.51.3(支持 Qwen2.5-VL)和最新版 diffusers,适配中英文场景,为图像编辑提供灵活高效的解决方案。

------------------------------

展示

应用中的分层分解

给定一张图像,Qwen-Image-Layered 可以将其分解为几个 RGBA 层:示例图像

分解后,编辑仅应用于目标层,从而在物理上将其与其他内容隔离开来,从而从根本上确保编辑的一致性。

例如,我们可以重新着色第一层并保持所有其他内容不变:示例图像


我们还可以将第二层从女孩改为男孩(目标层使用 Qwen-Image-Edit 进行编辑):示例图像


这里,我们将文本修改为 "Qwen-Image"(目标层使用 Qwen-Image-Edit 进行编辑):示例图像

此外,分层结构自然支持基础操作。例如,我们可以干净地删除不需要的对象:示例图像

我们还可以无失真地调整对象的大小:示例图像

在分层分解后,我们可以在画布内自由移动对象:示例图像

灵活且迭代的分解

Qwen-Image-Layered 不限于固定数量的层。该模型支持可变层数的分解。例如,我们可以根据需要将图像分解为 3 层或 8 层:

示例图像

此外,分解可以递归应用:任何层都可以进一步分解,从而实现无限分解。

------------------------------

Qwen-Image-Layered 扩散模型

Qwen-Image-Layered 是阿里通义千问团队开源的端到端扩散模型,核心能力是将单张 RGB 图像解耦为多个语义独立的 RGBA 图层,支持独立编辑而不影响其他内容,实现 “生成即分层、编辑即原子操作” 的工作流,适合设计、电商、内容创作与自动化修图等场景。

核心特性与能力

语义分层分解:自动拆分前景 / 背景、物体、文字等,输出带透明度的 RGBA 图层,可直接导入 Photoshop 等工具。

独立编辑:缩放、旋转、替换、改色、删除等仅作用于目标层,边缘与光影一致性好。

可变层数与递归分解:支持灵活设定层数,也可对已分解的图层再次细分,适配不同复杂度需求。

端到端与无外部分割依赖:采用自研 RGBA-VAE 与 VLD-MMDiT,无需额外分割模型,流程更简洁、精度更稳。

自然语言控制:用提示词指定分层策略与编辑目标,降低专业门槛。

技术架构要点

基础范式:扩散模型,端到端训练与推理,统一分解与生成链路。

关键组件:RGBA-VAE 负责图层的高效编码 / 解码;VLD-MMDiT 实现可变长度分解与语义对齐;注意力机制优化图层间解耦与一致性。

输入 / 输出:输入为 RGB 图像与提示词;输出为多通道 RGBA 图层栈,支持导出 PNG 序列供后续编辑。

典型应用场景

设计与创意:海报、电商主图、插画的分层修改与复用,快速换背景 / 换主体 / 改文案。

自动化修图:批量抠图、统一改色、水印 / Logo 替换、证件照背景切换。

内容二次创作:视频帧分层、游戏素材拆分、UI 组件提取与重构。

工具集成:嵌入设计软件、AI 绘画平台、批量处理流水线,提供 API / 本地部署两种形态。

快速上手与获取

论文与开源:arXiv 2512.15603;Hugging Face 等社区已提供权重与示例代码,支持本地部署与微调。

部署与调用:可本地跑(需 GPU),也可对接通义千问 API;常见框架如 ComfyUI、Diffusers 生态已有适配插件,适合快速验证。

提示词示例:“将这张电商主图分解为背景、产品、文字三个 RGBA 图层”“把产品图层改为红色,保持其他图层不变”。

优势与局限

优势:语义解耦强、边缘干净、可递归分解、端到端流程、开源可定制。

局限:复杂场景(如重叠物体、低分辨率)可能出现分层错误;生成速度与显存占用取决于层数与分辨率,需适当调参或降分辨率。