Qwen-Image-Layered-FP8-Checkpoint-Dream2046-LiblibAI

Qwen-Image-Layered-FP8 图像分层编辑

模型文件：qwen_image_layered_fp8_e4m3fn.safetensors

*Qwen-Image-Layered 根据 Apache 2.0 许可证授权（支持商用、修改、分发）。

图像分层编辑工作流地址（在线可用）https://www.liblib.art/modelinfo/945ed4ef6335455196038fb53109c20c

------------------------------

Qwen-Image-Layered 图像分层编辑

Qwen-Image-Layered 是一款支持将图像分解为多个可独立编辑 RGBA 图层的模型（参数规模 28.85B，文件大小 57.72GB，更新于 2025-12-19，遵循 Apache 2.0 协议），可实现改色、替换、修改文字、删除、缩放、移动等高精度操作，支持 3 层、8 层等可变层数分解及递归无限分解，使用需依赖 transformers≥4.51.3（支持 Qwen2.5-VL）和最新版 diffusers，适配中英文场景，为图像编辑提供灵活高效的解决方案。

------------------------------

展示

应用中的分层分解

给定一张图像，Qwen-Image-Layered 可以将其分解为几个 RGBA 层：示例图像

分解后，编辑仅应用于目标层，从而在物理上将其与其他内容隔离开来，从而从根本上确保编辑的一致性。

例如，我们可以重新着色第一层并保持所有其他内容不变：示例图像

我们还可以将第二层从女孩改为男孩（目标层使用 Qwen-Image-Edit 进行编辑）：示例图像

这里，我们将文本修改为 "Qwen-Image"（目标层使用 Qwen-Image-Edit 进行编辑）：示例图像

此外，分层结构自然支持基础操作。例如，我们可以干净地删除不需要的对象：示例图像

我们还可以无失真地调整对象的大小：示例图像

在分层分解后，我们可以在画布内自由移动对象：示例图像

灵活且迭代的分解

Qwen-Image-Layered 不限于固定数量的层。该模型支持可变层数的分解。例如，我们可以根据需要将图像分解为 3 层或 8 层：

示例图像

此外，分解可以递归应用：任何层都可以进一步分解，从而实现无限分解。

------------------------------

Qwen-Image-Layered 扩散模型

Qwen-Image-Layered 是阿里通义千问团队开源的端到端扩散模型，核心能力是将单张 RGB 图像解耦为多个语义独立的 RGBA 图层，支持独立编辑而不影响其他内容，实现 “生成即分层、编辑即原子操作” 的工作流，适合设计、电商、内容创作与自动化修图等场景。

核心特性与能力

语义分层分解：自动拆分前景 / 背景、物体、文字等，输出带透明度的 RGBA 图层，可直接导入 Photoshop 等工具。

独立编辑：缩放、旋转、替换、改色、删除等仅作用于目标层，边缘与光影一致性好。

可变层数与递归分解：支持灵活设定层数，也可对已分解的图层再次细分，适配不同复杂度需求。

端到端与无外部分割依赖：采用自研 RGBA-VAE 与 VLD-MMDiT，无需额外分割模型，流程更简洁、精度更稳。

自然语言控制：用提示词指定分层策略与编辑目标，降低专业门槛。

技术架构要点

基础范式：扩散模型，端到端训练与推理，统一分解与生成链路。

关键组件：RGBA-VAE 负责图层的高效编码 / 解码；VLD-MMDiT 实现可变长度分解与语义对齐；注意力机制优化图层间解耦与一致性。

输入 / 输出：输入为 RGB 图像与提示词；输出为多通道 RGBA 图层栈，支持导出 PNG 序列供后续编辑。

典型应用场景

设计与创意：海报、电商主图、插画的分层修改与复用，快速换背景 / 换主体 / 改文案。

自动化修图：批量抠图、统一改色、水印 / Logo 替换、证件照背景切换。

内容二次创作：视频帧分层、游戏素材拆分、UI 组件提取与重构。

工具集成：嵌入设计软件、AI 绘画平台、批量处理流水线，提供 API / 本地部署两种形态。

快速上手与获取

论文与开源：arXiv 2512.15603；Hugging Face 等社区已提供权重与示例代码，支持本地部署与微调。

部署与调用：可本地跑（需 GPU），也可对接通义千问 API；常见框架如 ComfyUI、Diffusers 生态已有适配插件，适合快速验证。

提示词示例：“将这张电商主图分解为背景、产品、文字三个 RGBA 图层”“把产品图层改为红色，保持其他图层不变”。

优势与局限

优势：语义解耦强、边缘干净、可递归分解、端到端流程、开源可定制。

局限：复杂场景（如重叠物体、低分辨率）可能出现分层错误；生成速度与显存占用取决于层数与分辨率，需适当调参或降分辨率。