造相-Z-Image-Turbo-标准工作流&优化版2K直出工作流-工作流-Dream2046-LiblibAI

造相 Z-Image-Turbo 大模型

模型文件：z-image-turbo_fp8_scaled_e4m3fn_KJ.safetensors

下载地址：****s://****liblib.art/modelinfo/90f2ea851e194090bafde30b2730f9b6

---------------------------------

造相-Z-Image-Turbo-标准工作流&优化版2K直出工作流

Z-Image工作流版本更新

V2.0 新增了局部重绘工作流以及多个亚洲人像LoRA

V1.0 文生图、图生图、提示词反推工作流

---------------------------------

官方Z-Image系列版本：

Z-Image-Turbo：快速推理版本 (已蒸馏精简)。

Z-Image-Base：基础版本，专为微调和自定义开发设计。

Z-Image-Edit：针对图像编辑任务微调的版本。

开源社区优化衍生版本版本区分：

Z-Image-Turbo-FP32(全精度 32 位版本) 16GB 显存可稳定运行1024×1024分辨率

Z-Image-Turbo-BF16(量化版本) 16 位脑浮点数，显存约 13-14GB，精度更高

Z-Image-Turbo-BF16-AIO(量化版/一体化版本) All-In-One将主模型、必要的配套组件整合打包后的版本，本地部署更加便捷

Z-Image-Turbo-FP8(量化版本) 8 位浮点数，显存占用约 8GB，可在消费级显卡运行

Z-Image-Turbo-INT4(INT4 量化) 4 位整数，极致压缩，显存占用极低

Z-Image-Turbo-De-Turbo(去蒸馏 + 微调) 移除蒸馏加速，恢复完整表达能力

Z-Image-Turbo-GGUF(GGUF 格式量化) 专为低配置设计

---------------------------------

造相 Z-Image-Turbo 简介

一、模型基础信息

• 模型定位与系列

造相 - Z-Image-Turbo 是阿里巴巴 Tongyi Lab 推出的Z-Image 系列图像生成模型中的蒸馏版本，该系列包含三个变体，目前仅 Z-Image-Turbo 开放下载，其余两变体（Z-Image-Base 基础模型、Z-Image-Edit 编辑模型）待发布。其中：

Z-Image-Base：非蒸馏基础模型，旨在支持社区微调与自定义开发；

Z-Image-Edit：基于 Z-Image 微调的图像编辑模型，支持自然语言指令驱动的精准图生图。

• 发布关键信息

发布时间：2025 年 11 月 27 日

支持格式：PyTorch、Safetensors、Diffusers

开源属性：完全开源（区别于 Google Imagen 4 Ultra、Gemini 2.5 Flash 等闭源模型）

二、核心技术与架构

模型架构：Scalable Single-Stream DiT（S3-DiT）

采用单流扩散 Transformer 架构，将文本 tokens、视觉语义 tokens、图像 VAE tokens 在序列层面拼接为统一输入流，相比双流架构大幅提升参数效率；输入处理依赖 Qwen3-4B（文本处理）、SigLip-2（视觉语义处理）及 VAE（图像嵌入）模块。

• 核心加速技术

Decoupled-DMD：8 步生成的核心蒸馏算法，将传统 DMD（分布匹配蒸馏）拆分为两个独立机制 ——CFG 增强（CA，蒸馏主引擎）与分布匹配（DM，稳定性正则化），实现少步生成性能提升；

DMDR：DMD 与强化学习（RL）的融合技术，进一步优化语义对齐、美学质量与结构一致性，增强高频细节生成能力。

三、关键性能与能力

• 效率与硬件适配

推理效率：仅需8 个 NFEs，企业级 H800 GPU 上实现亚秒级推理延迟；

显存需求：适配16G VRAM 消费级设备，普通用户可部署。

• 生成能力亮点

照片级写实：生成图像兼具真实感与美学质量；

双语文本渲染：精准渲染复杂中英文文本（如海报标题、日期、展览信息等）；

指令推理能力：通过 Prompt Enhancer 模块调用底层世界知识，超越表面描述（如为古诗《登科后》“春风得意马蹄疾，一日看尽长安花” 生成匹配场景图）。

关键问题

问题 1：Z-Image-Turbo 作为开源模型，相比同级别闭源模型（如 Google Gemini 2.5 Flash Image Preview）及其他开源模型（如 Qwen-Image），核心竞争优势是什么？

答案：其核心竞争优势体现在 “效率 - 性能 - 开源性” 的三重平衡：

效率优势：仅需 8 个 NFEs，在 H800 GPU 上实现亚秒级推理延迟，且适配 16G VRAM 消费级设备，远低于 Qwen-Image（20B 参数，显存需求更高）的部署门槛；

性能优势：在 AI Arena Elo 排行榜中以 1026 分位列总榜第 4、开源第 1，胜率 45%，与闭源的 Gemini 2.5 Flash Image Preview（1043 分，胜率 46%）性能接近，且超越同属阿里的 20B 参数 Qwen-Image（1007 分，胜率 41%）；

开源优势：完全开放 Checkpoint，支持社区微调与自定义开发，而 Gemini 2.5 Flash、Imagen 4 Ultra 等顶级模型均为闭源，无法二次开发。

问题 2：Z-Image-Turbo 的 Decoupled-DMD 算法是如何实现 “8 步高效生成” 的？相比传统 DMD 蒸馏方法有何改进？

答案：Decoupled-DMD 是实现 8 步生成的核心蒸馏算法，其逻辑与改进如下：

传统 DMD 的局限：传统 DMD 将 “CFG 增强” 与 “分布匹配” 视为单一机制，未区分二者作用，导致少步生成时性能与稳定性难以平衡；

Decoupled-DMD 的改进：将传统 DMD 拆分为两个独立且协作的机制 ——

CFG 增强（CA）：作为蒸馏 “主引擎”，负责提升少步生成的性能（此前被传统方法忽视）；

分布匹配（DM）：作为 “正则化器”，保障生成结果的稳定性与质量；

效果：通过单独优化 CA 与 DM，最终实现仅 8 个 NFEs 即可达到接近多步模型的生成质量，同时兼顾推理效率。

问题 3：普通用户在消费级设备（如 16G VRAM 显卡）上部署 Z-Image-Turbo 时，需注意哪些关键配置？如何进一步优化显存占用与推理速度？

答案：部署关键配置及优化手段如下：

基础配置要求：

硬件：16G VRAM 的 NVIDIA 显卡（支持 CUDA）；

软件：Python 环境、PyTorch（需支持 bfloat16）、diffusers（必须从源码安装，以获取 Z-Image 支持）；

核心参数：生成时需设置guidance_scale=0.0（Turbo 模型强制要求），num_inference_steps=9（对应实际 8 次 DiT 前向传播）。

显存优化手段：

启用pipe.enable_model_cpu_offload()：将非关键模块卸载到 CPU，降低 GPU 显存占用；

保持torch_dtype=torch.bfloat16：相比 float32 可减少 50% 显存占用，且性能损失极小。

速度优化手段：

启用 Flash Attention：若显卡支持，通过pipe.transformer.set_attention_backend("flash")（Flash Attention-2）或"_flash_3"（Flash Attention-3）加速注意力计算；

模型编译：执行pipe.transformer.compile()，首次运行耗时增加（编译过程），后续推理速度可显著提升。