造相 Z-Image-Turbo 大模型

模型文件:z-image-turbo_fp8_scaled_e4m3fn_KJ.safetensors

下载地址:https://www.liblib.art/modelinfo/90f2ea851e194090bafde30b2730f9b6

---------------------------------

造相-Z-Image-Turbo-标准工作流&优化版2K直出工作流

Z-Image工作流版本更新

V2.0 新增了   局部重绘工作流  以及 多个 亚洲人像LoRA

V1.0   文生图、图生图、提示词反推 工作流

---------------------------------

官方Z-Image系列版本:

Z-Image-Turbo:快速推理版本 (已蒸馏精简)。

Z-Image-Base:基础版本,专为微调和自定义开发设计。

Z-Image-Edit:针对图像编辑任务微调的版本。

开源社区优化衍生版本版本区分:

Z-Image-Turbo-FP32(全精度 32 位版本)  16GB 显存可稳定运行1024×1024分辨率

Z-Image-Turbo-BF16(量化版本)  16 位脑浮点数,显存约 13-14GB,精度更高

Z-Image-Turbo-BF16-AIO(量化版/一体化版本) All-In-One将主模型、必要的配套组件整合打包后的版本,本地部署更加便捷

Z-Image-Turbo-FP8(量化版本) 8 位浮点数,显存占用约 8GB,可在消费级显卡运行

Z-Image-Turbo-INT4(INT4 量化) 4 位整数,极致压缩,显存占用极低

Z-Image-Turbo-De-Turbo(去蒸馏 + 微调) 移除蒸馏加速,恢复完整表达能力

Z-Image-Turbo-GGUF(GGUF 格式量化) 专为低配置设计

---------------------------------

造相 Z-Image-Turbo 简介

一、模型基础信息

• 模型定位与系列

造相 - Z-Image-Turbo 是阿里巴巴 Tongyi Lab 推出的Z-Image 系列图像生成模型中的蒸馏版本,该系列包含三个变体,目前仅 Z-Image-Turbo 开放下载,其余两变体(Z-Image-Base 基础模型、Z-Image-Edit 编辑模型)待发布。其中:

Z-Image-Base:非蒸馏基础模型,旨在支持社区微调与自定义开发;

Z-Image-Edit:基于 Z-Image 微调的图像编辑模型,支持自然语言指令驱动的精准图生图。

• 发布关键信息

发布时间:2025 年 11 月 27 日

支持格式:PyTorch、Safetensors、Diffusers

开源属性:完全开源(区别于 Google Imagen 4 Ultra、Gemini 2.5 Flash 等闭源模型)

二、核心技术与架构

模型架构:Scalable Single-Stream DiT(S3-DiT)

采用单流扩散 Transformer 架构,将文本 tokens、视觉语义 tokens、图像 VAE tokens 在序列层面拼接为统一输入流,相比双流架构大幅提升参数效率;输入处理依赖 Qwen3-4B(文本处理)、SigLip-2(视觉语义处理)及 VAE(图像嵌入)模块。

• 核心加速技术

Decoupled-DMD:8 步生成的核心蒸馏算法,将传统 DMD(分布匹配蒸馏)拆分为两个独立机制 ——CFG 增强(CA,蒸馏主引擎)与分布匹配(DM,稳定性正则化),实现少步生成性能提升;

DMDR:DMD 与强化学习(RL)的融合技术,进一步优化语义对齐、美学质量与结构一致性,增强高频细节生成能力。

三、关键性能与能力

• 效率与硬件适配

推理效率:仅需8 个 NFEs,企业级 H800 GPU 上实现亚秒级推理延迟;

显存需求:适配16G VRAM 消费级设备,普通用户可部署。

• 生成能力亮点

照片级写实:生成图像兼具真实感与美学质量;

双语文本渲染:精准渲染复杂中英文文本(如海报标题、日期、展览信息等);

指令推理能力:通过 Prompt Enhancer 模块调用底层世界知识,超越表面描述(如为古诗《登科后》“春风得意马蹄疾,一日看尽长安花” 生成匹配场景图)。

关键问题

问题 1:Z-Image-Turbo 作为开源模型,相比同级别闭源模型(如 Google Gemini 2.5 Flash Image Preview)及其他开源模型(如 Qwen-Image),核心竞争优势是什么?

答案:其核心竞争优势体现在 “效率 - 性能 - 开源性” 的三重平衡:

效率优势:仅需 8 个 NFEs,在 H800 GPU 上实现亚秒级推理延迟,且适配 16G VRAM 消费级设备,远低于 Qwen-Image(20B 参数,显存需求更高)的部署门槛;

性能优势:在 AI Arena Elo 排行榜中以 1026 分位列总榜第 4、开源第 1,胜率 45%,与闭源的 Gemini 2.5 Flash Image Preview(1043 分,胜率 46%)性能接近,且超越同属阿里的 20B 参数 Qwen-Image(1007 分,胜率 41%);

开源优势:完全开放 Checkpoint,支持社区微调与自定义开发,而 Gemini 2.5 Flash、Imagen 4 Ultra 等顶级模型均为闭源,无法二次开发。

问题 2:Z-Image-Turbo 的 Decoupled-DMD 算法是如何实现 “8 步高效生成” 的?相比传统 DMD 蒸馏方法有何改进?

答案:Decoupled-DMD 是实现 8 步生成的核心蒸馏算法,其逻辑与改进如下:

传统 DMD 的局限:传统 DMD 将 “CFG 增强” 与 “分布匹配” 视为单一机制,未区分二者作用,导致少步生成时性能与稳定性难以平衡;

Decoupled-DMD 的改进:将传统 DMD 拆分为两个独立且协作的机制 ——

CFG 增强(CA):作为蒸馏 “主引擎”,负责提升少步生成的性能(此前被传统方法忽视);

分布匹配(DM):作为 “正则化器”,保障生成结果的稳定性与质量;

效果:通过单独优化 CA 与 DM,最终实现仅 8 个 NFEs 即可达到接近多步模型的生成质量,同时兼顾推理效率。

问题 3:普通用户在消费级设备(如 16G VRAM 显卡)上部署 Z-Image-Turbo 时,需注意哪些关键配置?如何进一步优化显存占用与推理速度?

答案:部署关键配置及优化手段如下:

基础配置要求:

硬件:16G VRAM 的 NVIDIA 显卡(支持 CUDA);

软件:Python 环境、PyTorch(需支持 bfloat16)、diffusers(必须从源码安装,以获取 Z-Image 支持);

核心参数:生成时需设置guidance_scale=0.0(Turbo 模型强制要求),num_inference_steps=9(对应实际 8 次 DiT 前向传播)。

显存优化手段:

启用pipe.enable_model_cpu_offload():将非关键模块卸载到 CPU,降低 GPU 显存占用;

保持torch_dtype=torch.bfloat16:相比 float32 可减少 50% 显存占用,且性能损失极小。

速度优化手段:

启用 Flash Attention:若显卡支持,通过pipe.transformer.set_attention_backend("flash")(Flash Attention-2)或"_flash_3"(Flash Attention-3)加速注意力计算;

模型编译:执行pipe.transformer.compile(),首次运行耗时增加(编译过程),后续推理速度可显著提升。