造相 Z-Image-Turbo 大模型
模型文件:z-image-turbo_fp8_scaled_e4m3fn_KJ.safetensors
下载地址:https://www.liblib.art/modelinfo/90f2ea851e194090bafde30b2730f9b6
---------------------------------
造相-Z-Image-Turbo-标准工作流&优化版2K直出工作流
Z-Image工作流版本更新
V2.0 新增了 局部重绘工作流 以及 多个 亚洲人像LoRA
V1.0 文生图、图生图、提示词反推 工作流
---------------------------------
官方Z-Image系列版本:
Z-Image-Turbo:快速推理版本 (已蒸馏精简)。
Z-Image-Base:基础版本,专为微调和自定义开发设计。
Z-Image-Edit:针对图像编辑任务微调的版本。
开源社区优化衍生版本版本区分:
Z-Image-Turbo-FP32(全精度 32 位版本) 16GB 显存可稳定运行1024×1024分辨率
Z-Image-Turbo-BF16(量化版本) 16 位脑浮点数,显存约 13-14GB,精度更高
Z-Image-Turbo-BF16-AIO(量化版/一体化版本) All-In-One将主模型、必要的配套组件整合打包后的版本,本地部署更加便捷
Z-Image-Turbo-FP8(量化版本) 8 位浮点数,显存占用约 8GB,可在消费级显卡运行
Z-Image-Turbo-INT4(INT4 量化) 4 位整数,极致压缩,显存占用极低
Z-Image-Turbo-De-Turbo(去蒸馏 + 微调) 移除蒸馏加速,恢复完整表达能力
Z-Image-Turbo-GGUF(GGUF 格式量化) 专为低配置设计
---------------------------------
造相 Z-Image-Turbo 简介
一、模型基础信息
• 模型定位与系列
造相 - Z-Image-Turbo 是阿里巴巴 Tongyi Lab 推出的Z-Image 系列图像生成模型中的蒸馏版本,该系列包含三个变体,目前仅 Z-Image-Turbo 开放下载,其余两变体(Z-Image-Base 基础模型、Z-Image-Edit 编辑模型)待发布。其中:
Z-Image-Base:非蒸馏基础模型,旨在支持社区微调与自定义开发;
Z-Image-Edit:基于 Z-Image 微调的图像编辑模型,支持自然语言指令驱动的精准图生图。
• 发布关键信息
发布时间:2025 年 11 月 27 日
支持格式:PyTorch、Safetensors、Diffusers
开源属性:完全开源(区别于 Google Imagen 4 Ultra、Gemini 2.5 Flash 等闭源模型)
二、核心技术与架构
模型架构:Scalable Single-Stream DiT(S3-DiT)
采用单流扩散 Transformer 架构,将文本 tokens、视觉语义 tokens、图像 VAE tokens 在序列层面拼接为统一输入流,相比双流架构大幅提升参数效率;输入处理依赖 Qwen3-4B(文本处理)、SigLip-2(视觉语义处理)及 VAE(图像嵌入)模块。
• 核心加速技术
Decoupled-DMD:8 步生成的核心蒸馏算法,将传统 DMD(分布匹配蒸馏)拆分为两个独立机制 ——CFG 增强(CA,蒸馏主引擎)与分布匹配(DM,稳定性正则化),实现少步生成性能提升;
DMDR:DMD 与强化学习(RL)的融合技术,进一步优化语义对齐、美学质量与结构一致性,增强高频细节生成能力。
三、关键性能与能力
• 效率与硬件适配
推理效率:仅需8 个 NFEs,企业级 H800 GPU 上实现亚秒级推理延迟;
显存需求:适配16G VRAM 消费级设备,普通用户可部署。
• 生成能力亮点
照片级写实:生成图像兼具真实感与美学质量;
双语文本渲染:精准渲染复杂中英文文本(如海报标题、日期、展览信息等);
指令推理能力:通过 Prompt Enhancer 模块调用底层世界知识,超越表面描述(如为古诗《登科后》“春风得意马蹄疾,一日看尽长安花” 生成匹配场景图)。
关键问题
问题 1:Z-Image-Turbo 作为开源模型,相比同级别闭源模型(如 Google Gemini 2.5 Flash Image Preview)及其他开源模型(如 Qwen-Image),核心竞争优势是什么?
答案:其核心竞争优势体现在 “效率 - 性能 - 开源性” 的三重平衡:
效率优势:仅需 8 个 NFEs,在 H800 GPU 上实现亚秒级推理延迟,且适配 16G VRAM 消费级设备,远低于 Qwen-Image(20B 参数,显存需求更高)的部署门槛;
性能优势:在 AI Arena Elo 排行榜中以 1026 分位列总榜第 4、开源第 1,胜率 45%,与闭源的 Gemini 2.5 Flash Image Preview(1043 分,胜率 46%)性能接近,且超越同属阿里的 20B 参数 Qwen-Image(1007 分,胜率 41%);
开源优势:完全开放 Checkpoint,支持社区微调与自定义开发,而 Gemini 2.5 Flash、Imagen 4 Ultra 等顶级模型均为闭源,无法二次开发。
问题 2:Z-Image-Turbo 的 Decoupled-DMD 算法是如何实现 “8 步高效生成” 的?相比传统 DMD 蒸馏方法有何改进?
答案:Decoupled-DMD 是实现 8 步生成的核心蒸馏算法,其逻辑与改进如下:
传统 DMD 的局限:传统 DMD 将 “CFG 增强” 与 “分布匹配” 视为单一机制,未区分二者作用,导致少步生成时性能与稳定性难以平衡;
Decoupled-DMD 的改进:将传统 DMD 拆分为两个独立且协作的机制 ——
CFG 增强(CA):作为蒸馏 “主引擎”,负责提升少步生成的性能(此前被传统方法忽视);
分布匹配(DM):作为 “正则化器”,保障生成结果的稳定性与质量;
效果:通过单独优化 CA 与 DM,最终实现仅 8 个 NFEs 即可达到接近多步模型的生成质量,同时兼顾推理效率。
问题 3:普通用户在消费级设备(如 16G VRAM 显卡)上部署 Z-Image-Turbo 时,需注意哪些关键配置?如何进一步优化显存占用与推理速度?
答案:部署关键配置及优化手段如下:
基础配置要求:
硬件:16G VRAM 的 NVIDIA 显卡(支持 CUDA);
软件:Python 环境、PyTorch(需支持 bfloat16)、diffusers(必须从源码安装,以获取 Z-Image 支持);
核心参数:生成时需设置guidance_scale=0.0(Turbo 模型强制要求),num_inference_steps=9(对应实际 8 次 DiT 前向传播)。
显存优化手段:
启用pipe.enable_model_cpu_offload():将非关键模块卸载到 CPU,降低 GPU 显存占用;
保持torch_dtype=torch.bfloat16:相比 float32 可减少 50% 显存占用,且性能损失极小。
速度优化手段:
启用 Flash Attention:若显卡支持,通过pipe.transformer.set_attention_backend("flash")(Flash Attention-2)或"_flash_3"(Flash Attention-3)加速注意力计算;
模型编译:执行pipe.transformer.compile(),首次运行耗时增加(编译过程),后续推理速度可显著提升。