Z-Image 是一个强大且高效的图像生成模型,具有 6B 参数。目前有三种变体:

  • 🚀 Z-Image-Turbo – Z-Image 的精简版本,仅用 8 NFEs(函数评估次数)即可与领先的竞争对手匹敌或超越。它在企业级 H800 GPU 上提供 ⚡️秒级推理延迟⚡️,并且可以轻松适应 16G VRAM 消费级设备。它在逼真的图像生成、双语文本渲染(英语和中文)以及强大的指令遵循方面表现出色。
  • 🧱 Z-Image-Base – 非精简的基础模型。通过发布此检查点,我们旨在解锁社区驱动的微调和自定义开发的全部潜力。
  • ✍️ Z-Image-Edit – 专门针对图像编辑任务进行微调的 Z-Image 变体。它支持创意的图像到图像生成,并具有令人印象深刻的指令跟随能力,允许基于自然语言提示进行精确编辑。

📥 模型库

ModelHugging FaceModelScope
Z-Image-Turbo
Z-Image-Base即将发布即将发布
Z-Image-Edit即将发布即将发布

🖼️ 展示

📸 逼真的画质: Z-Image-Turbo 在保持出色美学质量的同时,提供了强大的逼真图像生成能力。

Showcase of Z-Image on Photo-realistic image Generation

📖 准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。

Showcase of Z-Image on Bilingual Text Rendering

💡 提示增强与推理: 提示增强器赋予模型推理能力,使其能够超越表面描述,深入挖掘世界知识。

reasoning.jpg

🧠 创意图像编辑: Z-Image-Edit 对双语编辑指令有很强的理解能力,能够实现富有想象力和灵活性的图像变换。

Showcase of Z-Image-Edit on Image Editing

🏗️ 模型架构

我们采用了一种可扩展的单流DiT(S3-DiT)架构。在这种设置中,文本、视觉语义标记和图像VAE标记在序列级别上被连接起来,作为统一的输入流,与双流方法相比,最大化了参数效率。

Z-Image和Z-Image-Edit的架构

📈 性能

根据基于Elo的人类偏好评估(在AI Arena上),Z-Image-Turbo相对于其他领先模型表现出高度竞争力,并且在开源模型中取得了最先进的成果。

Z-Image在AI Arena上的Elo评分