造相_Z_Image_Turbo-Checkpoint-坐忆-LiblibAI

Z-Image 是一个强大且高效的图像生成模型，具有 6B 参数。目前有三种变体：

🚀 Z-Image-Turbo – Z-Image 的精简版本，仅用 8 NFEs（函数评估次数）即可与领先的竞争对手匹敌或超越。它在企业级 H800 GPU 上提供 ⚡️秒级推理延迟⚡️，并且可以轻松适应 16G VRAM 消费级设备。它在逼真的图像生成、双语文本渲染（英语和中文）以及强大的指令遵循方面表现出色。
🧱 Z-Image-Base – 非精简的基础模型。通过发布此检查点，我们旨在解锁社区驱动的微调和自定义开发的全部潜力。
✍️ Z-Image-Edit – 专门针对图像编辑任务进行微调的 Z-Image 变体。它支持创意的图像到图像生成，并具有令人印象深刻的指令跟随能力，允许基于自然语言提示进行精确编辑。

📥 模型库

Model	Hugging Face	ModelScope
Z-Image-Turbo
Z-Image-Base	即将发布	即将发布
Z-Image-Edit	即将发布	即将发布

🖼️ 展示

📸 逼真的画质: Z-Image-Turbo 在保持出色美学质量的同时，提供了强大的逼真图像生成能力。

Showcase of Z-Image on Photo-realistic image Generation

📖 准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。

Showcase of Z-Image on Bilingual Text Rendering

💡 提示增强与推理: 提示增强器赋予模型推理能力，使其能够超越表面描述，深入挖掘世界知识。

🧠 创意图像编辑: Z-Image-Edit 对双语编辑指令有很强的理解能力，能够实现富有想象力和灵活性的图像变换。

Showcase of Z-Image-Edit on Image Editing

🏗️ 模型架构

我们采用了一种可扩展的单流DiT（S3-DiT）架构。在这种设置中，文本、视觉语义标记和图像VAE标记在序列级别上被连接起来，作为统一的输入流，与双流方法相比，最大化了参数效率。

Z-Image和Z-Image-Edit的架构

📈 性能

根据基于Elo的人类偏好评估（在AI Arena上），Z-Image-Turbo相对于其他领先模型表现出高度竞争力，并且在开源模型中取得了最先进的成果。