Qwen-Image线稿丨深度丨姿态丨软边缘四种控制-工作流-野猪A6-LiblibAI

Qwen-Image四种控制

该 ControlNet 由从预训练的 Transformer 层复制的 5 个双块组成。

使用 10M 高质量通用图像和人类图像的数据集从头开始训练模型 50K 步。

在 BFloat16 中以 1328x1328 分辨率进行训练，批量大小 = 64，学习率 = 4e-5。我们将文本丢弃率设置为 0.10。

该模型支持多种控制模式，包括Canny控制模式、Soft Edge控制模式、Depth控制模式、Pose控制模式。您可以像使用普通的ControlNet网络一样使用它。

可以通过controlnet_conditioning_scale调整控制强度。

强烈建议使用详细的提示，尤其是在包含文本元素时。例如，使用“一张顶部带有‘InstantX Team’字样的海报”，而不是“一张海报”。