Qwen-Image四种控制
该 ControlNet 由从预训练的 Transformer 层复制的 5 个双块组成。
使用 10M 高质量通用图像和人类图像的数据集从头开始训练模型 50K 步。
在 BFloat16 中以 1328x1328 分辨率进行训练,批量大小 = 64,学习率 = 4e-5。我们将文本丢弃率设置为 0.10。
该模型支持多种控制模式,包括Canny控制模式、Soft Edge控制模式、Depth控制模式、Pose控制模式。您可以像使用普通的ControlNet网络一样使用它。




可以通过controlnet_conditioning_scale调整控制强度。
- Canny:使用 cv2.Canny,将 controlnet_conditioning_scale 设置为 [0.8, 1.0]
- 软边缘:使用AnylineDetector,将 controlnet_conditioning_scale 设置为 [0.8, 1.0]
- 深度:使用任意深度,将 controlnet_conditioning_scale 设置为 [0.8, 1.0]
- 姿势:使用DWPose,将 controlnet_conditioning_scale 设置为 [0.8, 1.0]
强烈建议使用详细的提示,尤其是在包含文本元素时。例如,使用“一张顶部带有‘InstantX Team’字样的海报”,而不是“一张海报”。