Qwen-Image-Edit图像编辑

Qwen-Image-Edit 是基于 20B 参数的 Qwen-Image 模型开发的一款图像编辑增强版本。该模型成功扩展了 Qwen-Image 独有的文本渲染能力,使其可精准应用于图像编辑任务,尤其在文本元素的添加、删除与修改方面表现卓越。

Qwen-Image-Edit 支持将输入图像同时馈入 Qwen2.5-VL(用于视觉语义控制)和 VAE 编码器(用于视觉外观控制),从而实现对图像语义与外观的双重编辑功能。

主要特点

  • 语义与外观编辑:模型既支持低级视觉外观编辑(如添加、删除或修改图像元素,并确保其他区域严格保持不变),也支持高级语义编辑(如 IP 形象生成、物体旋转与风格转换,在保持语义一致性的前提下允许整体像素级变动)。
  • 精准的文本编辑:支持中英文双语文本编辑,可直接在图像中添加、删除或修改文字,并保持原有字体、大小与样式的高度一致性。
  • 领先的基准性能:在多项公共基准测试中,Qwen-Image-Edit 在图像编辑任务上均达到了当前最先进的(SOTA)性能,展现出作为新一代图像编辑基础模型的强大能力。

Qwen-Image-Edit 的一大亮点在于其强大的语义和外观编辑功能。语义编辑是指在保留原始视觉语义的同时修改图像内容。为了直观地展示这一功能,我们以 Qwen 的吉祥物——水豚为例:

可以看出,虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的性格一致性得到了完美保留。Qwen-Image-Edit 强大的语义编辑功能,让原创 IP 内容创作变得轻松便捷,且内容丰富多样。此外,在 Qwen Chat 平台上,我们围绕 16 种 MBTI 性格类型设计了一系列编辑提示。基于这些提示,我们成功打造了一套以吉祥物水豚为原型的 MBTI 主题表情包,轻松拓展了 IP 的影响力和表达能力。

此外,新颖的视图合成是语义编辑的另一个关键应用场景。如下面的两个示例图所示,Qwen-Image-Edit 不仅可以将物体旋转 90 度,还可以进行完整的 180 度旋转,让我们能够直接看到物体的背面:

语义编辑的另一个典型应用是风格转换。例如,给定一幅输入肖像,Qwen-Image-Edit 可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值:

除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。下图展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit 不仅成功插入了招牌,还生成了相应的反射,展现了其对细节的非凡关注。

下面是另一个有趣的例子,演示了如何从图像中去除细发丝和其他小物体。

此外,图像中特定字母“n”的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。

外观编辑在调整人物背景或更换服装等场景中也有广泛的应用。下面的三幅图分别展示了这些实际用例。

Qwen-Image-Edit 的另一大亮点在于其精准的文本编辑能力,这源于 Qwen-Image 在文本渲染方面的深厚功底。以下两个案例生动地展现了 Qwen-Image-Edit 在英文文本编辑方面的强大性能:

Qwen-Image-Edit 还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。

最后,我们通过一个具体的图像编辑示例来演示如何使用链式编辑方法逐步纠正 Qwen-Image 生成的书法作品中的错误:

在这幅作品中,几个汉字存在生成错误。我们可以利用 Qwen-Image-Edit 逐步纠正这些错误。例如,我们可以在原始图像上绘制边界框来标记需要校正的区域,并指示 Qwen-Image-Edit 修复这些特定区域。在这里,我们希望“稽”字能够正确地写在红色框内,而“亭”字能够准确地呈现在蓝**域内。

然而,在实际操作中,“稽”字相对模糊,模型未能一次性将其正确纠正。“稽”字的右下角部分应该是“旨”,而不是“日”。此时,我们可以进一步用红框突出显示“日”部分,指示 Qwen-Image-Edit 微调此细节,将其替换为“旨”。

通过这种链式、循序渐进的编辑方法,我们可以不断地纠正字符错误,直到达到理想的最终结果。