FLUX.1-Fill-dev-OneReward ,它在修复和去除任务中的表现优于闭源的 FLUX Fill [Pro],为未来统一图像编辑研究奠定了强大的新基线。

基于该模型优化的工作流:

局部重绘:

https://www.liblib.art/modelinfo/e291829afff2478da0a476d30f68c07b?from=personal_page&versionUuid=2a102a06a351465bba56c9808a32d334


扩图:

https://www.liblib.art/modelinfo/13c4dd6f78754cbaab34e8ef6be783c0?from=personal_page&versionUuid=1d75b30aefa947a0807b157cc59a0327


物体消除 去水印: https://www.liblib.art/modelinfo/c13715b5d4d34a6cb364db08ff90937f?from=personal_page&versionUuid=bfca7a8898094698906ed258e739ae71


我们提出了 OneReward ,一种用于视觉领域的新颖的 RLHF 方法,它采用 Qwen2.5-VL 作为生成奖励模型来增强多任务强化学习,显著提高了策略模型在多个子任务中的生成能力。在 OneReward 的基础上,我们开发了 Seedream 3.0 Fill ,这是一个统一的 SOTA 图像编辑模型,能够有效处理各种任务,包括图像填充、图像扩展、对象移除和文本渲染。它超越了几个领先的商业和开源系统,包括 Ideogram、Adobe Photoshop 和 FLUX Fill [Pro]。最后,基于 FLUX Fill [dev],我们很高兴地发布了 FLUX.1-Fill-dev-OneReward ,它在修复和去除任务中的表现优于闭源的 FLUX Fill [Pro],为未来统一图像编辑研究奠定了强大的新基线。