FLUX.1-Fill-dev-OneReward ,它在修复和去除任务中的表现优于闭源的 FLUX Fill [Pro],为未来统一图像编辑研究奠定了强大的新基线。
基于该模型优化的工作流:
局部重绘:
扩图:
我们提出了 OneReward ,一种用于视觉领域的新颖的 RLHF 方法,它采用 Qwen2.5-VL 作为生成奖励模型来增强多任务强化学习,显著提高了策略模型在多个子任务中的生成能力。在 OneReward 的基础上,我们开发了 Seedream 3.0 Fill ,这是一个统一的 SOTA 图像编辑模型,能够有效处理各种任务,包括图像填充、图像扩展、对象移除和文本渲染。它超越了几个领先的商业和开源系统,包括 Ideogram、Adobe Photoshop 和 FLUX Fill [Pro]。最后,基于 FLUX Fill [dev],我们很高兴地发布了 FLUX.1-Fill-dev-OneReward ,它在修复和去除任务中的表现优于闭源的 FLUX Fill [Pro],为未来统一图像编辑研究奠定了强大的新基线。