SRPO(Semantic Relative Preference Optimization)
SRPO是腾讯混元团队研发的一种面向文本到图像生成任务的优化方法。
效果:在 FLUX.1 - dev 模型上的实验证明,SRPO 显著提升了生成图像在人类评估中的真实感与美学品质。原始 FLUX 模型的真实感优秀率仅为 8.2%,经过 SRPO 训练后飙升至 38.9%;美学质量优秀率从 9.8% 提升到 40.5%,总体偏好度达到了 29.4% 的优秀率。
---------------------------------
Flux.1-Dev SRPO 大模型 BF16 量化版 下载
https://www.liblib.art/modelinfo/55a6cf2503bb4780bdc0d1cd97b0f1c4
Flux.1-Dev SRPO 大模型 FP8 量化版 下载
https://www.liblib.art/modelinfo/c21755b704e6488cbb5564cfbe8647e3
SRPO LoRAs 下载
https://www.liblib.art/modelinfo/2f8ca51dc7634dc4b70c2e296c14bfa0
---------------------------------
SRPO主要功能:
提升图像生成质量:对扩散模型进行精细化优化,使输出图像在细节表现、视觉真实性和艺术美感方面均有明显增强。
支持动态奖励调节:用户可通过输入正负文本提示实时调整奖励导向,灵活控制图像风格和内容偏好,无需重新训练或微调奖励模型。
增强模型泛化能力:使模型能够快速适应多样化的人类审美和任务需求,如不同光照、艺术风格或细节层级的生成目标。
高效训练机制:聚焦于扩散过程的早期阶段进行优化,可在极短时间内,例如 10 分钟内完成模型调优,极大提升迭代速度与资源利用率。
---------------------------------
SRPO核心技术原理
Direct - Align 技术:通过预先注入噪声,利用预设噪声先验,从任意时间步恢复原图,避免只在后期步骤优化的局限,减少 “奖励作弊” 现象,缓解传统方法在早期时间步反向传播时的梯度爆炸问题。
语义相对偏好优化:将奖励建模为由正负文本提示所引导的差异信号。对于同一张图像,模型使用正面和负面提示词分别计算奖励,然后取其相对差值作为优化目标,实现对生成过程的在线调控。