FLUX.2 [dev]

主模型:FLUX.2-dev-fp8-scaled.safetensors

--------------------------------

FLUX.2 [dev] 文生图-图生图-多图编辑工作流

https://www.liblib.art/modelinfo/09f773739d4c47b6b7b899ac7b299567

--------------------------------

FLUX.2 [dev]

FLUX.2 [dev] 是一款开源权重、引导蒸馏模型,专为非商业场景设计。 该版本直接衍生自 FLUX.2 [pro],生成质量与提示词贴合度媲美原版,且相比同规模常规模型效率更优。

参考控制与一致性保障

FLUX.2(dev)将文本生成图像与图像编辑功能整合在一个模型中,无需额外插件辅助完成编辑操作。

FLUX.2(dev)支持最多同时参考 10 张图像 ,是当前行业内领先的多参考能力。

可实现角色、风格、产品的高一致性生成。

-----------------------------

ComfyUI 本地部署:模型放置路径

主模型: FLUX.2-dev-fp8-scaled.safetensors 放在 ComfyUI/models/diffusion_models

文本编码器: mistral_3_small_flux2_fp8.safetensors 放在 ComfyUI/models/text_encoders

VAE: flux2-vae.safetensors 放在 ComfyUI/models/vae

-----------------------------

FLUX.2 [dev] 可免费使用的场景

FLUX [dev] 非商业许可证(适用于我们的非商业开放权重用户),商业用途请通过邮箱联系官方。

个人非商业创作: 比如个人日常图像设计、兴趣向的创意绘画、非盈利的社交平台内容制作等,像为自己的博客绘制插图、制作个人头像等场景都适用。

学术与教育活动: 高校或科研机构可将其用于文本生图技术相关的学术研究,比如探索扩散模型的优化方向,研究成果可正常发表;同时也能用于教学场景,如在 AI 设计课程中作为案例工具,指导学生学习模型部署和提示词设计。

社区开源开发: 开发者可基于该模型开发非商业的开源工具,比如为 ComfyUI 开发适配 FLUX.2-Dev 的免费插件,或分享开源的模型微**程、部署脚本,供社区成员共同学习使用。

-----------------------------

FLUX.2相关版本

FLUX.2 是 Black Forest Labs 推出的生产级 AI 图像生成与编辑模型,支持4MP 超高清照片级输出和最多 10 张图像的多参考控制,具备前所未有的细节质量与真实感,可实现精确色彩匹配(支持十六进制代码)、复杂文本渲染(含 UI 原型)及强指令遵循能力;模型提供FLUX.2 [pro](闭源,顶级质量与速度)、FLUX.2 [flex](闭源,高精度与创意控制)、FLUX.2 [dev](开源权重,可自主部署)三个变体,适配营销广告、产品可视化、创意生产、UI/UX 设计等多元场景,同时支持最高 32K 文本输入 tokens、10 秒内生成速度及 JSON 控制系统等专业功能。

--------------------------------

FLUX.2(dev)简介

FLUX.2(dev)是德国黑森林实验室(Black Forest Labs)于 2025 年 11 月 25 日推出的 FLUX.2 模型家族中的32B 参数量开放权重模型,它堪称当前性能顶尖的开源图像生成与编辑模型,将文生图、图生图和多图输入编辑等功能整合于一体,适配开发者调试、研究实验等多元场景,具体介绍如下:

核心技术架构

该模型依托潜在流匹配架构构建,还融合了 Mistral - 3 24B 视觉语言模型与整流流式 Transformer。前者赋予模型对现实世界的知识储备和上下文理解能力,后者则助力其精准捕捉空间关系、材料属性等早期架构难以实现的内容;同时它采用单一的 Mistral Small 3.1 文本编码器,简化了提示词嵌入的计算流程,其 Transformer 模块包含 8 个双流块和 48 个单流块,单流块占比大幅提升,进一步优化了生成逻辑。

它适配 FLUX.2 家族开源的新一代可学习潜空间编码器 FLUX.2 - VAE,该编码器遵循 Apache 2.0 协议,可被独立调用,为模型的图像生成与编辑提供了坚实的流式主干网络支撑。

关键核心能力

多图参考与高一致性生成:最多可同时参考 10 张图片,能精准实现角色、产品及风格在生成内容中的高度统一,比如可融合 10 张不同图片的元素生成风格协调、主体一致的图像作品。

出色的细节与文本渲染:生成的图像具备丰富细节与清晰纹理,且光照效果稳定自然;解决了前代模型在复杂文本渲染上的短板,能可靠生成含复杂排版的信息图、表情包以及带清晰文字的 UI 演示稿等内容。

高清图像编辑:支持最高 4 兆像素的图像编辑操作,编辑过程中能很好地保留图像原有细节与整体协调性,适配需要精细化修改的图像创作需求。

强指令遵从性:对复杂、结构化的提示词有着优秀的遵循能力,同时能结合现实世界知识,精准把控场景中的光照逻辑与空间关系,让生成的画面更贴合真实场景规律。

核心优势与适用场景

作为开源权重模型,其权重已在 Hugging Face 等平台发布,支持开发者本地部署运行,无需依赖官方 API,降低了使用成本,也方便开发者根据自身需求进行自定义调整与二次开发。

适用场景:适配场景广泛,既适合科研人员开展图像生成模型相关的技术研究,也能满足开发者进行非规模化创意制作、本地调试等需求,是平衡了性能与开放性的开源模型选择。