ERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型。该模型基于单流扩散 Transformer(DiT)架构,并配备了一个轻量级提示增强器(Prompt Enhancer),可将用户简短的输入扩展为更丰富的结构化描述。尽管 DiT 参数量仅为 80 亿(8B),它在开源权重文本到图像模型中仍达到了最先进的性能水平。该模型不仅注重卓越的视觉质量,还强调在实际生成场景中的可控性——在这些场景中,内容的准确实现与美学效果同等重要。特别是,ERNIE-Image 在复杂指令遵循、文字渲染和结构化图像生成方面表现出色,非常适合用于商业海报、漫画、多面板布局以及其他需要兼顾视觉质量和精准控制的内容创作任务。此外,它还支持广泛的视觉风格,包括逼真摄影、设计导向图像以及更具风格化的美学输出。


技术亮点:

  • 小模型,强性能:尽管规模只有 8B,ERNIE-Image 依然在多项 benchmark 上展现出与更大开源模型竞争的表现。
  • 文字渲染能力强:ERNIE-Image 在高密度文本、长文本以及对版式敏感的文字生成任务上表现稳定,适合海报、信息图、类 UI 图像等重文字场景。
  • 指令跟随鲁棒:对于包含多主体关系、复杂细节约束和知识密集型描述的 prompt,模型能够保持较强的理解与执行能力。
  • 结构化生成突出:在海报、漫画、分镜、故事板和多面板图像等结构化视觉任务中,ERNIE-Image 能更好地保持布局逻辑和画面组织。
  • 风格覆盖广:除了清晰、易读的设计向输出之外,模型也支持写实摄影和辨识度较强的风格化视觉表达,包括更柔和、更具电影感的画面风格。
  • 部署友好:得益于较紧凑的模型规模,ERNIE-Image 可以运行在 24G VRAM 的消费级 GPU 上,降低了研究、下游使用和模型适配的门槛。