ERNIE-Image-Checkpoint-热点推荐官-LiblibAI

ERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型。该模型基于单流扩散 Transformer（DiT）架构，并配备了一个轻量级提示增强器（Prompt Enhancer），可将用户简短的输入扩展为更丰富的结构化描述。尽管 DiT 参数量仅为 80 亿（8B），它在开源权重文本到图像模型中仍达到了最先进的性能水平。该模型不仅注重卓越的视觉质量，还强调在实际生成场景中的可控性——在这些场景中，内容的准确实现与美学效果同等重要。特别是，ERNIE-Image 在复杂指令遵循、文字渲染和结构化图像生成方面表现出色，非常适合用于商业海报、漫画、多面板布局以及其他需要兼顾视觉质量和精准控制的内容创作任务。此外，它还支持广泛的视觉风格，包括逼真摄影、设计导向图像以及更具风格化的美学输出。

技术亮点：

小模型，强性能：尽管规模只有 8B，ERNIE-Image 依然在多项 benchmark 上展现出与更大开源模型竞争的表现。
文字渲染能力强：ERNIE-Image 在高密度文本、长文本以及对版式敏感的文字生成任务上表现稳定，适合海报、信息图、类 UI 图像等重文字场景。
指令跟随鲁棒：对于包含多主体关系、复杂细节约束和知识密集型描述的 prompt，模型能够保持较强的理解与执行能力。
结构化生成突出：在海报、漫画、分镜、故事板和多面板图像等结构化视觉任务中，ERNIE-Image 能更好地保持布局逻辑和画面组织。
风格覆盖广：除了清晰、易读的设计向输出之外，模型也支持写实摄影和辨识度较强的风格化视觉表达，包括更柔和、更具电影感的画面风格。
部署友好：得益于较紧凑的模型规模，ERNIE-Image 可以运行在 24G VRAM 的消费级 GPU 上，降低了研究、下游使用和模型适配的门槛。