Lumina-Next-SFT 是一个包含 20 亿参数的 Next-DiT 模型,使用 Gemma-2B 作为文本编码器,和由 *********ai 微调的 sdxl 版本 VAE,并通过高质量图像文本数据的有监督微调进行增强。此外,Lumina-Next-SFT 支持任意分辨率生成,通过 RoPE 等技术充分发挥 Diffusion Transformer 模型的优势。
- 生成模型:[Next-DiT](https://github.com/Alpha-VLLM/Lumina-T2X)
- 文本编码器:[Gemma-2B](https://huggingface.co/google/gemma-2b)
- VAE:[*********ai/sdxl-vae](https://huggingface.co/*********ai/sdxl-vae)
Lumina-Next-SFT 针对高美学质量的数据进行微调,提升生成图像画质。同时,使用 Gemma-2B 作为文本编码器带来了更强的语义理解和多语理解能力,支持中文、英文、韩文、日文、俄文等语言的文本提示词。
封面例图均为文生图模型直出,欢迎大家返图尝试~
我们希望 Lumina-Next-SFT 能够帮助用户创作出更加精彩的作品,同时也非常欢迎大家在使用过程中提出宝贵的建议。我们的目标是追求更高的生成质量和更强的泛化能力。
我们非常期待看到大家的杰出创作,欢迎大家加入我们的社区,一起交流和学习。如果您喜欢这个模型,请为我们点赞支持。您的每一个作品都是对 Lumina 团队的极大鼓励,也是推动我们不断改进的动力。
建议参数
```bash
文本提示词: Upper body of a young woman in a Victorian-era outfit with brass goggles and leather straps. Background shows an industrial revolution cityscape with smoky skies and tall, metal structures
求解器及采样步数:midpoint 20-40步,euler 40-80步
Time-shift:6
Classifier-free Guidance 因子:4
```