Lumina-Next-SFT-Checkpoint-Lumina

Lumina-Next-SFT 是一个包含 20 亿参数的 Next-DiT 模型，使用 Gemma-2B 作为文本编码器，和由 *********ai 微调的 sdxl 版本 VAE，并通过高质量图像文本数据的有监督微调进行增强。此外，Lumina-Next-SFT 支持任意分辨率生成，通过 RoPE 等技术充分发挥 Diffusion Transformer 模型的优势。

- 生成模型：[Next-DiT](https://github.com/Alpha-VLLM/Lumina-T2X)

- 文本编码器：[Gemma-2B](https://huggingface.co/google/gemma-2b)

- VAE：[*********ai/sdxl-vae](https://huggingface.co/*********ai/sdxl-vae)

Lumina-Next-SFT 针对高美学质量的数据进行微调，提升生成图像画质。同时，使用 Gemma-2B 作为文本编码器带来了更强的语义理解和多语理解能力，支持中文、英文、韩文、日文、俄文等语言的文本提示词。

封面例图均为文生图模型直出，欢迎大家返图尝试~

我们希望 Lumina-Next-SFT 能够帮助用户创作出更加精彩的作品，同时也非常欢迎大家在使用过程中提出宝贵的建议。我们的目标是追求更高的生成质量和更强的泛化能力。

我们非常期待看到大家的杰出创作，欢迎大家加入我们的社区，一起交流和学习。如果您喜欢这个模型，请为我们点赞支持。您的每一个作品都是对 Lumina 团队的极大鼓励，也是推动我们不断改进的动力。

建议参数

```bash

文本提示词： Upper body of a young woman in a Victorian-era outfit with brass goggles and leather straps. Background shows an industrial revolution cityscape with smoky skies and tall, metal structures

求解器及采样步数：midpoint 20-40步，euler 40-80步

Time-shift：6

Classifier-free Guidance 因子：4

```