基础模型V3.5M,是一款多模态扩散转换器(MMDiT-x)文本生成图像模型,具备图像质量、排版、复杂提示理解和资源效率方面的改进。

使用注意事项:

尽管此模型可以处理较长的提示词,但当 T5 token 超过 256 时,您可能会在生成的图像边缘看到伪影。使用此模型时,请留意 token 限制,如果伪影过于明显,请缩短提示词。

Medium 模型的训练数据分布与 Large 模型不同,因此对相同提示词的响应可能也会有所不同。我们建议使用跳层引导采样(Skip Layer Guidance)以获得更好的结构和解剖一致性。

商用许可:1)个人和组织可以免费使用该模型进行非商业用途,包括科学研究;2)年收入不超过100万美元的商业用途免费:初创公司、中小型企业和创作者可以免费将该模型用于商业用途,只要其年总收入不超过100万美元