DeepSeek--janus-PRO-文生图大模型-Checkpoint-薇薇啊-LiblibAI

Janus-Pro 是一种新颖的自回归框架，它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性，同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型，并且达到或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

Github 仓库

2. 模型摘要

Janus-Pro 是一个统一的理解和生成 MLLM，它将视觉编码解耦，以实现多模态理解和生成。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建的。

对于多模态理解，它使用SigLIP-L作为视觉编码器，支持 384 x 384 图像输入。对于图像生成，Janus-Pro 使用此处的标记器，下采样率为 16。