混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对标业界头部闭源模型。
模型特点:
混元图像3.0是业界首个开源的工业级原生多模态生图模型。
这意味着,混元图像3.0不仅拥有生图模型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。
比如,用户只需要输入提示词:“生成一个月全食的四格科普漫画”,模型就可以自主生成完整的月全食科普,无需用户描述逐格内容。

同时,混元图像3.0语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的小字和长文本生成,都能较好地实现。
比如输入:“你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求: 1.画面左侧是模特的OOTD全身图 2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭”。
在这个提示词下,混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

混元图像3.0 推荐提示词
第一组:A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing. The handwriting looks natural and a bit messy, and we see the photographer's reflection. The text reads: (left) "Transfer between Modalities: Suppose we directly model p(text, pixels, sound) [equation] with one big autoregressive transformer. Pros: * image generation augmented with vast world knowledge * next-level text rendering * native in-context learning * unified post-training stack Cons: * varying bit-rate across modalities * compute not adaptive" (Right) "Fixes: * model compressed representations * compose autoregressive prior with a powerful decoder" On the bottom right of the board, she draws a diagram: "tokens -> [transformer] -> [diffusion] -> pixels"
第二组:年轻的亚洲女性,皮肤因温暖的光线而闪闪发光,齐肩波浪形头发,超大针织毛衣从肩上滑落,晚上盘腿坐在海滩上的小篝火旁,手上拿一张正在燃烧的报纸,报纸被火烧到一半,深蓝色夜空下的高对比度暖橙色火光,电影胶片纹理,腰部向上拍摄
第三组:主体是一位年轻的东亚女性,具有白皙细腻的皮肤。她的脸型偏鹅蛋脸,五官清秀。一双大而明亮的深棕色眼睛正直接注视着观察者,眼神显得平静而专注。她的眉毛颜色与发色相近,形状自然。鼻子小巧挺拔,嘴唇丰润,涂着淡粉色的唇彩,嘴角微微抿起。她的棕色头发富有光泽,被整齐地中分,并编织成两条粗细均匀的麻花辫,自然地垂落在胸前两侧。每条麻花辫的末端都用一条白色的、带有褶皱的布质发带系成了小巧的蝴蝶结。额前和脸颊旁有一些细碎的刘海和发丝被风轻轻吹动,增添了一丝动感。她穿着一件白色的吊带上衣,材质看起来轻薄透气,可能是棉质或亚麻。上衣的领口和肩带部分装饰有精致的白色蕾丝花边,呈现出波浪形的边缘。她的肩膀裸露在外,皮肤光滑。光线从她的右前方照射过来,在她的脸颊、鼻梁和锁骨处形成了明显的高光,使得面部轮廓更加立体。背景是一片广阔的水域,水面平静,呈现出深邃的蓝色。水域的尽头是模糊的陆地轮廓,可以看到一些深绿色的树木丛生。更远的天空是清澈的淡紫色,暗示着这可能是黄昏或清晨时分。整体色调温暖柔和。