腾讯混元 - Image 3.0-Checkpoint-热点推荐官-LiblibAI

混元图像3.0（HunyuanImage 3.0），是首个工业级原生多模态生图模型，参数规模80B，也是目前测评效果最好、参数量最大的开源生图模型，效果可对标业界头部闭源模型。

模型特点：

拥有“常识”，并能够利用知识进行推理

语义理解准确度高，并具备极致美学质感，能生成真实的高质感图片

可以解析千字级别的复杂语义，生成长文本文字和小文字

整体图像生成效果业界领先

混元图像3.0是业界首个开源的工业级原生多模态生图模型。

这意味着，混元图像3.0不仅拥有生图模型的画画能力，还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家，可以利用智能去思考图像的布局、构图、笔触，利用世界知识去推理常识性的画面。

比如，用户只需要输入提示词：“生成一个月全食的四格科普漫画”，模型就可以自主生成完整的月全食科普，无需用户描述逐格内容。

同时，混元图像3.0语义理解能力和美学质感也得到了大幅提升，可以实现对用户指令的精确生成，包括图片中的小字和长文本生成，都能较好地实现。

比如输入：“你是一个小红书穿搭博主，请根据模特穿搭生成一张封面图片，要求： 1.画面左侧是模特的OOTD全身图 2.右侧是衣服的展示，分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包风格：实物摄影，要求真实，有氛围感，秋季美拉德色系穿搭”。

在这个提示词下，混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

混元图像3.0 推荐提示词

第一组：A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing. The handwriting looks natural and a bit messy, and we see the photographer's reflection. The text reads: (left) "Transfer between Modalities: Suppose we directly model p(text, pixels, sound) [equation] with one big autoregressive transformer. Pros: * image generation augmented with vast world knowledge * next-level text rendering * native in-context learning * unified post-training stack Cons: * varying bit-rate across modalities * compute not adaptive" (Right) "Fixes: * model compressed representations * compose autoregressive prior with a powerful decoder" On the bottom right of the board, she draws a diagram: "tokens -> [transformer] -> [diffusion] -> pixels"

第二组：年轻的亚洲女性,皮肤因温暖的光线而闪闪发光,齐肩波浪形头发,超大针织毛衣从肩上滑落,晚上盘腿坐在海滩上的小篝火旁,手上拿一张正在燃烧的报纸,报纸被火烧到一半，深蓝色夜空下的高对比度暖橙色火光,电影胶片纹理,腰部向上拍摄

第三组：主体是一位年轻的东亚女性，具有白皙细腻的皮肤。她的脸型偏鹅蛋脸，五官清秀。一双大而明亮的深棕色眼睛正直接注视着观察者，眼神显得平静而专注。她的眉毛颜色与发色相近，形状自然。鼻子小巧挺拔，嘴唇丰润，涂着淡粉色的唇彩，嘴角微微抿起。她的棕色头发富有光泽，被整齐地中分，并编织成两条粗细均匀的麻花辫，自然地垂落在胸前两侧。每条麻花辫的末端都用一条白色的、带有褶皱的布质发带系成了小巧的蝴蝶结。额前和脸颊旁有一些细碎的刘海和发丝被风轻轻吹动，增添了一丝动感。她穿着一件白色的吊带上衣，材质看起来轻薄透气，可能是棉质或亚麻。上衣的领口和肩带部分装饰有精致的白色蕾丝花边，呈现出波浪形的边缘。她的肩膀裸露在外，皮肤光滑。光线从她的右前方照射过来，在她的脸颊、鼻梁和锁骨处形成了明显的高光，使得面部轮廓更加立体。背景是一片广阔的水域，水面平静，呈现出深邃的蓝色。水域的尽头是模糊的陆地轮廓，可以看到一些深绿色的树木丛生。更远的天空是清澈的淡紫色，暗示着这可能是黄昏或清晨时分。整体色调温暖柔和。