腾讯混元图像模型 2.1 上新开源：原生 2K 生图、中英文输入

2025-09-10 02:25:14分类：平凉阅读(23000)

IT之家 9 月 9 日消息，腾讯今日宣布混元图像模型 2.1 上新开源，支持原生 2K 生图和中英文原生输入。

腾讯还同步开源了“PromptEnhancer 文本改写模型”，输入“画一只可爱的猫”，会自动补全“橘色短毛猫趴在格子桌，爪边放饼干，水彩风”；支持中英文双向转换，用中文说“画带‘Dream’的星空蛋糕”，也能精准呈现，避免“表达模糊”。

混元图像模型 2.1 支持长达 1k tokens 的复杂语义超长 prompt，支持多主体分别描述与精确生成。

Prompt：一幅由四个画格组成的卡通漫画，以 2x2 的网格形式排列，讲述了一只变色龙的难题。左上角：一只卡通风格的变色龙趴在一片宽大的、呈翠绿色的植物叶子上。它的皮肤是与叶片完全相同的绿色，并带有浅绿色的纹理细节，实现了完美的伪装，几乎与背景融为一体。变色龙的大眼睛好奇地转动着，身体姿态放松，场景背景是模糊的绿色丛林。右上角：同一只变色龙正从叶子边缘爬到一根粗糙的、呈深棕色的树枝上。它的身体颜色已经完全转变为与树枝一致的深棕色，皮肤表面模仿出树皮的纹理。它的头部微微抬起，嘴角上扬，眼神中流露出自豪和得意的神情。左下角：这只变色龙自信地走到一片铺在草地上的野餐布前。它的一只前爪已经踏上了野餐布，野餐布是由红白相间的方格图案构成。此时变色龙的身体仍然保持着棕色，它正准备完全走上这块图案复杂的布料，表情显得充满期待。右下角：变色龙完全站在了红白格子野餐布的中央。它的颜色系统出现了故障，身体表面在多种颜色和图案之间混乱地快速闪烁，包括霓虹粉的斑点、电光蓝的条纹和像素化的色块，完全无法匹配背景的格子图案。它的眼睛睁得滚圆，嘴巴大张呈惊恐的 O 形，身体周围出现了表示慌乱的动态线条和汗珠。这组图像整体呈现出线条清晰、色彩鲜明的四格漫画作品风格。

混元图像模型 2.1 对图像中文字的渲染和场景细节的把控更为稳定，减少了常见的文字错误与理解偏差。

Prompt：星空下，一个充满未来感的泳池，映照着深邃的宇宙。泳池表面闪耀着星云、旋转的星系和闪烁的星光。青色、洋红色和紫色的霓虹灯照亮了整个区域，营造出令人着迷的赛博朋克氛围。泳池上方，紫色和粉色的文字“Prompt Enhancer”漂浮在半空中，周围环绕着柔和的光晕，在水面上投射出文字“Prompt Enhancer”反射的光芒。背景是带有空灵光环和宇宙尘埃的遥远行星，增强了超现实梦幻的氛围。场景将时尚的现代建筑与超凡脱俗的科技设计相结合，营造出一种奇妙的感觉和未来主义的优雅。

混元图像模型 2.1 还支持生成各种风格，如真实感人物、漫画与搪胶手办等。

Prompt：在酒馆外面，一个卖报的小男孩带着报童帽，倚靠着一根大理石质地的罗马柱，罗马柱靠右，他穿着吊带裤，蹲在地上，背靠着柱子，面对着镜头，侧着耳朵，专注地倾听酒馆内传来的钢琴声。酒馆内部，一个少女背对着镜头，坐在老式木质钢琴前。扎着两条麻花辫，侧颜微微可见，高挺的鼻梁和微卷的发丝清晰可见。她身穿一件米白色的蕾丝连衣裙，正在弹奏钢琴。莫奈的印象派画面，营造出一种夏日浪漫宁静的氛围。

混元图像模型 2.1 还有以下亮点：

双通道文本编码器，同时使用通用和文字编码器：视觉-语言多模态编码器，更好地理解场景描述、人物动作和细节需求。多语言的 ByT5 文本编码器，增强模型的文字渲染能力。VLM + 专家模型的结构化 Caption：结构化 caption 提供多层次的语义信息，大幅提升模型在复杂语义上的响应能力。创新性引入 OCR agent 和 IP RAG，补齐通用 VLM captioner 在密集文本和世界知识描述短板。两阶段模型架构：文生图模型：单双流网络架构，17B 模型参数。 Refiner 模型：采用类似图生图的条件生成结构，能显著减少畸形，同时进一步提升图像的质感和清晰度。两阶段强化后训练：SFT 和 RL 两阶段后训练，自研 Reward Distribution Alignment 强化学习算法，创新性引入高质量图片作为 chosen 样本，强化效果稳定提升高压缩率 VAE，大幅提升训练推理效率：32 倍压缩率 VAE：dit 模型 token 输入数极大降低，对齐 VAE 与 dinov2 特征空间, 训练难度降低。2K 图生成耗时与同类模型 1K 图生成耗时持平。多分辨率的 repa loss：用于加速模型收敛meanflow 推理加速：首次在工业级模型上跑通 meanflow，推理步数由 100 步 --> 8 步、显著提升蒸馏效果混元文本改写模型（PromptEnhancer）：首个系统化的工业级改写模型，通过 SFT 训练和 GRPO 训练，使得文本生成的图像语义大幅度提升，同时提出了 Alignevalsuator 涵盖 6 大类 24 个细粒度考点的奖励模型，PromptEnhancer 支持同时中英文改写。

IT之家附混元图像模型 2.1 开源地址如下：

未经允许不得转载：>不顾前后网»腾讯混元图像模型 2.1 上新开源：原生 2K 生图、中英文输入