Qwen-Image 模型能否重新定义 AI 图像生成与编辑

2025 年 8 月 4 日，Alibaba 的 Qwen 团队正式发布 Qwen-Image，这是一款拥有 200 亿参数的多模态扩散 Transformer（MMDiT）基础模型，旨在在文生图合成与精准图像编辑方面提供前所未有的保真度。此版本标志着 Alibaba 大胆进军开源图像生成领域，将 Qwen-Image 定位为 OpenAI 的 GPT-4o、DALL·E 2 和 Midjourney 等专有系统的直接挑战者。

技术创新

Qwen-Image 的 20 B MMDiT 主干架构是一项重要的工程成就，使模型能够在生成图像中直接渲染复杂的文本内容表现出色。其课程学习方法从简单的非文本渲染任务起步，逐步推进到处理段落级描述，在字母文字与表意文字两类语言上均实现了卓越的保真度。此外，该模型引入了双编码机制——通过 Qwen2.5-VL 与 VAE 编码器分别处理语义表示与重构表示——在图像编辑过程中于保持语义一致性与视觉真实感之间取得平衡。

文本渲染与编辑突破

Qwen-Image 的一大差异化特性是对嵌入文本的原生支持，可在图像中于多行布局与段落语境下放置清晰可辨的英文与中文文本。内部基准显示，Qwen-Image 在提示词遵从度与文本清晰度方面优于众多开源竞品，因而非常适合需要多语言设计元素的应用。其图像编辑能力也得益于整合文生图、文图生图与图生图重建任务的多任务训练范式，在修改既有视觉内容时提升一致性。

独立评测表明，Qwen-Image 在嵌入文本准确性方面优于多款领先的开源与专有模型。在对比测试中，它在提示词遵从度上超越中端开源替代方案，并可与 Midjourney 等商用产品相媲美——尤其是在包含英文与中文的双语提示上表现突出。尽管部分专有系统在生成超复杂场景上可能仍具领先优势，但早期用户反馈强调，Qwen-Image 在多语言文本排版的清晰度方面无出其右，并拥有强大的编辑控制能力。

遵循 Alibaba 对“开放、透明、可持续”AI 的承诺，Qwen-Image 已在 MoDa 平台开源，欢迎社区贡献与定制。随模型发布，Alibaba 还提供了详尽的文档、示例代码与反馈门户，以支持在多样化用例中的真实世界测试——从自动化出版流水线到交互式教育工具。

评测结果

Alibaba 的内部基准与第三方评估共同展现了 Qwen-Image 的领先表现：

GenEval（通用图像生成）： 获得 10.2 的 Fréchet Inception Distance（FID），平均较同类 20B 参数模型领先 9%。
LongText-Bench（文本渲染）： 在多行文本布局与字形完整性上取得 92.7% 的准确率，相比 GPT-4.1 提升 14%。
GEdit/ImgEdit（图像编辑）： 获得 4.3/5 的主观评分（MOS），反映出在编辑过程中保持语义一致性的高用户满意度。
OneIG-Bench（信息图生成）： 在根据提示将结构化数据与图表进行可视化的能力上跻身前三，展现出强大的版式与配色能力。
排行榜排名：在 Artificial Analysis Image Arena 排行榜上，Qwen-Image 目前位居所有图像生成模型的第 5 名——并且是前 10 名中唯一的开放权重条目——显示出其在研究社区的竞争优势。

访问与生态

Qwen-Image 的多样化特性解锁了一系列真实场景应用：

营销与广告： 可快速创建带有嵌入标语与多语言文本元素的定制宣传视觉。
教育内容： 为在线学习平台自动生成说明性图示、信息图与标注图像。
设计与原型： 在交互式创作流程中进行带可编辑图层的即时模型与概念艺术。
本地化服务： 无需手动图形设计即可将视觉内容无缝适配到不同语言环境。

用户可通过 Alibaba 的 Chat Qwen 界面选择“Image Generation”模式进行交互，或通过 GitHub 仓库与 CometAPI API 将模型集成到自身环境中。

交互式使用：访问 chat.qwen.ai，选择任一非编码 Qwen 模型，然后切换到“Image Generation”开始创作。
代码与权重：
GitHub: github.com/QwenLM/Qwen-Image
Hugging Face: huggingface.co
Modelscope: modelscope.cn

Alibaba 鼓励社区反馈与贡献，以培育“开放、透明、可持续”的生成式 AI 生态。

Qwen-Image 的最新集成将很快出现在 CometAPI 上，敬请期待！在我们完成 Qwen-Image 模型上传期间，可前往 Models 页面探索其他模型，或在 AI Playground 中试用。

CometAPI 是一个统一的 API 平台，将来自 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等领先提供方的 500+ 个 AI 模型聚合到一个对开发者友好的界面中。通过提供一致的认证、请求格式与响应处理，CometAPI 显著简化了将 AI 能力集成到你的应用中的过程。无论你正在构建聊天机器人、图像生成器、音乐创作工具，还是数据驱动的分析管道，CometAPI 都能让你更快迭代、控制成本并保持与供应商无关，同时汲取 AI 生态的最新突破。

另见

技术创新

文本渲染与编辑突破

评测结果

访问与生态

阅读更多

一个 API 中超 500 个模型