Qwen-Image-Edit 是由 Qwen 团队开发的 Qwen 图像家族的编辑分支(Alibaba / QwenLM 生态)。它构建于 20B 参数的 MMDiT 主干之上,并将 Qwen-Image 的高级文本渲染能力明确拓展到稳健的图像编辑工作流。该模型适用于对编辑保真度要求较高的任务——例如直接修改标牌上的文字、尽可能保持字体与排版、在保持语义一致性的前提下增删对象、视角/姿态变换以及细粒度的风格迁移。
关键特性
- 图像内精确文本编辑(双语:中文与英文) — 在尽可能保留字体/大小/样式的情况下添加、删除或替换文本。
- 双编辑模式:语义 + 外观 — 支持高层语义变更(姿态重置、对象替换、视角)与低层外观编辑(风格迁移、纹理、局部修饰)。
- 遮罩 / 区域 / 多轮编辑 — 支持遮罩补画、区域提示与链式编辑,用于迭代式精修工作流。
- 多图输入(最新版本): 2509 迭代新增多图编辑支持(如人+人、人+商品),提升身份/商品/文本一致性,并原生支持 ControlNet 风格的输入。
技术细节
- 基础规模 / 家族: 基于 20B 参数 的 Qwen-Image 基础模型(MMDiT 风格扩散 / 多模态设计)。
- 双编码编辑管线: 编辑模块接收(1)通过 Qwen2.5-VL 视觉编码器获得的语义表征,以及(2)通过 VAE 编码器获得的重建表征。并行输入两种表征使编辑头能够在语义改动与像素保真之间进行权衡。该双编码是实现稳健编辑的核心工程选择。
- 渐进式 / 课程式训练: 训练从较简单的文本渲染与生成任务逐步推进到复杂的段落级文本渲染与多任务编辑目标(T2I、TI2I、I2I 重建)。据称该课程式安排是提升文本保真度与编辑稳定性的关键因素。
- 模型风格 / 模块: Qwen-Image-Edit 被描述为一款 MMDiT 风格的 20B 模型,集成了 Qwen2.5-VL 组件、扩散编辑头以及用于外观控制的 VAE 组件。
基准表现
跨基准宣称的 SOTA: Qwen 团队报告在多项公开的图像生成与编辑基准上取得 SOTA 或顶级结果——包括用于生成的 GenEval、DPG、OneIG-Bench 以及用于编辑的 GEdit、ImgEdit、GSO。

局限与注意事项(实践)
- 伪影与边缘案例: 社区测试显示,在部分高细节编辑中偶见过饱和、皮肤纹理伪影或合成拼接痕迹;社区的 lightning 分支旨在缓解这些问题。
- 算力 / 内存: 该 20B 模型及全精度编辑管线对 GPU 资源要求较高。本地部署宜采用 bfloat16/FP8 以及优化的采样工作流(存在 4/8 步的“lightning”变体以降低显存与延迟)。
- 安全与知识产权: 与通用图像生成器类似,Qwen-Image-Edit 可能生成受版权保护的角色或敏感内容——用于生产时需要审查控制与权利清理。(典型企业最佳实践。)
- 失败模式: 冷僻或极少见的字符/词语仍可能渲染错误,或需要迭代(“链式”)编辑才能收敛(作者提到如罕见中文字形需要分步纠正的例子)。
与其他方案的比较
- Stable Diffusion / SDXL(修复式填画): SDXL 配合 ControlNet 与专用填画管线速度快、社区工具支持广且 LoRA 众多;在通用填画工作流与速度/效率方面表现突出。Qwen-Image-Edit 的优势在于原生双语文本编辑、在部分场景下更紧的身份/商品一致性,以及集成的语义+外观权衡。社区对比显示,Qwen 在编辑保真与文本遵从上常排更高,但计算成本更高。
- 闭源编辑器(Adobe Firefly / DALL·E / Runway): 闭源 API 在打磨度方面往往更好(UI、集成审查、延迟保障),但 Qwen-Image-Edit 以完全开放的替代方案脱颖而出,专注于稳健的双语文本编辑,并支持本地部署。实际选择通常取决于是否需要本地可控 / 开放许可,或更精致的云端体验。
典型应用场景
- 海报与标牌编辑 — 在保留字体/纹理的前提下修改海报文字。
- 产品营销 / 海报生成 — 增删物品,维护电商图片中的产品身份一致性。
- 人像身份保持编辑 — 在保持身份一致的同时进行姿态变化、风格迁移(在 2509 版本中有所提升)。
- 修复与书法纠正 — 老照片修复,以及对手写/印刷字符进行分步纠正。
- 创意/设计工作流 — 多图合成编辑、表情包生成、头像风格化,适用于涉及双语文本的场景。
如何通过 CometAPI 调用 qwen-image-edit API
qwen-image-edit 在 CometAPI 的 API 定价,较官方价格优惠 20%:
| 输入 Tokens | $2.00 |
| 输出 Tokens | $6.40 |
必要步骤
- 登录 cometapi.com。如果您尚未成为我们的用户,请先注册。
- 登录您的 CometAPI 控制台。
- 获取接口的访问凭证 API Key。在个人中心的 API Token 处点击“Add Token”,获得令牌密钥:sk-xxxxx 并提交。

使用方法
- 选择“qwen-image-edit”端点发送 API 请求并设置请求体。请求方法与请求体可参见我们网站的 API 文档。我们的网站也提供 Apifox 测试以便于使用。
- 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI 密钥。
- 将您的问题或请求填入 content 字段——模型将对此进行响应。
- . 处理 API 响应以获取生成的答案。
CometAPI 提供完全兼容的 REST API——便于无缝迁移。有关 image edit 的关键细节:
- Base URL: https://api.cometapi.com/v1/images/edits
- Model Names: qwen-image-edit
- Authentication:
Bearer YOUR_CometAPI_API_KEY请求头 - Content-Type:
application/json。
