Qwen映像編輯API

CometAPI
AnnaNov 12, 2025
Qwen映像編輯API

Qwen-Image-Edit 是 Qwen 影像家族的編輯分支,由 Qwen 團隊(阿里巴巴/QwenLM 生態系統)開發。它基於擁有 20 億參數的 MMDiT 骨幹網絡,並將 Qwen-Image 的高級文字渲染功能擴展至強大的圖像編輯工作流程。此模型適用於對編輯精度要求較高的任務,例如:直接更改標牌上的文字、保留字體和佈局、在保持語義一致性的前提下添加/刪除物件、進行視角/姿態變換以及細粒度的樣式遷移。

主要特徵

  • 精確的圖像內文字編輯(雙語:中文和英文) — 新增、刪除或取代文本,同時盡可能保留字體/大小/樣式。
  • 雙重編輯模式:語意編輯 + 外觀編輯 — 支援進階語意變更(姿態、物件替換、視角)和低階外觀編輯(風格遷移、紋理、局部修飾)。
  • 遮罩/區域/多輪編輯 — 支援蒙版修復、區域提示和鍊式編輯,以實現迭代改進工作流程。
  • 多影像輸入(最新版本): 2509 版本增加了多圖像編輯支援(例如,人物+人物、人物+產品),改進了身份/產品/文字一致性,並增加了原生 ControlNet 風格的輸入。

技術細節

  • 基礎比例/系列: 建立在 20B 參數 Qwen-Image 基礎模型(MMDiT 風格擴散/多模態設計)。
  • 雙編碼編輯流程: 編輯模組接收 (1) 透過 Qwen2.5-VL 視覺編碼器產生的語義表示和 (2) 透過 VAE 編碼器產生的重構表示。並行輸入這兩種表示法使得編輯頭能夠在語意變化和像素保真度之間進行權衡。這種雙重編碼是實現穩健編輯的核心工程選擇。
  • 漸進式/課程培訓: 訓練從簡單的文字渲染和生成任務逐步過渡到複雜的段落層級文字渲染和多任務編輯目標(T2I、TI2I、I2I 重建)。據報道,該課程是模型文字保真度和編輯穩定性提升的關鍵因素。
  • 模型類型/模組: Qwen-Image-Edit 被描述為 MMDiT 風格的 20B 型號,它整合了 Qwen2.5-VL 組件、擴散編輯頭和用於外觀控制的 VAE 組件。

基準性能

宣稱的跨基準SOTA: Qwen團隊報告稱,他們在多個公開的圖像生成和編輯基準測試中取得了最先進(SOTA)或頂級的結果,其中包括 GenEval、DPG、OneIG-Bench (世代)和 GEdit、ImgEdit、GSO (編輯)

Qwen映像編輯API

限制和注意事項(實際應用)

  1. 工件和極端情況: 社群測試表明,在一些高細節編輯中偶爾會出現過飽和、皮膚紋理瑕疵或合成接縫;社區閃電分支旨在緩解這些問題。
  2. 計算/記憶體: 20B 模型和全精度編輯流程對 GPU 要求很高。本地部署可受益於 bfloat16/FP8 和優化的採樣工作流程(存在 4/8 步「閃電」變體,以減少 VRAM 和延遲)。
  3. 安全與智慧財產權: 與所有通用影像處理軟體一樣,Qwen-Image-Edit 可能會產生受版權保護的角色或敏感內容—生產環境使用需要審核控制和版權許可。 (這是典型的企業最佳實務。)
  4. 故障模式: 晦澀或非常罕見的字符/詞語可能仍然無法正確渲染,或者需要反覆(“連鎖”)編輯才能收斂(作者指出,例如罕見的漢字需要逐步糾正)。

Qwen-Image-Edit 與其他選項的比較

  • 穩定擴散/SDXL(影像修復): SDXL 加上 ControlNet 和專用的影像修復流程速度快,擁有廣泛的社群工具支援和眾多 LoRA;它們在通用的影像修復工作流程和速度/效率方面表現出色。 Qwen-Image-Edit 的優點在於: 母語雙語文字編輯在某些情況下,Qwen 能夠實現更嚴格的身份/產品一致性,並整合語義和外觀方面的權衡。社群對比顯示,Qwen 在編輯保真度和文字遵循度方面通常排名更高,但計算成本也更高。
  • 閉源編輯器(Adobe Firefly / DALL·E / Runway): 封閉式 API 可能非常完善(使用者介面、整合審核、延遲保證),但 Qwen-Image-Edit 作為一款完全開放的替代方案脫穎而出,它專門針對強大的雙語文字編輯功能,並提供本地部署。實際選擇通常取決於您需要的是本地控制/開放許可,還是完善的雲端使用者體驗。

實際用例

  • 海報和標誌修改 — 在保留字體/紋理的前提下更改海報上的文字。
  • 產品行銷/海報製作 — 新增/刪除商品,維護電子商務圖片的商品識別。
  • 保留肖像身分的編輯 — 姿勢變化、風格轉移,同時保持身份一致性(2509 年改進)。
  • 修復與書法校正 — 舊照片修復及手寫/印刷文字的逐步校正。
  • 創意/設計工作流程 — 多圖合成編輯、表情包生成、頭像樣式設計(可能涉及雙語文字)。

如何從 CometAPI 呼叫 qwen-image-edit API

qwen-image-edit CometAPI 中的 API 定價,比官方價格便宜 20%:

輸入令牌$2.00
輸出代幣$6.40

所需步驟

  • 登錄到 cometapi.com。如果您還不是我們的用戶,請先註冊。
  • 登錄你的 CometAPI 控制台.
  • 取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”,取得Token金鑰:sk-xxxxx並提交。

Qwen映像編輯API

使用方法

  1. 選擇「qwen-image-edit」端點傳送API請求並設定請求體。請求方法和請求體資訊可參考我們網站的API文件。為了方便您測試,我們網站也提供Apifox測試工具。
  2. 代替使用您帳戶中的實際 CometAPI 金鑰。
  3. 將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
  4. 。處理 API 回應以取得產生的答案。

CometAPI 提供完全相容的 REST API,以實現無縫遷移。關鍵細節如下: 圖片編輯:

也可以看看 Qwen-image API

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣