阿里巴巴Qwen團隊發布 Qwen-圖像編輯 19 年 2025 月 20 日——基於 XNUMXB Qwen-Image 主幹構建的圖像編輯變體,承諾實現精確的雙語文本編輯、雙模式語義 + 外觀控制和 SOTA 基準性能。我將深入解釋其架構、功能和用法。
Qwen-Image-Edit 是什麼以及為什麼它重要?
Qwen-Image-Edit 是阿里巴巴 Qwen 團隊於 19 年 2025 月 20 日發布的影像編輯基礎模型,基於擁有 XNUMX 億參數的 Qwen-Image 主幹模型建構。它將 Qwen-Image 的高級文字渲染功能擴展至互動式影像編輯:支援圖片內雙語(中/英)文字編輯、細粒度外觀編輯(移除/新增/修飾)以及更高層級的語義轉換(旋轉物件、新穎視圖合成、風格遷移)。團隊強調,該模型將影像同時輸入至視覺語言編碼器和 VAE 編碼器,分別控制語義和外觀。
它專為 指令驅動 圖像編輯:您提供輸入圖像和自然語言指令(支援英語和中文),模型返回編輯後的圖像,該圖像可以執行精確的文本編輯、對象的添加/刪除、樣式或顏色調整,甚至更高級別的語義轉換,同時保持視覺一致性。
為什麼這很重要: 圖像編輯不再只是「繪畫、蒙版和合成」——像 Qwen-Image-Edit 這樣的模型可以讓你用自然語言描述編輯,保留字體和佈局,並進行過去需要 Photoshop 精心處理的小區域修正。這種組合對於需要程式化、可重複的視覺編輯的創意人員、電商、行銷團隊和自動化流程尤其有價值。
您實際上是如何使用 Qwen-Image-Edit 的-開發人員路徑是什麼?
適用範圍
您可以透過以下方式嘗試 Qwen-Image-Edit:
- Qwen聊天 (官方網站演示)用於互動式編輯。
- 擁抱臉模型頁面/空間 — 存在公共模型和演示空間以供快速試用。
- 阿里雲模型工作室/DashScope API — 生產 API(HTTP + SDKs),附有記錄的端點、定價和配額,可供自動化使用。
快速嘗試的方法
- 一次性或實驗,請使用 Hugging Face Space 或 Qwen Chat。
- 如需整合(Web 應用、批次處理管道或後端服務),請使用提供的 HTTP API 或 DashScope SDK(Python/Java)呼叫 DashScope 端點(阿里雲模型工作室)。模型工作室文件包含用於圖像 URL 或 Base64 輸入、負面提示、浮水印選項和結果檢索流程的 curl 和 SDK 範例。
Qwen-Image-Edit 是如何建構的-其內部機制為何?
雙路徑輸入:語意+外觀
根據官方說明,Qwen-Image-Edit 透過以下方式並發處理輸入影像:
- Qwen2.5-VL(視覺語言編碼器) — 驅動語意理解與進階編輯(物件旋轉、視圖合成、內容變化)。
- VAE 編碼器/潛在外觀路徑 — 保留或操縱低階視覺外觀(紋理、局部編輯的精確像素保留)。
這種分割使模型能夠對目標區域進行廣泛的語義重塑或像素保守的編輯。
建立在 20B 影像基礎之上
此編輯模型擴展了 20B Qwen-Image 生成模型(文字渲染功能是 Qwen-Image 的核心),因此編輯版本繼承了強大的佈局/文字理解能力和高保真圖像先驗。 Qwen-Image 程式碼庫和部落格表明其圖像程式碼庫採用 Apache-2.0 許可,這加速了社群的採用。
管道和實用流程
典型的管道(進階):
- 輸入影像(公共 URL 或 Base64)加上文字指令/提示和可選遮罩/邊界框,以進行有針對性的編輯。
- 模型將影像輸入到兩個編碼器中;視覺語言編碼器根據上下文解釋提示並提出語義轉換;VAE 路徑對外觀約束進行編碼。
- 結合這些模態,解碼器產生編輯後的影像-要麼是全域變更(語意編輯),要麼是局部修改(外觀編輯),同時保留被遮罩的區域。輸出將儲存為 OSS 連結(使用阿里雲時),並限制 TTL。
在編輯過程中,Qwen-Image-Edit 將同一張輸入影像輸入兩個通道,以便決定修改結構或保留外觀。這種雙軌架構支援各種操作,從像素級精確的局部移除(例如,在不觸及相鄰像素的情況下移除一根髮絲)到徹底的語義改變(例如,改變姿勢或產生新的視角),同時保持主體身份的一致性。該團隊還大量使用先進的擴散工具和快速增強實用程式來穩定鍊式編輯。
Qwen-Image-Edit 提供哪些功能?
雙軌編輯:語意+外觀控制
Qwen-Image-Edit 被明確設計為雙軌編輯器:一個理解場景/佈局/物件的語義編碼器,以及一個保留紋理、字體和細粒度像素細節的獨立外觀路徑。這種設計使模型能夠決定是更改高階構圖(姿勢、物件身分、樣式),還是進行像素級精確的局部修復(移除對象,保持相鄰像素相同)。這種分離是許多近期高保真編輯器背後的核心架構理念,並在 Qwen 的發行說明中得到了重點強調。
實際意義:您可以要求“在不觸碰徽標的情況下從左下角刪除水印”或“改變手勢”,模型將針對每個任務應用不同的內部策略,減少未觸碰區域上的附帶偽影。
文字感知圖像編輯和雙語支持
該模型的主要功能之一是 精確的文字編輯 — 它會在新增/刪除/修改中文和英文文字元素時嘗試保留字體、筆畫、間距和版面。這不僅會渲染新文本,還會嘗試匹配原始字體。 Qwen 團隊在其文件和模型卡中反覆強調了這項功能。
實際意義:包裝、海報、UI 截圖和標牌工作流程可以自動化——尤其是在精確字體匹配和雙語編輯很重要的情況下。
遮罩、區域提示和漸進式編輯
功能包括顯式蒙版輸入(用於修復/移除影像)、區域感知提示(僅在邊界框 X 內套用變更)以及對多圈/鍊式編輯的支援(迭代最佳化輸出)。 API 和擴散管道支援負提示和類似指導尺度的控件,用於調整編輯的保守程度和大膽程度。這些是生產導向編輯管道的標準配置,並且已包含在 Qwen 的工具中。
多工訓練:業界領先的編輯一致性
透過增強的多任務訓練範式,Qwen-Image-Edit 支援多種任務,包括文字到圖像 (T2I)、圖像到圖像 (I2I) 以及文字引導的圖像編輯 (TI2I)。值得一提的是,Qwen-Image-Edit 的「鍊式編輯」能力尤為突出。例如,在書法批改場景中,模型可以透過多輪迭代逐步修正錯誤的字符,同時保持整體風格的一致性。這項能力大大提升了創作效率,並降低了專業視覺內容創作的門檻。
Qwen-Image-Edit 的表現如何——它真的是 SOTA 嗎?
基準和主張
Qwen 在多個編輯基準測試中均取得了優異的性能(團隊強調了人為偏好測試和特定編輯套件),並在社區中通常稱為 GEdit-Bench(英語和中文版本)的編輯基準測試中報告了具體的得分。一份報告顯示,Qwen-Image-Edit 的得分約為 7.56(英語)和 7.52(中文),而 GPT Image-1 的得分約為 7.53(英語)和 7.30(中文)——這些數字表明 Qwen 在中文文本和混合語義/外觀任務上尤其具有優勢。
Qwen-Image-Edit 與 GPT Image-1(OpenAI)和 FLUX.1Kontext 相比如何?
下面我將沿著團隊關心的實際軸進行比較:能力、文字渲染、部署、開放性以及每個模型的優勢/劣勢所在。
- Qwen-圖像編輯 — 雙軌架構、強大的雙語文字編輯、開放權重(Apache-2.0)、20B 影像主幹、明確針對混合語意和外觀編輯進行調整;如果您需要本地控製或中/英文排版保真度,這是一個不錯的選擇。
- GPT-Image-1(OpenAI) — 透過 OpenAI API 提供的高效能多模態產生器/編輯器;擅長通用影像生成、文字渲染和整合(與 Adobe / Figma 合作);封閉權重、託管 API、廣泛的生態系統整合和產品最佳化。 OpenAI 的文檔將其描述為 API 中的「原生多模態」影像模型。
- FLUX.1Kontext — 定位為文字優先的圖像編輯產品,擁有多個版本(Dev / Pro / Max);供應商強調在允許進行針對性編輯的同時保留特性/一致性的工作流程;面向商業產品,提供託管用戶界面和專業級功能。與 Qwen 相比,公開的技術細節(例如參數數量)有限。
能力與品質:
- 文字和排版: Qwen 明確宣傳雙語文本保真度。 OpenAI 的 GPT-Image-1 也強調了文字渲染的準確性,並且已經整合到設計工具中;實際差異將取決於 OCR 測量的準確性和語料庫上的字體匹配測試。 FLUX 聲稱擁有強大的排版控制能力,但發布的對比數位基準測試較少。
- 語意編輯(姿勢/觀點): 這三款引擎都支援高級編輯。 Qwen 的雙路徑方法正是為此而設計的;OpenAI 的模式功能強大,並受益於大規模產品級快速工程;FLUX 則致力於打造使用者友善的編輯流程。 GEdit-Bench 的數值快照顯示,Qwen 在迄今為止報告的基準測試中,總得分略有領先。
實用選擇清單(開發人員指南):
- 選擇 Qwen-圖像編輯 如果:雙語文字編輯(中英)、語意+外觀的整合工作流程以及便捷的雲端演示/整合至關重要。對於針對特定區域的使用者介面和海報,這是不錯的首選。
- 選擇 GPT-Image-1 如果:您想要經過驗證的遵循指示並與主流設計工具(Adobe,Figma)集成,並且您優先考慮單步創意轉換;請注意保存權衡。
- 選擇 FLUX.1Kontext / 微調的 FluxKontext 如果:您想要一個可微調的堆疊(您可以在私人語料庫上重新訓練或調整)並且您準備投資資料集管理;最近的研究表明,經過微調後可以獲得具有競爭力的分數。
透過 CometAPI 開始
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
最新的整合 Qwen-Image-Edit 即將出現在 CometAPI 上,敬請期待!在我們完成 Qwen-Image-Edit 模型上傳的同時,探索我們的其他圖像編輯模型,例如 Seedream 3.0,FLUX.1 上下文 ,GPT-image-1 在您的工作流程中或在 AI Playground 中試用它們。首先,在 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
最終結論:Qwen-Image-Edit 在你的產品組合中佔比如何
Qwen-Image-Edit 是邁向「文字優先」圖像編輯工作流程的重要一步,在排版和語義理解至關重要的混合任務中脫穎而出。它易於快速存取——雲端 API 可實現快速集成,開放權重可實現高級自訂——但此類新版本需要在您的領域進行仔細測試:鍊式編輯、身份保留以及邊緣字體/腳本可能需要迭代和快速工程。 Qwen 團隊正在積極調整模型,並建議使用最新的 diffusers 提交並提供快速重寫工具以獲得最佳穩定性。
如果您的用例是大規模生產(高吞吐量、保證延遲、特殊安全性),請將雲端 API 視為任何其他託管 ML 服務:在您的區域內進行基準測試、規劃成本並實現強大的快取和結果持久性(OSS TTL 注意事項)。
