Q

Qwen Image

每次請求:$0.028
Qwen-Image 是由阿里巴巴的通義千問團隊於 2025 年發布的革命性圖像生成基礎模型。其參數規模達 200 億,基於 MMDiT(多模態擴散 Transformer)架構。該模型在複雜文字渲染與精準圖像編輯方面取得了重大突破,尤其在中文文字渲染方面展現出卓越表現。 由 DeepL.com(免費版)翻譯
商業用途

主要功能

  • 在圖像內原生/高品質文字渲染 — 擅長在生成的圖像中產生清晰、語義準確的文字(海報、包裝、截圖),這是許多早期圖像模型表現不佳的領域。
  • 高保真多模態輸出 — 能生成具備良好細節與語言感知版面的擬真與風格化圖像。
  • 風格遷移與細節增強 — 可套用一致的藝術風格,或在保留場景連貫性的同時增強局部細節。

技術細節 — Qwen-Image 如何運作

架構與組件(關鍵詞:MMDiT、Qwen2.5-VL)。 模型使用基於 MMDiT 的擴散 Transformer 進行圖像合成,並結合 視覺語言編碼器(Qwen2.5-VL)來理解提示詞與視覺上下文。這種分離設計讓模型能以不同方式處理語義引導像素外觀,從而提升文字保真度與編輯一致性。官方儲存庫與技術報告指出,主 T2I 模型採用 200 億參數骨幹網路。

訓練流程(關鍵詞:課程學習、資料流程)。 為了解決困難的文字渲染問題,Qwen-Image 採用漸進式課程學習:從較簡單、無文字的圖像開始,逐步訓練到更複雜、文字豐富的範例,最終達到段落級輸入。團隊建立了一套完整流程,包含大規模收集、審慎過濾、合成增強與資料平衡,以確保模型在訓練期間能看到大量真實的文字/照片組合。這種策略性的課程設計,是模型在多語言文字渲染方面表現優異的關鍵原因。

編輯機制(關鍵詞:雙重編碼、VAE + VL 編碼器)。 在編輯模式下,系統會將原始圖像輸入兩次:一次送入 Qwen2.5-VL 編碼器以進行語義控制,另一次送入 VAE 編碼器以取得重建式外觀資訊。這種雙重編碼設計,讓編輯模組在允許語義修改的同時,仍能保留身份特徵與視覺保真度——例如替換物件或更改文字內容,而不會破壞無關區域。

基準測試表現

Qwen-Image 在多個公開基準上,於生成與編輯任務皆達到 SOTA 或接近 SOTA 的表現,尤其在文字渲染任務與真實世界構圖基準(例如 T2I-CoreBench 與精選圖像編輯測試集)中表現突出。

Qwen-image API

Qwen-Image 與其他領先模型的比較

相對優勢: 文字渲染與雙語文字保真度 是該模型相較許多生成式競品(例如 DALL·E 3、SDXL、Midjourney)的鮮明優勢。後者通常在純藝術構圖或風格多樣性方面更強,但在密集多行文字或中文排版上較弱。多項社群比較與模型作者的基準表格皆支持這一特性描述。

相對權衡: 與封閉式、經過深度調校的商業系統相比,根據獨立測試,Qwen-Image 在某些情境下可能需要後處理或提示詞/適配器調整,才能達到同等程度的擬真效果(例如曲面文字變形、擬真合成)。對於重視模板化設計、包裝樣機或雙語文字版面的使用者而言,Qwen-Image 往往是較佳選擇。


典型且高價值的使用場景

  • 包裝與產品樣機: 適用於標籤與包裝測試中需要精準文字與多行排版的情境。
  • 廣告與設計草稿: 適合需要重視文字保真度的快速原型製作(海報、橫幅)。
  • 文件化圖像生成: 用於生成必須包含可讀內容的圖像(菜單、招牌、介面)。
  • 圖像編輯流程: 可進行目標式編輯(文字替換、物件新增/移除),同時保留風格與透視。
  • 如何存取 Qwen image API

步驟 1:註冊以取得 API Key

登入 cometapi.com。若您尚未成為我們的使用者,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。於個人中心的 API token 中點選「Add Token」,取得 token key:sk-xxxxx 並提交。

步驟 2:向 Qwen image API 發送請求

選擇「qwen-image」端點來發送 API 請求,並設定請求主體。請求方法與請求主體可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試,方便您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。base url 為 Images 格式(https://api.cometapi.com/v1/images/generations),透過 CometAPI 存取。

將您的問題或請求插入 content 欄位中——這就是模型將回應的內容。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。