4年2025月XNUMX日,阿里巴巴Qwen團隊正式上線 Qwen-Image,一個擁有 20 億個參數的多模態擴散變換器 (MMDiT) 基礎模型,旨在為文字到影像的合成和精準影像編輯提供前所未有的保真度。此次發布標誌著阿里巴巴大膽進軍開源影像生成領域,Qwen-Image 也因此成為 OpenAI 的 GPT-4o、DALL·E 2 和 Midjourney 等專有系統的直接挑戰者。
技術創新
Qwen-Image的 20 B MMDiT 主幹網標誌著一項重大的工程壯舉,使該模型能夠出色地直接在生成的圖像中渲染複雜的文字內容。其課程學習方法從簡單的非文字渲染任務開始,逐步發展到處理段落長度的描述,從而在字母語言和表意文字語言中都實現了卓越的保真度。此外,該模型還整合了 雙重編碼 機制——透過 Qwen2.5-VL 和 VAE 編碼器分別處理語義和重建表示——在影像編輯過程中保持語義一致性和視覺真實感之間取得平衡。
文字渲染和編輯方面的突破
Qwen-Image 的一個關鍵區別在於其 原生支援嵌入文本,使其能夠在多行佈局和段落上下文的圖像中放置清晰的英文和中文文字。內部基準測試表明,Qwen-Image 在快速執行和文字清晰度方面優於許多開源競爭對手,使其成為需要多語言設計元素的應用程式的理想選擇。其圖像編輯功能也受益於多任務訓練範式,該範式整合了文字到圖像、文字到圖像和圖像到圖像的重建任務,從而增強了修改現有視覺效果時的一致性。
獨立評估表明,Qwen-Image 在文本嵌入準確率方面優於多個領先的開源和專有模型。在對比測試中,它在提示執行方面超越了中端開源替代方案,並與 Midjourney 等商業產品相媲美,尤其是在結合中英文的雙語提示方面。雖然一些專有系統在生成超複雜場景方面可能仍然領先,但早期用戶回饋凸顯了 Qwen-Image 在多語言文字佈局方面無與倫比的清晰度及其強大的編輯控制項。
秉承阿里巴巴對「開放、透明、永續」人工智慧的承諾,Qwen-Image 開源 在MoDa平台上,邀請社群貢獻和客製化。除了模型發布之外,阿里巴巴還發布了大量文件、範例程式碼和回饋門戶,以支援從自動發布流程到互動式教育工具等各種用例的實際測試。
評估結果
阿里巴巴的內部基準和第三方評估描繪了 Qwen-Image 的領先表現:
- GenEval(通用圖像生成): 實現了 Fréchet 初始距離 (FID) 10.2,平均比同類 20 個 B 參數模型高出 9%。
- LongText-Bench(文字渲染): 得分 92.7% 多行文字放置和字形完整性的準確率,比 GPT-4.1 高出 14%。
- GEdit/ImgEdit(圖像編輯): 平均意見得分 (MOS) 為 4.3/5反映出使用者對編輯過程中維持語意一致性的滿意度很高
- OneIG-Bench(資訊圖表產生): 位元列直接從提示中直觀呈現結構化資料和圖表的前三大模型之一,展示了強大的佈局和顏色選擇功能。
- 排行榜排名:在人工智慧分析影像競技場排行榜上,Qwen-Image 目前在所有影像生成模型中排名第五,並且是前十名中唯一的開放重量級參賽作品,展示了其在研究界的競爭優勢。
訪問和生態系統
Qwen-Image 的多功能功能集解鎖了一系列實際應用:
- 行銷與廣告: 快速建立嵌入標語和多語言文字元素的客製化促銷視覺效果。
- 教育內容: 為電子學習平台自動產生說明圖、資訊圖表和附註釋的圖像。
- 設計與原型製作: 具有可編輯圖層的即時模型和概念藝術,用於互動式創意工作流程。
- 在地化服務: 無需手動進行圖形設計,即可將視覺效果無縫適應不同的語言環境。
使用者可以透過選擇「影像生成」模式透過阿里巴巴的 Chat Qwen 介面與 Qwen-Image 進行交互,或透過 GitHub 儲存庫和 CometAPI API 將模型整合到他們的環境中。
- 互動式使用:參觀 chat.qwen.ai 並選擇任何非編碼的Qwen模型,然後切換到「影像生成」開始建立。
- 代碼和重量:
- GitHub上:github.com/QwenLM/Qwen-Image
- 擁抱臉: huggingface.co
- 模型範圍: modelscope.cn
阿里巴巴鼓勵社區回饋和貢獻,以促進 開放、透明、可持續 生成式人工智慧生態系統。
最新整合的 Qwen-Image 很快就會出現在 CometAPI 上,敬請期待!在我們完成 Qwen-Image 模型上傳的同時,您可以在模型頁面上探索我們的其他模型,或在 AI Playground 中嘗試它們。
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
參見
