阿里雲發布Qwen‑VLo多模態模型,影像能力升級

CometAPI
AnnaJun 29, 2025
阿里雲發布Qwen‑VLo多模態模型,影像能力升級

阿里雲AI事業部正式成立 奎恩-維洛是其 Qwen 多模態模型系列的最新版本,標誌著視覺和語言統一能力的重大進步。 Qwen-VLo 於 28 年 2025 月 XNUMX 日發布,它兼具理解和生成功能,遠遠超越了其前代產品,包括由自然語言提示和視覺輸入驅動的高解析度圖像創建和編輯。

Qwen-VLo 是基於 Qwen-VL 和 Qwen2.5-VL 等早期版本構建的,阿里巴巴稱之為多模態 AI 的「全面升級」。 Qwen-VL 主要專注於解讀視覺訊息,Qwen2.5-VL 則增強了長上下文理解能力,而 Qwen-VLo 則將這些優勢整合到一個能夠執行雙向視覺語言任務的框架中。它支援開放式指令,支援多種語言(包括中文和英文),並不斷優化輸出,使其輸出效果可與人類藝術家媲美。

產品特色

漸進式影像生成

Qwen‑VLo 以逐步建立影像的方式(從左到右、從上到下)迭代優化預測內容,以確保一致性和視覺和諧性。這種機制既提高了生成效率,也增強了使用者對創作過程的控制力。

動態解析度支援

此模型利用動態解析度訓練,可以處理任意輸入/輸出解析度和寬高比。使用者可以產生針對各種場景客製化的內容,例如網頁橫幅、社群媒體封面或高解析度海報,而不受固定格式的限制。

開放式指令編輯

透過自然語言提示,Qwen VLo 可以在一條指令中執行高級編輯,例如風格轉換(“應用梵高風格”)、複合變換(“添加晴朗的天空”)以及多方面修改。它還支援提取和編輯傳統的視覺訊號,例如深度圖、分​​割遮罩和邊緣輪廓。

多語言互動

該模型接受多種語言的命令(目前支援中文和英文),從而滿足全球用戶群的需求並打破創意工作流程中的語言障礙。

可用性和訪問

Qwen‑VLo 目前提供 預習 透過 Qwen 聊天平台 chat.qwen.ai阿里雲已註意到,作為預覽版本,使用者在生成過程中可能會遇到偶爾的不一致或事實錯誤。開發團隊正在積極迭代,以在更廣泛的推廣之前解決這些限制。

阿里巴巴的 AI 工程師們對 Qwen‑VLo 進行了底層優化,使其能夠部署在雲端和邊緣環境中。該模型利用混合精度量化和新穎的參數高效微調技術,在緊湊的運算空間內保持高效能。阿里巴巴還整合了自適應推理管線,以平衡延遲和質量,確保 Qwen‑VLo 能夠服務於對延遲敏感的應用程式(例如互動式設計工具),同時擴展到阿里雲端上的企業級工作負載。

相比於 Qwen-VL-Plus/Max

功能維度Qwen-VL-Plus/Max奎恩·維羅
圖像理解基本分類、描述多維結構識別,增強上下文理解
影像產生有限的樣式支持精準度高,漸進生成,風格控制能力強
多工處理能力需要特定任務的輸入統一多任務,支援複雜語言指令
多語言互動有限的支持原生支援中英文,自然語言操控較流暢
細節保留能力生成過程中可能會失去細節準確識別並重建關鍵結構和語義

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

首先,探索模型在 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。

最新的整合 Qwen‑VLo API 即將出現在 CometAPI 上,敬請期待!在我們完成 Qwen‑VLo 模型上傳的同時,您可以探索我們在 模型頁面 或者嘗試一下 人工智能遊樂場. Qwen 在 CometAPI 中的最新模型是 Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

阿里雲發布Qwen‑VLo多模態模型,影像能力升級

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣