阿里雲發布Qwen‑VLo多模態模型，影像能力升級

阿里雲AI事業部正式成立 奎恩-維洛是其 Qwen 多模態模型系列的最新版本，標誌著視覺和語言統一能力的重大進步。 Qwen-VLo 於 28 年 2025 月 XNUMX 日發布，它兼具理解和生成功能，遠遠超越了其前代產品，包括由自然語言提示和視覺輸入驅動的高解析度圖像創建和編輯。

Qwen-VLo 是基於 Qwen-VL 和 Qwen2.5-VL 等早期版本構建的，阿里巴巴稱之為多模態 AI 的「全面升級」。 Qwen-VL 主要專注於解讀視覺訊息，Qwen2.5-VL 則增強了長上下文理解能力，而 Qwen-VLo 則將這些優勢整合到一個能夠執行雙向視覺語言任務的框架中。它支援開放式指令，支援多種語言（包括中文和英文），並不斷優化輸出，使其輸出效果可與人類藝術家媲美。

產品特色

漸進式影像生成

Qwen‑VLo 以逐步建立影像的方式（從左到右、從上到下）迭代優化預測內容，以確保一致性和視覺和諧性。這種機制既提高了生成效率，也增強了使用者對創作過程的控制力。

動態解析度支援

此模型利用動態解析度訓練，可以處理任意輸入/輸出解析度和寬高比。使用者可以產生針對各種場景客製化的內容，例如網頁橫幅、社群媒體封面或高解析度海報，而不受固定格式的限制。

開放式指令編輯

透過自然語言提示，Qwen VLo 可以在一條指令中執行高級編輯，例如風格轉換（“應用梵高風格”）、複合變換（“添加晴朗的天空”）以及多方面修改。它還支援提取和編輯傳統的視覺訊號，例如深度圖、分割遮罩和邊緣輪廓。

多語言互動

該模型接受多種語言的命令（目前支援中文和英文），從而滿足全球用戶群的需求並打破創意工作流程中的語言障礙。

可用性和訪問

Qwen‑VLo 目前提供預習透過 Qwen 聊天平台 chat.qwen.ai阿里雲已註意到，作為預覽版本，使用者在生成過程中可能會遇到偶爾的不一致或事實錯誤。開發團隊正在積極迭代，以在更廣泛的推廣之前解決這些限制。

阿里巴巴的 AI 工程師們對 Qwen‑VLo 進行了底層優化，使其能夠部署在雲端和邊緣環境中。該模型利用混合精度量化和新穎的參數高效微調技術，在緊湊的運算空間內保持高效能。阿里巴巴還整合了自適應推理管線，以平衡延遲和質量，確保 Qwen‑VLo 能夠服務於對延遲敏感的應用程式（例如互動式設計工具），同時擴展到阿里雲端上的企業級工作負載。

相比於 Qwen-VL-Plus/Max

功能維度	Qwen-VL-Plus/Max	奎恩·維羅
圖像理解	基本分類、描述	多維結構識別，增強上下文理解
影像產生	有限的樣式支持	精準度高，漸進生成，風格控制能力強
多工處理能力	需要特定任務的輸入	統一多任務，支援複雜語言指令
多語言互動	有限的支持	原生支援中英文，自然語言操控較流暢
細節保留能力	生成過程中可能會失去細節	準確識別並重建關鍵結構和語義

入門

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

首先，探索模型在游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。

最新的整合 Qwen‑VLo API 即將出現在 CometAPI 上，敬請期待！在我們完成 Qwen‑VLo 模型上傳的同時，您可以探索我們在模型頁面或者嘗試一下人工智能遊樂場. Qwen 在 CometAPI 中的最新模型是 Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.