阿里雲AI事業部正式成立 奎恩-維洛是其 Qwen 多模態模型系列的最新版本,標誌著視覺和語言統一能力的重大進步。 Qwen-VLo 於 28 年 2025 月 XNUMX 日發布,它兼具理解和生成功能,遠遠超越了其前代產品,包括由自然語言提示和視覺輸入驅動的高解析度圖像創建和編輯。
Qwen-VLo 是基於 Qwen-VL 和 Qwen2.5-VL 等早期版本構建的,阿里巴巴稱之為多模態 AI 的「全面升級」。 Qwen-VL 主要專注於解讀視覺訊息,Qwen2.5-VL 則增強了長上下文理解能力,而 Qwen-VLo 則將這些優勢整合到一個能夠執行雙向視覺語言任務的框架中。它支援開放式指令,支援多種語言(包括中文和英文),並不斷優化輸出,使其輸出效果可與人類藝術家媲美。
產品特色
漸進式影像生成
Qwen‑VLo 以逐步建立影像的方式(從左到右、從上到下)迭代優化預測內容,以確保一致性和視覺和諧性。這種機制既提高了生成效率,也增強了使用者對創作過程的控制力。
動態解析度支援
此模型利用動態解析度訓練,可以處理任意輸入/輸出解析度和寬高比。使用者可以產生針對各種場景客製化的內容,例如網頁橫幅、社群媒體封面或高解析度海報,而不受固定格式的限制。
開放式指令編輯
透過自然語言提示,Qwen VLo 可以在一條指令中執行高級編輯,例如風格轉換(“應用梵高風格”)、複合變換(“添加晴朗的天空”)以及多方面修改。它還支援提取和編輯傳統的視覺訊號,例如深度圖、分割遮罩和邊緣輪廓。
多語言互動
該模型接受多種語言的命令(目前支援中文和英文),從而滿足全球用戶群的需求並打破創意工作流程中的語言障礙。
可用性和訪問
Qwen‑VLo 目前提供 預習 透過 Qwen 聊天平台 chat.qwen.ai阿里雲已註意到,作為預覽版本,使用者在生成過程中可能會遇到偶爾的不一致或事實錯誤。開發團隊正在積極迭代,以在更廣泛的推廣之前解決這些限制。
阿里巴巴的 AI 工程師們對 Qwen‑VLo 進行了底層優化,使其能夠部署在雲端和邊緣環境中。該模型利用混合精度量化和新穎的參數高效微調技術,在緊湊的運算空間內保持高效能。阿里巴巴還整合了自適應推理管線,以平衡延遲和質量,確保 Qwen‑VLo 能夠服務於對延遲敏感的應用程式(例如互動式設計工具),同時擴展到阿里雲端上的企業級工作負載。
相比於 Qwen-VL-Plus/Max
| 功能維度 | Qwen-VL-Plus/Max | 奎恩·維羅 |
|---|---|---|
| 圖像理解 | 基本分類、描述 | 多維結構識別,增強上下文理解 |
| 影像產生 | 有限的樣式支持 | 精準度高,漸進生成,風格控制能力強 |
| 多工處理能力 | 需要特定任務的輸入 | 統一多任務,支援複雜語言指令 |
| 多語言互動 | 有限的支持 | 原生支援中英文,自然語言操控較流暢 |
| 細節保留能力 | 生成過程中可能會失去細節 | 準確識別並重建關鍵結構和語義 |
入門
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
首先,探索模型在 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。
最新的整合 Qwen‑VLo API 即將出現在 CometAPI 上,敬請期待!在我們完成 Qwen‑VLo 模型上傳的同時,您可以探索我們在 模型頁面 或者嘗試一下 人工智能遊樂場. Qwen 在 CometAPI 中的最新模型是 Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

