Alibaba Cloud 的 AI 部门已正式推出 Qwen‑VLo,这是其 Qwen 多模态模型系列的最新迭代,标志着统一视觉与语言能力的重大进步。于 2025 年 6 月 28 日发布,Qwen‑VLo 兼具理解与生成功能,较其前代大幅扩展,新增由自然语言提示与视觉输入驱动的高分辨率图像创作与编辑。
基于 Qwen‑VL 与 Qwen2.5‑VL 等早期版本,Qwen‑VLo 体现了 Alibaba 所称的多模态 AI 的“全面升级”。Qwen‑VL 主要侧重于视觉信息解读,Qwen2.5‑VL 则增强了长上下文理解;Qwen‑VLo 将这些优势整合为一个能够执行双向视觉‑语言任务的统一框架。它可处理开放式指令,支持多种语言(包括中文与英语),并对输出进行精细化打磨,达到可与人类艺术家媲美的水平。
关键特性
渐进式图像生成
Qwen‑VLo 以分步方式构建图像——从左到右、从上到下——通过迭代细化预测内容以确保一致性与视觉和谐。该机制同时提升生成效率与用户对创作过程的可控性。
动态分辨率支持
借助动态分辨率训练,模型可处理任意输入/输出分辨率与纵横比。用户可针对多种场景生成内容——如网页横幅、社交媒体封面或高分辨率海报——而不受固定格式限制。
开放式指令编辑
通过自然语言提示,Qwen VLo 可执行高级编辑,例如风格迁移(“应用 Van Gogh 风格”)、复合变换(“添加一个晴朗的天空”),以及在单条指令中的多维度修改。它还支持提取与编辑传统视觉信号,如深度图、分割掩膜与边缘轮廓。
多语言交互
该模型可接受多种语言的指令——目前支持中文与英语——从而服务全球用户群并打破创作流程中的语言壁垒。
可用性与访问
Qwen‑VLo 目前可通过 Qwen Chat 平台的 chat.qwen.ai 以预览形式使用。Alibaba Cloud 指出,作为预览版本,用户在生成过程中可能偶尔遇到不一致或事实不准确的情况。开发团队正积极迭代,在更广泛发布前解决这些限制。
在底层架构方面,Alibaba 的 AI 工程师已对 Qwen‑VLo 进行了优化,使其可部署于云端与边缘环境。借助混合精度量化与新型参数高效微调技术,该模型在紧凑的计算资源下仍保持高性能。Alibaba 还集成了自适应推理管线以平衡时延与质量,确保 Qwen‑VLo 能够服务对时延敏感的应用——如交互式设计工具——同时在 Alibaba Cloud 上扩展至企业级工作负载。
与 Qwen-VL-Plus/Max 对比
| 功能维度 | Qwen-VL-Plus/Max | Qwen VLo |
|---|---|---|
| 图像理解 | 基础分类、描述 | 多维结构识别、增强的上下文理解 |
| 图像生成 | 有限的风格支持 | 高精度、渐进式生成、强大的风格控制能力 |
| 多任务能力 | 需要针对任务的特定输入 | 统一的多任务处理,支持复杂语言指令 |
| 多语言交互 | 支持有限 | 原生支持中文与英语,更流畅的自然语言控制 |
| 细节保留能力 | 生成过程中可能出现细节丢失 | 准确识别与重建关键结构与语义 |
入门指南
CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ 款 AI 模型——例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到一个对开发者友好的界面中。通过提供一致的认证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到你的应用中的过程。无论你正在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析管线,CometAPI 都能帮助你更快迭代、控制成本并保持与供应商无关,同时把握 AI 生态的最新突破。
开始使用前,可在 Playground 中探索各模型的能力,并参阅 API 指南 获取详细说明。访问前请确保已登录 CometAPI 并获得 API 密钥。
最新集成的 Qwen‑VLo API 即将登陆 CometAPI,敬请期待!在我们完成 Qwen‑VLo 模型上传期间,可在 Models page 浏览其他模型,或在 AI Playground 进行试用。Qwen 在 CometAPI 的最新模型为 Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) 以及 qwen-vl-plus-latest。

