阿里云发布 Qwen‑VLo 多模态模型，图像能力升级

Alibaba Cloud 的 AI 部门已正式推出 Qwen‑VLo，这是其 Qwen 多模态模型系列的最新迭代，标志着统一视觉与语言能力的重大进步。于 2025 年 6 月 28 日发布，Qwen‑VLo 兼具理解与生成功能，较其前代大幅扩展，新增由自然语言提示与视觉输入驱动的高分辨率图像创作与编辑。

基于 Qwen‑VL 与 Qwen2.5‑VL 等早期版本，Qwen‑VLo 体现了 Alibaba 所称的多模态 AI 的“全面升级”。Qwen‑VL 主要侧重于视觉信息解读，Qwen2.5‑VL 则增强了长上下文理解；Qwen‑VLo 将这些优势整合为一个能够执行双向视觉‑语言任务的统一框架。它可处理开放式指令，支持多种语言（包括中文与英语），并对输出进行精细化打磨，达到可与人类艺术家媲美的水平。

关键特性

渐进式图像生成

Qwen‑VLo 以分步方式构建图像——从左到右、从上到下——通过迭代细化预测内容以确保一致性与视觉和谐。该机制同时提升生成效率与用户对创作过程的可控性。

动态分辨率支持

借助动态分辨率训练，模型可处理任意输入/输出分辨率与纵横比。用户可针对多种场景生成内容——如网页横幅、社交媒体封面或高分辨率海报——而不受固定格式限制。

开放式指令编辑

通过自然语言提示，Qwen VLo 可执行高级编辑，例如风格迁移（“应用 Van Gogh 风格”）、复合变换（“添加一个晴朗的天空”），以及在单条指令中的多维度修改。它还支持提取与编辑传统视觉信号，如深度图、分割掩膜与边缘轮廓。

多语言交互

该模型可接受多种语言的指令——目前支持中文与英语——从而服务全球用户群并打破创作流程中的语言壁垒。

可用性与访问

Qwen‑VLo 目前可通过 Qwen Chat 平台的 chat.qwen.ai 以预览形式使用。Alibaba Cloud 指出，作为预览版本，用户在生成过程中可能偶尔遇到不一致或事实不准确的情况。开发团队正积极迭代，在更广泛发布前解决这些限制。

在底层架构方面，Alibaba 的 AI 工程师已对 Qwen‑VLo 进行了优化，使其可部署于云端与边缘环境。借助混合精度量化与新型参数高效微调技术，该模型在紧凑的计算资源下仍保持高性能。Alibaba 还集成了自适应推理管线以平衡时延与质量，确保 Qwen‑VLo 能够服务对时延敏感的应用——如交互式设计工具——同时在 Alibaba Cloud 上扩展至企业级工作负载。

与 Qwen-VL-Plus/Max 对比

功能维度	Qwen-VL-Plus/Max	Qwen VLo
图像理解	基础分类、描述	多维结构识别、增强的上下文理解
图像生成	有限的风格支持	高精度、渐进式生成、强大的风格控制能力
多任务能力	需要针对任务的特定输入	统一的多任务处理，支持复杂语言指令
多语言交互	支持有限	原生支持中文与英语，更流畅的自然语言控制
细节保留能力	生成过程中可能出现细节丢失	准确识别与重建关键结构与语义

入门指南

CometAPI 是一个统一的 API 平台，将来自领先提供商的 500+ 款 AI 模型——例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到一个对开发者友好的界面中。通过提供一致的认证、请求格式与响应处理，CometAPI 大幅简化了将 AI 能力集成到你的应用中的过程。无论你正在构建聊天机器人、图像生成器、音乐创作工具，还是数据驱动的分析管线，CometAPI 都能帮助你更快迭代、控制成本并保持与供应商无关，同时把握 AI 生态的最新突破。

开始使用前，可在 Playground 中探索各模型的能力，并参阅 API 指南获取详细说明。访问前请确保已登录 CometAPI 并获得 API 密钥。

最新集成的 Qwen‑VLo API 即将登陆 CometAPI，敬请期待！在我们完成 Qwen‑VLo 模型上传期间，可在 Models page 浏览其他模型，或在 AI Playground 进行试用。Qwen 在 CometAPI 的最新模型为 Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) 以及 qwen-vl-plus-latest。