Alibaba Cloud выпускает мультимодальную модель Qwen‑VLo, обновление возможностей изображения

Подразделение искусственного интеллекта Alibaba Cloud официально запущено Квен-ВЛо, последняя итерация в серии мультимодальных моделей Qwen, знаменующая собой значительный прогресс в объединенных возможностях зрения и языка. Анонсированный 28 июня 2025 года, Qwen-VLo предлагает как функции понимания, так и генерации, значительно превосходя своих предшественников и включая создание и редактирование изображений высокого разрешения с помощью подсказок на естественном языке и визуальных входов.

Основываясь на более ранних релизах, таких как Qwen‑VL и Qwen2.5‑VL, Qwen‑VLo представляет собой то, что Alibaba описывает как «комплексное обновление» в мультимодальном ИИ. В то время как Qwen‑VL был сосредоточен в первую очередь на интерпретации визуальной информации, а Qwen2.5‑VL — на улучшенном понимании длинного контекста, Qwen‑VLo объединяет эти сильные стороны в единую структуру, способную выполнять двунаправленные задачи на языке зрения. Он вмещает открытые инструкции, поддерживает несколько языков, включая китайский и английский, и совершенствует свои выходные данные, чтобы конкурировать с результатами художников-людей.

Главные преимущества

Прогрессивная генерация изображений

Qwen‑VLo создает изображения поэтапно — слева направо и сверху вниз — итеративно уточняя прогнозируемый контент для обеспечения согласованности и визуальной гармонии. Этот механизм повышает как эффективность генерации, так и контроль пользователя над творческим процессом.

Поддержка динамического разрешения

Используя динамическое обучение разрешению, модель может обрабатывать произвольные разрешения ввода/вывода и соотношения сторон. Пользователи могут создавать контент, адаптированный для различных сценариев, например, веб-баннеры, обложки социальных сетей или постеры высокого разрешения, не ограничиваясь фиксированными форматами.

Редактирование открытых инструкций

Благодаря подсказкам на естественном языке Qwen VLo может выполнять расширенные правки, такие как переносы стилей («Применить стиль Ван Гога»), композитные преобразования («Добавить солнечное небо») и многогранные модификации в одной инструкции. Он также поддерживает извлечение и редактирование традиционных визуальных сигналов, таких как карты глубины, маски сегментации и контуры краев.

Многоязычное взаимодействие

Модель принимает команды на нескольких языках (в настоящее время поддерживаются китайский и английский), тем самым обслуживая глобальную пользовательскую базу и разрушая языковые барьеры в творческих рабочих процессах.

Наличие и доступ

Qwen‑VLo в настоящее время доступен в предварительный просмотр через платформу Qwen Chat по адресу чат.qwen.ai. Alibaba Cloud отметила, что в качестве предварительной версии пользователи могут столкнуться с несоответствиями или фактическими неточностями во время генерации. Команда разработчиков активно работает над устранением этих ограничений перед более широким развертыванием.

Под капотом инженеры Alibaba по искусственному интеллекту оптимизировали Qwen‑VLo для развертывания как в облачных, так и в периферийных средах. Используя квантование смешанной точности и новые эффективные по параметрам методы тонкой настройки, модель поддерживает высокую производительность на компактном вычислительном пространстве. Alibaba также интегрировала адаптивные конвейеры вывода для балансировки задержки и качества, гарантируя, что Qwen‑VLo может обслуживать чувствительные к задержке приложения, такие как интерактивные инструменты проектирования, при масштабировании до рабочих нагрузок корпоративного уровня в Alibaba Cloud.

По сравнению с Qwen-VL-Плюс/Макс

Функция Размерность	Qwen-VL-Плюс/Макс	Квен ВЛо
Понимание изображения	Основная классификация, описание	Многомерное распознавание структуры, улучшенное контекстное понимание
Генерация изображения	Ограниченная поддержка стилей	Высокая точность, прогрессивная генерация, широкие возможности управления стилем
Многозадачность	Требует ввода данных, специфичных для задачи	Унифицированная многозадачность, поддержка сложных языковых инструкций
Многоязычное взаимодействие	Ограниченная поддержка	Собственная поддержка китайского и английского языков, более плавное управление естественным языком
Возможность сохранения деталей	Возможная потеря деталей при генерации	Точная идентификация и реконструкция ключевых структур и семантики

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Для начала изучите возможности моделей в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.

Последняя интеграция Qwen‑VLo API скоро появится на CometAPI, так что следите за обновлениями! Пока мы завершаем загрузку модели Qwen‑VLo, изучите наши другие модели на Страница моделей или попробуйте их в Площадка с искусственным интеллектом. Последняя модель Qwen в CometAPI — это API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.