Может ли модель Qwen-Image переосмыслить генерацию и редактирование изображений с помощью ИИ?

4 августа 2025 года команда Qwen компании Alibaba официально запустила Qwen-Image, базовая модель многомодального диффузионного преобразователя (MMDiT) с 20 миллиардами параметров, разработанная для обеспечения беспрецедентной точности синтеза текста в изображение и точного редактирования изображений. Этот выпуск знаменует собой смелый выход Alibaba на рынок генерации изображений с открытым исходным кодом, позиционируя Qwen-Image как прямого конкурента таким проприетарным системам, как GPT-4o от OpenAI, DALL·E 2 и Midjourney.

Технические инновации

Qwen-Image's 20 Б ММДиТ Backbone представляет собой значительный инженерный подвиг, позволяющий модели превосходно визуализировать сложный текстовый контент непосредственно в сгенерированных изображениях. Подход к обучению начинается с простых задач визуализации нетекстовых данных и постепенно переходит к обработке описаний длиной в абзацы, обеспечивая исключительную точность как на алфавитных, так и на логографических языках. Более того, модель включает в себя двойное кодирование механизм — отдельная обработка семантических и реконструктивных представлений с помощью Qwen2.5-VL и кодировщика VAE — который обеспечивает баланс между сохранением семантической согласованности и визуальным реализмом во время редактирования изображений.

Прорывы в рендеринге и редактировании текста

Ключевым отличием Qwen-Image является его встроенная поддержка встроенного текста, что позволяет размещать разборчивый текст на английском и китайском языках в изображениях в многострочных макетах и контекстах абзацев. Внутренние тесты показывают, что Qwen-Image превосходит многих конкурентов с открытым исходным кодом по быстроте срабатывания и чёткости текста, что делает его идеальным инструментом для приложений, требующих многоязычных элементов дизайна. Возможности редактирования изображений также выигрывают от многозадачной парадигмы обучения, которая объединяет задачи преобразования текста в изображение, преобразования текста в изображение и преобразования изображения в изображение, что повышает согласованность при изменении существующих визуальных материалов.

Независимые оценки демонстрируют превосходство Qwen-Image над несколькими ведущими моделями с открытым исходным кодом и собственными системами в точности встраивания текста. В сравнительных тестах система превосходит альтернативы с открытым исходным кодом среднего уровня и соперничает с коммерческими решениями, такими как Midjourney, по скорости выполнения, особенно при двуязычных подсказках, сочетающих английский и китайский языки. Хотя некоторые собственные системы всё ещё могут лидировать в создании сверхсложных сцен, первые отзывы пользователей подчёркивают непревзойдённую чёткость Qwen-Image при создании многоязычных текстовых макетов и его надёжные средства редактирования.

В соответствии с обязательством Alibaba по «открытому, прозрачному и устойчивому» ИИ, Qwen-Image открытым исходным кодом на платформе MoDa, приглашая сообщество вносить свой вклад и вносить изменения. Наряду с выпуском модели Alibaba опубликовала обширную документацию, примеры кода и портал обратной связи для поддержки реального тестирования в различных сценариях использования — от автоматизированных конвейеров публикации до интерактивных образовательных инструментов.

Результаты оценки

Внутренние показатели Alibaba и оценки третьих сторон рисуют картину лидирующих показателей Qwen-Image:

GenEval (генерация общего изображения): Достигнуто начальное расстояние Фреше (FID) 10.2, что в среднем на 20 % превышает показатели сопоставимых моделей с 9 B-параметрами.
LongText-Bench (рендеринг текста): Забил гол 92.7% точность размещения многострочного текста и целостность глифов, превосходящая GPT-4.1 на 14 %.
GEdit/ImgEdit (редактирование изображений): Зарегистрирован средний балл мнения (MOS) 4.3/5, что отражает высокую удовлетворенность пользователей сохранением семантической согласованности во время редактирования
OneIG-Bench (Создание инфографики): Входит в тройку лучших моделей по визуальному отображению структурированных данных и диаграмм непосредственно из подсказок, демонстрируя широкие возможности по компоновке и выбору цветов.
Рейтинг лидеров: В рейтинге лидеров Artificial Analysis Image Arena Qwen-Image в настоящее время занимает 5-е место среди всех моделей генерации изображений и является единственным представителем открытого веса в первой десятке, что демонстрирует его конкурентоспособность в исследовательском сообществе.

Доступ и экосистема

Универсальный набор функций Qwen-Image открывает целый ряд реальных приложений:

Маркетинг и реклама: Быстрое создание индивидуальных рекламных визуальных материалов со встроенными слоганами и многоязычными текстовыми элементами.
Образовательный контент: Автоматизированная генерация иллюстративных диаграмм, инфографики и аннотированных изображений для платформ электронного обучения.
Проектирование и прототипирование: Макеты и концепт-арты «на лету» с редактируемыми слоями для интерактивных творческих рабочих процессов.
Услуги локализации: Простая адаптация визуальных эффектов к различным языковым контекстам без необходимости ручного графического дизайна.

Пользователи могут взаимодействовать с Qwen-Image через интерфейс чата Qwen от Alibaba, выбрав режим «Создание изображений», или интегрировать модель в свои среды через репозиторий GitHub и API-интерфейсы CometAPI.

Интерактивное использование: Посещение чат.qwen.ai и выберите любую некодирующую модель Qwen, затем переключитесь в «Создание изображений», чтобы начать создание.
Код и веса:
GitHub: github.com/QwenLM/Qwen-Image
Обнимая лицо: huggingface.co
Модельскоп: modelscope.cn

Alibaba поощряет обратную связь и вклад сообщества для развития открытый, прозрачный и устойчивый генеративная экосистема ИИ.

Последняя интеграция Qwen-Image скоро появится на CometAPI, так что следите за обновлениями! Пока мы завершаем загрузку модели Qwen-Image, изучите другие наши модели на странице «Модели» или попробуйте их в AI Playground.

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

См. также

Технические инновации

Прорывы в рендеринге и редактировании текста

Результаты оценки

Доступ и экосистема

Читать далее

500+ моделей в одном API