/
模型支援企業部落格
500+ AI 模型 API,全部整合在一個 API 中。就在 CometAPI
模型 API
開發者
快速入門說明文件API 儀表板
資源
AI模型部落格企業更新日誌關於
2025 CometAPI. 保留所有權利。隱私政策服務條款
Home/Models/Aliyun/Qwen Image
Q

Qwen Image

每次請求:$0.028
Qwen-Image — революционная базовая модель генерации изображений, выпущенная командой Tongyi Qianwen компании Alibaba в 2025 году. При масштабе параметров в 20 миллиардов она основана на архитектуре MMDiT (Multimodal Diffusion Transformer). Модель достигла значительных прорывов в сложном рендеринге текста и точном редактировании изображений, демонстрируя выдающиеся результаты, особенно при рендеринге китайского текста. Переведено с помощью DeepL.com (бесплатная версия)
新
商業用途
概覽
功能
定價
API
版本

Ключевые возможности

  • Нативная/высококачественная отрисовка текста внутри изображений — превосходно генерирует разборчивый, семантически точный текст в создаваемых изображениях (плакаты, упаковка, скриншоты) — область, с которой многие ранние модели изображений испытывали трудности.
  • Высокоточная мультимодальная выдача — создает фотореалистичные и стилизованные изображения с хорошей детализацией и компоновкой, учитывающей язык.
  • Перенос стиля и усиление деталей — может применять согласованные художественные стили или усиливать локальные детали при сохранении целостности сцены.

Технические детали — как работает Qwen-Image

Архитектура и компоненты (ключевые слова: MMDiT, Qwen2.5-VL). Модель использует диффузионный трансформер на основе MMDiT для синтеза изображений в сочетании с визуально-языковым энкодером (Qwen2.5-VL) для интерпретации подсказок и визуального контекста. Такое разделение позволяет по-разному обрабатывать семантическое управление и пиксельный облик, повышая точность текста и согласованность правок. В официальном репозитории и техническом отчете отмечается базовая архитектура на 20B параметров для основной T2I-модели.

Пайплайн обучения (ключевые слова: curriculum learning, data pipeline). Чтобы решить сложную задачу отрисовки текста, Qwen-Image использует прогрессивный curriculum: начинается с простых изображений без текста и постепенно обучается на более сложных примерах с большим количеством текста вплоть до входов уровня абзацев. Команда построила комплексный конвейер, включающий крупномасштабный сбор, тщательную фильтрацию, синтетическое аугментирование и балансировку, чтобы модель видела множество реалистичных композиций текст/фото во время обучения. Эта стратегическая программа — ключевая причина, по которой модель превосходит в многоязычной отрисовке текста.

Механизм редактирования (ключевые слова: dual-encoding, VAE + VL encoder). Для редактирования система подает исходное изображение дважды: один раз в энкодер Qwen2.5-VL для семантического контроля, и один раз в VAE-энкодер для реконструктивной информации о внешнем виде. Двойное кодирование позволяет модулю редактирования сохранять идентичность и визуальную достоверность, одновременно позволяя семантические изменения — например, замену объекта или изменение текстового содержимого без ухудшения несвязанных областей.

Результаты на бенчмарках

Qwen-Image достигает SOTA или близких к SOTA результатов на множестве публичных бенчмарков как по генерации, так и по редактированию, с особенно сильными показателями в задачах отрисовки текста и бенчмарках реальных композиций (например, T2I-CoreBench и отобранные наборы для редактирования изображений).

Qwen-image API

Сравнение Qwen-Image с другими ведущими моделями

Относительные сильные стороны: отрисовка текста и верность двуязычному тексту — отличительные преимущества модели по сравнению со многими генеративными конкурентами (например, DALL·E 3, SDXL, Midjourney), которые часто сильнее в чисто художественной композиции или разнообразии стилей, но слабее в плотных многострочных макетах или китайской верстке текста. Это подтверждается многочисленными сравнениями сообщества и таблицами бенчмарков авторов модели.

Относительные компромиссы: по сравнению с закрытыми, сильно тюнингованными коммерческими системами, Qwen-Image может потребовать постобработки или настройки промптов/адаптеров для достижения идентичного реализма в некоторых контекстах (искажения на криволинейных поверхностях, фотореалистичная компоновка), согласно независимым тестам. Для пользователей, отдающих приоритет шаблонным дизайнам, макетам упаковки или двуязычным текстовым макетам, Qwen-Image, как правило, предпочтительнее.


Типичные и наиболее ценные сценарии использования

  • Макеты упаковки и продукта: точный текст и многострочные макеты для этикеток и тестирования упаковки.
  • Реклама и дизайн-черновики: быстрое прототипирование, где важна точность текста (плакаты, баннеры).
  • Генерация документированных изображений: создание изображений, которые должны включать читаемый контент (меню, вывески, интерфейсы).
  • Конвейеры редактирования изображений: точечные правки (замена текста, добавление/удаление объектов) с сохранением стиля и перспективы.
  • Как получить доступ к Qwen image API

Шаг 1: Зарегистрируйтесь, чтобы получить ключ API

Войдите на cometapi.com. Если вы еще не наш пользователь, пожалуйста, зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите ключ API для доступа к интерфейсу. Нажмите "Add Token" в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

Шаг 2: Отправьте запросы в Qwen image API

Выберите конечную точку “qwen-image ”, чтобы отправить запрос к API, и задайте тело запроса. Метод запроса и тело запроса берутся из документации API на нашем сайте. Наш сайт также предоставляет тестирование в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашего аккаунта. base url is Images format(https://api.cometapi.com/v1/images/generations) via CometAPI.

Вставьте свой вопрос или запрос в поле content — именно на него модель ответит .

Шаг 3: Получите и проверьте результаты

Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API возвращает статус задачи и выходные данные.

Qwen Image 的功能

探索 Qwen Image 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

Qwen Image 的定價

探索 Qwen Image 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 Qwen Image 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
每次請求:$0.028
每次請求:$0.035
-20%

Qwen Image 的範例程式碼和 API

Qwen-Image — это базовая модель для генерации и редактирования изображений из семейства Qwen, разработанная для высокоточной отрисовки текста, точного редактирования и общего преобразования текста в изображение. Она предназначена для генерации с учётом текста, двуязычной отрисовки текста (особенно хорошо работает с китайским и английским языками) и тонкого редактирования в контексте. В релизе подчёркивается философия проектирования, объединяющая понимание и генерацию (задачи понимания изображений и генеративные задачи обучаются в рамках единого конвейера).

Qwen Image的版本

Qwen Image擁有多個快照的原因可能包括:更新後輸出結果存在差異需保留舊版快照以確保一致性、為開發者提供適應與遷移的過渡期,以及不同快照對應全球或區域端點以優化使用者體驗等潛在因素。各版本間的具體差異請參閱官方文件說明。
version
qwen-image
qwen-image-edit
qwen-image-edit-plus-2025-10-30
qwen-image-max-2025-12-30

更多模型