API редактирования изображений Qwen

CometAPI
AnnaNov 12, 2025
API редактирования изображений Qwen

Qwen-Image-Edit — это ветвь семейства графических редакторов Qwen, разработанная командой Qwen (экосистема Alibaba / QwenLM). Она построена на базе MMDiT с 20 миллиардами параметров и расширяет расширенные возможности рендеринга текста Qwen-Image, превращая их в надежные рабочие процессы редактирования изображений. Модель предназначена для задач, где важна точность редактирования, например, для непосредственного изменения текста на вывесках, сохранения шрифтов и макета, добавления/удаления объектов с сохранением семантической согласованности, преобразования точки обзора/позы и точной передачи стилей.

Ключевые характеристики

  • Точное редактирование текста на изображении (на двух языках: китайском и английском) — добавить, удалить или заменить текст, максимально сохранив шрифт/размер/стиль.
  • Двойные режимы редактирования: семантический + внешний вид — поддерживает высокоуровневые семантические изменения (рефлексия, замена объекта, точка обзора) и низкоуровневые правки внешнего вида (перенос стиля, текстура, локальная ретушь).
  • Маска / регион / многооборотное редактирование — поддерживает маскированную закраску, подсказки по областям и цепочку правок для итеративных рабочих процессов уточнения.
  • Ввод нескольких изображений (последняя версия): В версии 2509 добавлена ​​поддержка редактирования нескольких изображений (например, человек+человек, человек+продукт), улучшена согласованность идентификации/продукта/текста и встроены входные данные в стиле ControlNet.

Технические детали

  • Базовая шкала/семейство: построен на Параметр 20B Фундаментальная модель Qwen-Image (диффузионный/мультимодальный дизайн в стиле MMDiT).
  • Конвейер редактирования с двойным кодированием: Модуль редактирования получает (1) семантическое представление через визуальный кодер Qwen2.5-VL и (2) реконструирующее представление через кодер VAE. Параллельная передача обоих представлений позволяет монтажной головке выбирать баланс между семантическими изменениями и точностью пикселей. Такое двойное кодирование — ключевой инженерный подход для обеспечения надёжного редактирования.
  • Прогрессивное/программное обучение: Обучение перешло от простых задач рендеринга и генерации текста к сложным задачам рендеринга текста на уровне абзацев и многозадачного редактирования (реконструкция T2I, TI2I, I2I). Сообщается, что эта программа обучения является ключевым фактором повышения точности и стабильности редактирования модели.
  • Вариант модели / модули: Qwen-Image-Edit описывается как модель 20B в стиле MMDiT, которая объединяет компоненты Qwen2.5-VL, головку диффузионного редактирования и компоненты VAE для управления внешним видом.

Контрольная производительность

Заявленный кросс-бенчмарк SOTA: Команда Qwen сообщает о передовых (SOTA) или первоклассных результатах в нескольких общедоступных тестах создания и редактирования изображений, включая GenEval, DPG, OneIG-Bench (поколение) и GEdit, ImgEdit, GSO (редактирование).

API редактирования изображений Qwen

Ограничения и предостережения (практические)

  1. Артефакты и пограничные случаи: Тестирование в сообществе выявило эпизодическую перенасыщенность, артефакты текстуры кожи или композитные швы в некоторых высокодетализированных редакциях; форки сообщества Lightning направлены на устранение этих проблем.
  2. Вычисления / память: Модель 20B и конвейеры редактирования с полной точностью требуют значительных ресурсов графического процессора. Локальное развёртывание выигрывает от bfloat16/FP8 и оптимизированных рабочих процессов сэмплирования (существуют варианты «lightning» с 4/8 шагами для уменьшения объёма видеопамяти и задержки).
  3. Безопасность и интеллектуальная собственность: Как и все универсальные программы для обработки изображений, Qwen-Image-Edit может генерировать символы, защищенные авторским правом, или конфиденциальный контент — для производственного использования требуется модерация и проверка авторских прав. (Типичная корпоративная практика.)
  4. Режимы отказа: Малоизвестные или очень редкие символы/слова могут по-прежнему отображаться неправильно или требовать итеративного («цепочечного») редактирования для приведения их в соответствие (авторы отмечают примеры, такие как редкие китайские иероглифы, требующие пошаговых исправлений).

Чем Qwen-Image-Edit отличается от других вариантов

  • Стабильная диффузия / SDXL (внутрипечатная окраска): SDXL плюс ControlNet и специализированные конвейеры обработки изображения работают быстро, имеют широкую поддержку инструментов сообщества и множество LoRA; они превосходны в общих рабочих процессах обработки изображения и скорости/эффективности. Сильные стороны Qwen-Image-Edit: редактирование текста на родном языке, более строгая согласованность идентичности/продукта в некоторых случаях и интегрированные компромиссы между семантикой и внешним видом. Сравнение с сообществом показывает, что Qwen часто занимает более высокие позиции по точности редактирования и соблюдению текста, но при этом требует более высоких вычислительных затрат.
  • Редакторы с закрытым исходным кодом (Adobe Firefly / DALL·E / Runway): Закрытые API могут быть очень продуманными (пользовательский интерфейс, встроенная модерация, гарантия задержки), но Qwen-Image-Edit выделяется как полностью открытая альтернатива, специально ориентированная на надёжное двуязычное редактирование текста и предлагающая локальное развёртывание. Практический выбор часто зависит от того, нужен ли вам локальный контроль/открытое лицензирование или же продуманный облачный UX.

Практические варианты использования

  • Редактирование плакатов и вывесок — изменить текст на плакатах, сохранив шрифт/текстуру.
  • Маркетинг продукта/создание плакатов — добавлять/удалять элементы, сохранять идентичность продукта для изображений электронной коммерции.
  • Редактирование портрета с сохранением идентичности — изменение поз, перенос стиля с сохранением единообразия идентичности (улучшено в 2509).
  • Реставрация и исправление каллиграфии — реставрация старых фотографий и поэтапное исправление рукописных/печатных символов.
  • Творческие/дизайнерские рабочие процессы — редактирование композиций из нескольких изображений, генерация мемов, стилизация аватарок, где может присутствовать двуязычный текст.

Как вызвать API qwen-image-edit из CometAPI

qwen-image-edit Цены на API в CometAPI, скидка 20% от официальной цены:

Входные токены$2.00
Выходные токены$6.40

Необходимые шаги

  • Войти в cometapi.com. Если вы еще не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь.
  • Войдите в свой Консоль CometAPI.
  • Получите ключ API-интерфейса для доступа к учетным данным. Нажмите «Добавить токен» в API-токене в персональном центре, получите ключ токена: sk-xxxxx и отправьте.

API редактирования изображений Qwen

Используйте метод

  1. Выберите конечную точку «qwen-image-edit» для отправки API-запроса и задайте тело запроса. Метод запроса и тело запроса взяты из документации API на нашем сайте. Для вашего удобства на нашем сайте также доступен тест Apifox.
  2. Заменять с вашим реальным ключом CometAPI из вашей учетной записи.
  3. Введите свой вопрос или запрос в поле «Контент» — на него ответит модель.
  4. . Обработайте ответ API, чтобы получить сгенерированный ответ.

CometAPI предоставляет полностью совместимый REST API для беспроблемной миграции. Ключевые детали редактировать изображение:

  • Базовый URL: https://api.cometapi.com/v1/images/edits
  • Название модели: qwen-image-edit
  • Аутентификация: Bearer YOUR_CometAPI_API_KEY заголовок
  • Тип содержимого: application/json .

Смотрите также API Qwen-изображений

Читать далее

500+ моделей в одном API

Скидка до 20%