Qwen-Image-Edit은 Qwen 팀(Alibaba/QwenLM 생태계)이 개발한 Qwen 이미지 제품군의 편집 브랜치입니다. 20억 개의 매개변수를 가진 MMDiT 백본을 기반으로 구축되었으며, Qwen-Image의 고급 텍스트 렌더링 기능을 강력한 이미지 편집 워크플로로 확장합니다. 이 모델은 편집 충실도가 중요한 작업(예: 표지판의 텍스트 직접 변경, 글꼴 및 레이아웃 유지, 의미적 일관성을 유지하면서 객체 추가/제거, 시점/포즈 변환, 세밀한 스타일 변환)에 적합합니다.
주요 기능
- 정확한 이미지 내 텍스트 편집(중국어 및 영어 이중 언어 지원) — 글꼴/크기/스타일을 최대한 보존하면서 텍스트를 추가, 제거 또는 교체합니다.
- 이중 편집 모드: 의미론적 + 모양 — 높은 수준의 의미적 변경(휴식, 객체 대체, 관점)과 낮은 수준의 모양 편집(스타일 전송, 텍스처, 로컬 리터칭)을 지원합니다.
- 마스크/지역/멀티턴 편집 — 반복적 개선 워크플로를 위해 마스크된 인페인팅, 영역 프롬프트 및 체인 편집을 지원합니다.
- 다중 이미지 입력(최신 버전): 2509 버전에서는 다중 이미지 편집 지원(예: 사람+사람, 사람+제품), 향상된 ID/제품/텍스트 일관성, 기본 ControlNet 스타일 입력 기능이 추가되었습니다.
기술적 세부 사항
- 기본 규모 / 가족: 에 구축 20B 매개변수 Qwen-Image 기초 모델(MMDiT 스타일 확산/멀티모달 디자인).
- 듀얼 인코딩 편집 파이프라인: 편집 모듈은 (1) Qwen2.5-VL 시각 인코더를 통해 의미적 표현을, (2) VAE 인코더를 통해 재구성적 표현을 수신합니다. 두 표현을 병렬로 입력하면 편집 헤드가 의미적 변화와 픽셀 충실도 사이에서 균형을 맞출 수 있습니다. 이러한 이중 인코딩은 견고한 편집을 위한 핵심적인 엔지니어링 선택입니다.
- 점진적 / 커리큘럼 교육: 훈련은 단순한 텍스트 렌더링 및 생성 작업에서 복잡한 문단 단위 텍스트 렌더링 및 다중 작업 편집 목표(T2I, TI2I, I2I 재구성)로 진행되었습니다. 이러한 커리큘럼은 모델의 텍스트 충실도 및 편집 안정성 향상에 핵심적인 역할을 하는 것으로 알려져 있습니다.
- 모델 플레이버/모듈: Qwen-Image-Edit은 Qwen2.5-VL 구성 요소, 확산 편집 헤드, 모양 제어를 위한 VAE 구성 요소를 통합한 MMDiT 스타일의 20B 모델로 설명됩니다.
벤치마크 성능
주장된 크로스 벤치마크 SOTA: Qwen 팀은 다음을 포함하여 여러 공개 이미지 생성 및 편집 벤치마크에서 최첨단(SOTA) 또는 최고 수준의 결과를 보고합니다. GenEval, DPG, OneIG-Bench (세대) 및 GEdit, ImgEdit, GSO (편집 중).

제한 사항 및 주의 사항(실용적)
- 아티팩트 및 예외 사례: 커뮤니티 테스트 결과, 일부 고해상도 편집에서 가끔씩 과포화, 피부 질감 아티팩트 또는 합성 이음새가 나타나는 현상이 나타났습니다. 커뮤니티 라이트닝 포크는 이러한 문제를 완화하는 것을 목표로 합니다.
- 컴퓨팅/메모리: 20B 모델과 전체 정밀도 편집 파이프라인은 GPU를 많이 사용합니다. 로컬 배포는 bfloat16/FP8 및 최적화된 샘플링 워크플로우의 이점을 활용합니다(VRAM 및 지연 시간을 줄이기 위해 4/8단계 "라이트닝" 변형이 존재합니다).
- 안전 및 IP: 모든 범용 이미지 제작 도구와 마찬가지로 Qwen-Image-Edit은 저작권이 있는 캐릭터나 민감한 콘텐츠를 생성할 수 있습니다. 프로덕션 용도로 사용하려면 관리 및 저작권 승인이 필요합니다. (일반적인 기업 모범 사례)
- 실패 모드: 모호하거나 매우 드문 문자/단어는 여전히 잘못 번역되거나 수렴하기 위해 반복적인("연쇄적") 편집이 필요할 수 있습니다(저자는 드문 중국어 문자의 경우 단계적 수정이 필요하다는 예를 언급했습니다).
Qwen-Image-Edit이 다른 옵션과 비교되는 방식
- 안정 확산 / SDXL(인페인팅): SDXL과 ControlNet, 그리고 전용 인페인팅 파이프라인은 빠르고, 광범위한 커뮤니티 도구 지원과 다수의 LoRA를 갖추고 있으며, 일반적인 인페인팅 워크플로우와 속도/효율성 측면에서 탁월한 성능을 보입니다. Qwen-Image-Edit의 강점은 다음과 같습니다. 네이티브 이중 언어 텍스트 편집경우에 따라 더 엄격한 정체성/제품 일관성, 그리고 통합된 의미론적/외관적 균형이 특징입니다. 커뮤니티 비교 결과, Qwen은 편집 충실도와 텍스트 준수 측면에서 더 높은 순위를 차지하지만 컴퓨팅 비용은 더 높습니다.
- 폐쇄형 소스 편집기(Adobe Firefly/DALL·E/Runway): 폐쇄형 API는 UI, 통합 관리 기능, 지연 시간 보장 등 매우 정교할 수 있지만, Qwen-Image-Edit은 강력한 이중 언어 텍스트 편집 기능을 특별히 목표로 하고 로컬 배포를 제공하는 완전 개방형 대안으로 돋보입니다. 실질적인 선택은 로컬 제어/오픈 라이선싱이 필요한지, 아니면 정교한 클라우드 UX가 필요한지에 따라 달라집니다.
실제 사용 사례
- 포스터 및 간판 편집 — 글꼴/텍스처를 유지하면서 포스터의 텍스트를 변경합니다.
- 제품 마케팅/포스터 제작 — 품목을 추가/제거하고, 전자상거래 이미지에 대한 제품 정체성을 유지합니다.
- 인물 사진의 정체성을 보존하는 편집 — 정체성의 일관성을 유지하면서 포즈를 변경하고 스타일을 전환했습니다(2509에서 개선됨).
- 복원 및 서예 교정 — 오래된 사진 복원 및 손으로 쓴/인쇄된 문자의 단계적 수정.
- 크리에이티브/디자인 워크플로 — 다중 이미지 구성 편집, 밈 생성, 이중 언어 텍스트가 포함될 수 있는 아바타 스타일링.
CometAPI에서 qwen-image-edit API를 호출하는 방법
qwen-image-edit CometAPI의 API 가격 책정, 공식 가격 대비 20% 할인:
| 입력 토큰 | $2.00 |
| 출력 토큰 | $6.40 |
필수 단계
- 에 로그인 코메타피닷컴. 아직 당사 사용자가 아니시라면, 먼저 등록해 주시기 바랍니다.
- 에 로그인하여 CometAPI 콘솔.
- 인터페이스의 액세스 자격 증명 API 키를 받으세요. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키(sk-xxxxx)를 받아 제출하세요.

사용 방법
- API 요청을 전송하려면 "qwen-image-edit" 엔드포인트를 선택하고 요청 본문을 설정하세요. 요청 메서드와 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 사용자의 편의를 위해 Apifox 테스트도 제공합니다.
- 바꾸다 귀하 계정의 실제 CometAPI 키를 사용합니다.
- 질문이나 요청을 콘텐츠 필드에 입력하세요. 모델이 이에 응답합니다.
- . API 응답을 처리하여 생성된 답변을 얻습니다.
CometAPI는 완벽한 호환성을 갖춘 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 세부 정보는 다음과 같습니다. 이미지 편집:
- 기본 URL: https://api.cometapi.com/v1/images/edits
- 모델명 : qwen-이미지-편집
- 입증:
Bearer YOUR_CometAPI_API_KEY머리글 - 컨텐츠 타입:
application/json.
참조 Qwen-이미지 API
