Qwen-Image 이미지 생성 및 이미지 편집입니다 기초 모델 Qwen 제품군에서 설계된 고화질 텍스트 렌더링, 정확한 편집, 그리고 일반적인 텍스트-이미지 생성. 수행하도록 설계되었습니다. 텍스트 인식 세대, 이중 언어 텍스트 렌더링 (특히 중국어와 영어에 강함) 세분화된 컨텍스트 내 편집. 이 릴리스는 결합된 것을 강조합니다. 이해하다 + 생성하다 디자인 철학(통합 파이프라인에서 훈련된 이미지 이해 작업과 생성 작업).
주요 기능
- 이미지 내 네이티브/고품질 텍스트 렌더링 — 생성된 이미지(포스터, 패키징, 스크린샷)에서 읽기 쉽고 의미적으로 정확한 텍스트를 생성하는 데 탁월합니다. 이는 많은 기존 이미지 모델이 어려움을 겪었던 영역입니다.
- 고충실도 멀티모달 출력 — 세부 묘사가 좋고 언어에 맞는 레이아웃을 통해 사실적이고 양식화된 이미지를 생성합니다.
- 스타일 전환 및 디테일 향상 — 장면의 일관성을 유지하면서 일관된 예술적 스타일을 적용하거나 지역적 세부 사항을 향상시킬 수 있습니다.
기술 세부 사항 - Qwen-Image 작동 방식
아키텍처 및 구성 요소(키워드: MMDiT, Qwen2.5-VL). 이 모델은 다음을 사용합니다. MMDiT 기반 이미지 합성을 위한 확산 변압기 시각 언어 인코더 (Qwen2.5-VL) 프롬프트와 시각적 맥락을 해석합니다. 이러한 분리를 통해 모델은 의미적 안내 및 픽셀 모양 다르게, 텍스트 충실도와 편집 일관성을 향상시킵니다. 공식 저장소와 기술 보고서에 따르면 주요 T2I 모델의 백본은 20B 매개변수로 구성됩니다.
교육 파이프라인(키워드: 커리큘럼 학습, 데이터 파이프라인). 하드 텍스트 렌더링을 해결하기 위해 Qwen-Image는 다음을 사용합니다. 진보적 커리큘럼: 간단한 비텍스트 이미지부터 시작하여 점차 복잡하고 텍스트가 풍부한 예시부터 문단 단위 입력까지 학습합니다. 연구팀은 대규모 데이터 수집, 신중한 필터링, 합성 증강 및 밸런싱을 포함하는 포괄적인 파이프라인을 구축하여 모델이 학습 과정에서 다양한 사실적인 텍스트/사진 구성을 인식할 수 있도록 했습니다. 이러한 전략적 커리큘럼은 이 모델이 다국어 텍스트 렌더링에 탁월한 성능을 보이는 핵심 요소입니다.
편집 메커니즘(키워드: 듀얼 인코딩, VAE + VL 인코더). 편집을 위해 시스템 원본 이미지를 두 번 공급합니다: Qwen2.5-VL 인코더에 한 번 의미 제어 그리고 VAE 인코더에 한 번 재건성 외관 정보이중 인코딩 설계를 통해 편집 모듈은 의미적 수정(예: 관련 없는 영역의 품질을 저하시키지 않고 객체를 교체하거나 텍스트 내용을 변경하는 것)을 허용하면서도 정체성과 시각적 충실성을 유지할 수 있습니다.
벤치마크 성능
Qwen-Image는 생성 및 편집 모두에 대한 여러 공개 벤치마크에서 SOTA 또는 SOTA에 가까운 성능을 달성했으며, 특히 텍스트 렌더링 작업과 실제 구성 벤치마크(예: T2I-CoreBench 및 큐레이팅된 이미지 편집 제품군)에서 뛰어난 결과를 보였습니다.

Qwen-Image가 다른 주요 모델과 비교되는 방식
상대적 강점: 텍스트 렌더링 및 이중 언어 텍스트 충실도 이 모델은 여러 생성 경쟁 모델(예: DALL·E 3, SDXL, Midjourney)에 비해 뚜렷한 장점을 가지고 있습니다. 이러한 경쟁 모델들은 순수한 예술적 구성이나 스타일의 다양성에서는 우수하지만, 밀집된 다중 행 또는 중국어 텍스트 레이아웃에서는 취약한 경우가 많습니다. 여러 커뮤니티 비교와 모델 작성자의 벤치마크 표가 이러한 특징을 뒷받침합니다.
상대적 균형: 폐쇄적이고 고도로 조정된 상용 시스템과 비교했을 때 Qwen-Image는 다음과 같은 사항을 요구할 수 있습니다. 사후 처리 또는 독립적인 테스트를 통해 일부 맥락(곡면 워핑, 사실적인 합성)에서 동일한 사실감을 구현하기 위한 프롬프트/어댑터 튜닝을 제공합니다. 템플릿 디자인, 패키징 모형 또는 이중 언어 텍스트 레이아웃, Qwen-Image가 더 선호되는 경향이 있습니다.
일반적이고 가치가 높은 사용 사례
- 포장 및 제품 모형: 라벨 및 포장 시험을 위한 정확한 텍스트와 다중 라인 레이아웃.
- 광고 및 디자인 초안: 텍스트 충실도가 중요한 경우의 신속한 프로토타입 제작(포스터, 배너).
- 문서화된 이미지 생성: 읽을 수 있는 콘텐츠(메뉴, 표지판, 인터페이스)를 포함해야 하는 이미지 생성.
- 이미지 편집 파이프라인: 스타일과 관점을 보존하면서 타겟을 잡은 편집(텍스트 교체, 객체 추가/제거)을 수행합니다.
CometAPI에서 qwen-image API를 호출하는 방법
qwen-image CometAPI의 API 가격 책정, 공식 가격 대비 20% 할인:
필수 단계
- 에 로그인 코메타피닷컴. 아직 당사 사용자가 아니시라면, 먼저 등록해 주시기 바랍니다.
- 에 로그인하여 CometAPI 콘솔.
- 인터페이스의 액세스 자격 증명 API 키를 받으세요. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키(sk-xxxxx)를 받아 제출하세요.

사용 방법
- API 요청을 전송하려면 "qwen-image" 엔드포인트를 선택하고 요청 본문을 설정하세요. 요청 메서드와 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 사용자의 편의를 위해 Apifox 테스트도 제공합니다.
- 바꾸다 귀하 계정의 실제 CometAPI 키를 사용합니다.
- 질문이나 요청을 콘텐츠 필드에 입력하세요. 모델이 이에 응답합니다.
- . API 응답을 처리하여 생성된 답변을 얻습니다.
CometAPI는 완벽한 호환성을 갖춘 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 세부 정보는 다음과 같습니다. 이미지 생성:
- 기본 URL: https://api.cometapi.com/v1/images/generations
- 모델명 : qwen-이미지
- 입증:
Bearer YOUR_CometAPI_API_KEY머리글 - 컨텐츠 타입:
application/json.
"qwen-image" 모델은 매개변수 "n"을 필요로 하지 않으며 하나의 이미지만 출력할 수 있습니다.
