Qwen-이미지 API

CometAPI
AnnaNov 12, 2025
Qwen-이미지 API

Qwen-Image 이미지 생성 및 이미지 편집입니다 기초 모델 Qwen 제품군에서 설계된 고화질 텍스트 렌더링, 정확한 편집, 그리고 일반적인 텍스트-이미지 생성. 수행하도록 설계되었습니다. 텍스트 인식 세대, 이중 언어 텍스트 렌더링 (특히 중국어와 영어에 강함) 세분화된 컨텍스트 내 편집. 이 릴리스는 결합된 것을 강조합니다. 이해하다 + 생성하다 디자인 철학(통합 파이프라인에서 훈련된 이미지 이해 작업과 생성 작업).

주요 기능

  • 이미지 내 네이티브/고품질 텍스트 렌더링 — 생성된 이미지(포스터, 패키징, 스크린샷)에서 읽기 쉽고 의미적으로 정확한 텍스트를 생성하는 데 탁월합니다. 이는 많은 기존 이미지 모델이 어려움을 겪었던 영역입니다.
  • 고충실도 멀티모달 출력 — 세부 묘사가 좋고 언어에 맞는 레이아웃을 통해 사실적이고 양식화된 이미지를 생성합니다.
  • 스타일 전환 및 디테일 향상 — 장면의 일관성을 유지하면서 일관된 예술적 스타일을 적용하거나 지역적 세부 사항을 향상시킬 수 있습니다.

기술 세부 사항 - Qwen-Image 작동 방식

아키텍처 및 구성 요소(키워드: MMDiT, Qwen2.5-VL). 이 모델은 다음을 사용합니다. MMDiT 기반 이미지 합성을 위한 확산 변압기 시각 언어 인코더 (Qwen2.5-VL) 프롬프트와 시각적 맥락을 해석합니다. 이러한 분리를 통해 모델은 의미적 안내픽셀 모양 다르게, 텍스트 충실도와 편집 일관성을 향상시킵니다. 공식 저장소와 기술 보고서에 따르면 주요 T2I 모델의 백본은 20B 매개변수로 구성됩니다.

교육 파이프라인(키워드: 커리큘럼 학습, 데이터 파이프라인). 하드 텍스트 렌더링을 해결하기 위해 Qwen-Image는 다음을 사용합니다. 진보적 커리큘럼: 간단한 비텍스트 이미지부터 시작하여 점차 복잡하고 텍스트가 풍부한 예시부터 문단 단위 입력까지 학습합니다. 연구팀은 대규모 데이터 수집, 신중한 필터링, 합성 증강 및 밸런싱을 포함하는 포괄적인 파이프라인을 구축하여 모델이 학습 과정에서 다양한 사실적인 텍스트/사진 구성을 인식할 수 있도록 했습니다. 이러한 전략적 커리큘럼은 이 모델이 다국어 텍스트 렌더링에 탁월한 성능을 보이는 핵심 요소입니다.

편집 메커니즘(키워드: 듀얼 인코딩, VAE + VL 인코더). 편집을 위해 시스템 원본 이미지를 두 번 공급합니다: Qwen2.5-VL 인코더에 한 번 의미 제어 그리고 VAE 인코더에 한 번 재건성 외관 정보이중 인코딩 설계를 통해 편집 모듈은 의미적 수정(예: 관련 없는 영역의 품질을 저하시키지 않고 객체를 교체하거나 텍스트 내용을 변경하는 것)을 허용하면서도 정체성과 시각적 충실성을 유지할 수 있습니다.

벤치마크 성능

Qwen-Image는 생성 및 편집 모두에 대한 여러 공개 벤치마크에서 SOTA 또는 SOTA에 가까운 성능을 달성했으며, 특히 텍스트 렌더링 작업과 실제 구성 벤치마크(예: T2I-CoreBench 및 큐레이팅된 이미지 편집 제품군)에서 뛰어난 결과를 보였습니다.

Qwen-이미지 API

Qwen-Image가 다른 주요 모델과 비교되는 방식

상대적 강점: 텍스트 렌더링 및 이중 언어 텍스트 충실도 이 모델은 여러 생성 경쟁 모델(예: DALL·E 3, SDXL, Midjourney)에 비해 뚜렷한 장점을 가지고 있습니다. 이러한 경쟁 모델들은 순수한 예술적 구성이나 스타일의 다양성에서는 우수하지만, 밀집된 다중 행 또는 중국어 텍스트 레이아웃에서는 취약한 경우가 많습니다. 여러 커뮤니티 비교와 모델 작성자의 벤치마크 표가 이러한 특징을 뒷받침합니다.

상대적 균형: 폐쇄적이고 고도로 조정된 상용 시스템과 비교했을 때 Qwen-Image는 다음과 같은 사항을 요구할 수 있습니다. 사후 처리 또는 독립적인 테스트를 통해 일부 맥락(곡면 워핑, 사실적인 합성)에서 동일한 사실감을 구현하기 위한 프롬프트/어댑터 튜닝을 제공합니다. 템플릿 디자인, 패키징 모형 또는 이중 언어 텍스트 레이아웃, Qwen-Image가 더 선호되는 경향이 있습니다.


일반적이고 가치가 높은 사용 사례

  • 포장 및 제품 모형: 라벨 및 포장 시험을 위한 정확한 텍스트와 다중 라인 레이아웃.
  • 광고 및 디자인 초안: 텍스트 충실도가 중요한 경우의 신속한 프로토타입 제작(포스터, 배너).
  • 문서화된 이미지 생성: 읽을 수 있는 콘텐츠(메뉴, 표지판, 인터페이스)를 포함해야 하는 이미지 생성.
  • 이미지 편집 파이프라인: 스타일과 관점을 보존하면서 타겟을 잡은 편집(텍스트 교체, 객체 추가/제거)을 수행합니다.

CometAPI에서 qwen-image API를 호출하는 방법

qwen-image CometAPI의 API 가격 책정, 공식 가격 대비 20% 할인:

필수 단계

  • 에 로그인 코메타피닷컴. 아직 당사 사용자가 아니시라면, 먼저 등록해 주시기 바랍니다.
  • 에 로그인하여 CometAPI 콘솔.
  • 인터페이스의 액세스 자격 증명 API 키를 받으세요. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키(sk-xxxxx)를 받아 제출하세요.

Qwen-이미지 API

사용 방법

  1. API 요청을 전송하려면 "qwen-image" 엔드포인트를 선택하고 요청 본문을 설정하세요. 요청 메서드와 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 사용자의 편의를 위해 Apifox 테스트도 제공합니다.
  2. 바꾸다 귀하 계정의 실제 CometAPI 키를 사용합니다.
  3. 질문이나 요청을 콘텐츠 필드에 입력하세요. 모델이 이에 응답합니다.
  4. . API 응답을 처리하여 생성된 답변을 얻습니다.

CometAPI는 완벽한 호환성을 갖춘 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 세부 정보는 다음과 같습니다. 이미지 생성:

"qwen-image" 모델은 매개변수 "n"을 필요로 하지 않으며 하나의 이미지만 출력할 수 있습니다.

참조 Gemini 2.5 플래시 이미지 API(나노-바나나)

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인