4년 2025월 XNUMX일 알리바바의 Qwen 팀이 공식 출범했습니다. Qwen-Image는 텍스트-이미지 합성 및 정밀 이미지 편집에서 전례 없는 충실도를 제공하도록 설계된 20억 개의 매개변수를 가진 다중 모드 확산 변환기(MMDiT) 기반 모델입니다. 이번 출시는 알리바바가 오픈소스 이미지 생성 분야에 과감하게 진출하는 것을 의미하며, Qwen-Image는 OpenAI의 GPT-4o, DALL·E 2, Midjourney와 같은 독점 시스템에 대한 직접적인 도전자로 자리매김했습니다.
기술 혁신
Qwen-Image의 20 B MMDiT 백본은 엔지니어링 측면에서 중요한 업적으로, 이 모델은 생성된 이미지 내에서 복잡한 텍스트 콘텐츠를 직접 렌더링하는 데 탁월한 성능을 발휘합니다. 커리큘럼 학습 방식은 간단한 비텍스트 렌더링 작업에서 시작하여 점진적으로 단락 길이의 설명을 처리하는 단계로 발전하여 알파벳 및 표의어 언어 모두에서 탁월한 충실도를 제공합니다. 또한, 이 모델은 듀얼 인코딩 Qwen2.5-VL과 VAE 인코더를 통해 의미적 표현과 재구성적 표현을 별도로 처리하는 메커니즘을 통해 이미지 편집 중에 의미적 일관성과 시각적 사실성을 유지하는 균형을 이룹니다.
텍스트 렌더링 및 편집의 획기적인 발전
Qwen-Image의 주요 차별화 요소는 다음과 같습니다. 내장된 텍스트에 대한 기본 지원이를 통해 여러 줄 레이아웃과 단락 맥락에서 이미지 내에 읽기 쉬운 영어 및 중국어 텍스트를 배치할 수 있습니다. 내부 벤치마크 결과, Qwen-Image는 신속한 이해와 텍스트 명확성 측면에서 많은 오픈 소스 경쟁 제품보다 우수한 성능을 보이며, 다국어 디자인 요소가 필요한 애플리케이션에 이상적입니다. 또한, 이미지 편집 기능은 텍스트-이미지 변환, 텍스트-이미지-이미지 변환, 이미지-이미지 재구성 작업을 통합하는 멀티태스킹 학습 패러다임을 통해 기존 시각 자료를 수정할 때 일관성을 향상시킵니다.
독립적인 평가 결과, Qwen-Image는 텍스트 임베딩 정확도 측면에서 여러 주요 오픈소스 및 독점 모델보다 우수함을 입증했습니다. 비교 테스트 결과, Qwen-Image는 중급형 오픈소스 대안을 능가하며, 특히 영어와 중국어를 결합한 이중 언어 프롬프트에서 신속한 적응성 측면에서 Midjourney와 같은 상용 제품과 경쟁했습니다. 일부 독점 시스템은 여전히 매우 복잡한 장면 생성에 있어 우위를 점할 수 있지만, 초기 사용자 피드백을 통해 Qwen-Image의 다국어 텍스트 레이아웃에 대한 탁월한 명확성과 강력한 편집 제어 기능이 강조되었습니다.
Alibaba의 "개방적이고 투명하며 지속 가능한" AI에 대한 약속에 따라 Qwen-Image는 오픈 소스 MoDa 플랫폼에서 커뮤니티 기여와 맞춤 설정을 요청합니다. 알리바바는 모델 출시와 함께 자동화된 퍼블리싱 파이프라인부터 대화형 교육 도구에 이르기까지 다양한 사용 사례에 대한 실제 테스트를 지원하기 위해 광범위한 문서, 샘플 코드 및 피드백 포털을 게시했습니다.
평가 결과
Alibaba의 내부 벤치마크와 제3자 평가는 Qwen-Image의 선도적 성과를 보여줍니다.
- GenEval(일반 이미지 생성): Fréchet Inception Distance(FID) 달성 10.2평균적으로 20개의 비교 가능한 B-매개변수 모델보다 9% 더 우수한 성능을 보였습니다.
- LongText-Bench(텍스트 렌더링): 득점 92.7 % 다중 줄 텍스트 배치 및 글리프 무결성의 정확도가 GPT-4.1보다 14% 더 높습니다.
- GEdit/ImgEdit(이미지 편집): 평균 의견 점수(MOS)를 등록했습니다. 4.3/5편집 중 의미적 일관성을 유지하는 데 있어 높은 사용자 만족도를 반영합니다.
- OneIG-Bench(인포그래픽 세대): 프롬프트에서 구조화된 데이터와 차트를 시각적으로 직접 렌더링하는 상위 3개 모델에 속하며, 강력한 레이아웃과 색상 선택 기능을 보여줍니다.
- 리더보드 순위: 인공 분석 이미지 아레나 리더보드에서 Qwen-Image는 현재 모든 이미지 생성 모델 중 5위를 차지하고 있으며, 상위 10위 내에 진입한 유일한 공개 가중치 항목입니다. 이는 연구 커뮤니티에서 경쟁력을 입증합니다.
접근성 및 생태계
Qwen-Image의 다양한 기능 세트는 다양한 실제 적용 가능성을 열어줍니다.
- 마케팅 및 광고: 슬로건과 다국어 텍스트 요소가 포함된 맞춤형 홍보 비주얼을 빠르게 제작합니다.
- 교육 콘텐츠: e러닝 플랫폼을 위한 설명적 다이어그램, 인포그래픽, 주석이 달린 이미지를 자동으로 생성합니다.
- 디자인 및 프로토타입 제작: 대화형 크리에이티브 워크플로를 위한 편집 가능한 레이어를 갖춘 즉석 모형과 콘셉트 아트입니다.
- 현지화 서비스: 수동적인 그래픽 디자인 작업 없이도 다양한 언어적 맥락에 맞게 시각적 요소를 원활하게 적용할 수 있습니다.
사용자는 Alibaba의 Chat Qwen 인터페이스에서 "이미지 생성" 모드를 선택하여 Qwen-Image와 상호 작용하거나 GitHub 저장소 및 CometAPI API를 통해 모델을 환경에 통합할 수 있습니다.
- 대화형 사용: 방문 채팅.큐웬.에이아이 코딩이 아닌 Qwen 모델을 선택한 다음 "이미지 생성"으로 전환하여 생성을 시작하세요.
- 코드 및 가중치:
- GitHub의: github.com/QwenLM/Qwen-Image
- 포옹하는 얼굴: huggingface.co
- 모델스코프: 모델스코프.cn
Alibaba는 커뮤니티 피드백과 기여를 장려하여 개방적이고 투명하며 지속 가능한 생성적 AI 생태계.
최신 통합 Qwen-Image가 곧 CometAPI에 등장할 예정이니 기대해 주세요! Qwen-Image 모델 업로드를 마무리하는 동안 모델 페이지에서 다른 모델을 살펴보거나 AI Playground에서 사용해 보세요.
CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.
도 참조
