Alibaba Cloud, Qwen‑VLo 멀티모달 모델 출시, 이미지 기능 업그레이드

CometAPI
AnnaJun 29, 2025
Alibaba Cloud, Qwen‑VLo 멀티모달 모델 출시, 이미지 기능 업그레이드

알리바바 클라우드 AI 사업부가 공식 출범했습니다. 퀀‑VLoQwen 멀티모달 모델 시리즈의 최신 버전인 Qwen‑VLo는 통합 비전 및 언어 기능의 획기적인 발전을 보여줍니다. 28년 2025월 XNUMX일에 발표된 Qwen‑VLo는 이해 및 생성 기능을 모두 제공하며, 이전 버전보다 훨씬 확장되어 자연어 프롬프트와 시각적 입력을 기반으로 고해상도 이미지 생성 및 편집 기능을 제공합니다.

Qwen‑VL 및 Qwen2.5‑VL과 같은 이전 릴리스를 기반으로 하는 Qwen‑VLo는 알리바바가 멀티모달 AI의 "포괄적인 업그레이드"라고 부르는 것을 보여줍니다. Qwen‑VL은 주로 시각 정보 해석에 중점을 두었고 Qwen2.5‑VL은 장문 이해 능력을 향상시켰습니다. Qwen‑VLo는 이러한 강점을 양방향 시각 언어 작업을 지원하는 단일 프레임워크에 통합했습니다. Qwen‑VLo는 개방형 명령어를 수용하고, 중국어와 영어를 포함한 여러 언어를 지원하며, 인간 예술가의 수준에 필적할 만큼 결과물을 정교하게 다듬었습니다.

주요 특징

프로그레시브 이미지 생성

Qwen‑VLo는 왼쪽에서 오른쪽으로, 위에서 아래로 단계적으로 이미지를 구성하며, 예측된 콘텐츠를 반복적으로 다듬어 일관성과 시각적 조화를 보장합니다. 이 메커니즘은 생성 효율성과 사용자의 창작 과정 제어력을 모두 향상시킵니다.

동적 해상도 지원

동적 해상도 학습을 활용하여 이 모델은 임의의 입출력 해상도와 종횡비를 처리할 수 있습니다. 사용자는 고정된 형식에 구애받지 않고 웹 배너, 소셜 미디어 커버, 고해상도 포스터 등 다양한 상황에 맞는 콘텐츠를 제작할 수 있습니다.

개방형 지침 편집

Qwen VLo는 자연어 프롬프트를 통해 스타일 변환("반 고흐 스타일 적용"), 합성 변환("맑은 하늘 추가"), 그리고 다면적 수정과 같은 고급 편집을 단일 명령으로 수행할 수 있습니다. 또한 깊이 맵, 분할 마스크, 가장자리 윤곽선과 같은 기존 시각 신호의 추출 및 편집도 지원합니다.

다국어 상호 작용

이 모델은 여러 언어(현재 중국어와 영어 지원)로 명령을 처리할 수 있어 글로벌 사용자 기반을 충족하고 창의적인 워크플로우에서 언어 장벽을 허물 수 있습니다.

가용성 및 액세스

Qwen‑VLo는 현재 다음에서 사용 가능합니다. 시사 Qwen Chat 플랫폼을 통해 채팅.큐웬.에이아이알리바바 클라우드는 프리뷰 버전 출시로 인해 생성 과정에서 간혹 불일치나 사실과 다른 내용이 발생할 수 있음을 인지하고 있습니다. 개발팀은 이러한 한계점을 해결하기 위해 적극적으로 개선 작업을 진행하고 있으며, 본격적인 출시에 앞서 개선 사항을 반영하고 있습니다.

Alibaba의 AI 엔지니어들은 클라우드 및 엣지 환경 모두에 배포할 수 있도록 Qwen‑VLo를 최적화했습니다. 혼합 정밀도 양자화와 새로운 매개변수 효율적 미세 조정 기술을 활용하여 이 모델은 컴팩트한 컴퓨팅 공간에서도 고성능을 유지합니다. 또한 Alibaba는 지연 시간과 품질의 균형을 맞추기 위해 적응형 추론 파이프라인을 통합하여 Qwen‑VLo가 Alibaba Cloud에서 엔터프라이즈급 워크로드로 확장되는 동시에 인터랙티브 디자인 도구와 같이 지연 시간에 민감한 애플리케이션을 지원할 수 있도록 보장합니다.

비교 퀀-VL-플러스/맥스

기능 차원퀀-VL-플러스/맥스퀸 브이로
이미지 이해기본 분류, 설명다차원 구조 인식, 향상된 맥락적 이해
이미지 생성제한된 스타일 지원고정밀, 진보적 세대, 강력한 스타일 제어 기능
멀티태스킹 능력작업별 입력이 필요합니다통합된 멀티태스킹, 복잡한 언어 지침 지원
다국어 상호 작용제한된 지원중국어 및 영어 기본 지원, 더욱 원활한 자연어 제어
세부 사항 보존 능력생성 중 세부 정보 손실 가능성핵심 구조와 의미론의 정확한 식별 및 재구성

시작 가이드

CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.

시작하려면 모델의 기능을 탐색하세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.

최신 통합 Qwen‑VLo API가 곧 CometAPI에 등장할 예정이므로 계속 지켜봐 주세요! Qwen‑VLo 모델 업로드를 마무리하는 동안 다른 모델을 탐색해 보세요. 모델 페이지 또는 다음을 시도해 보세요. AI 놀이터. Qwen의 CometAPI 최신 모델은 다음과 같습니다. 퀀 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

Alibaba Cloud, Qwen‑VLo 멀티모달 모델 출시, 이미지 기능 업그레이드

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인