Alibaba Cloud, Qwen‑VLo multimodal modelini yayınladı, Görüntü yeteneği yükseltmesi

Alibaba Cloud'un AI bölümü resmen başlatıldı Qwen-VLoQwen çok modlu model serisinin en son yinelemesi, birleşik görüş ve dil yeteneklerinde önemli bir ilerlemeyi işaret ediyor. 28 Haziran 2025'te duyurulan Qwen‑VLo, doğal dil istemleri ve görsel girdilerle yönlendirilen yüksek çözünürlüklü görüntü oluşturma ve düzenlemeyi içerecek şekilde seleflerinin çok ötesine uzanan hem anlama hem de üretim işlevleri sunuyor.

Qwen‑VL ve Qwen2.5‑VL gibi önceki sürümleri temel alan Qwen‑VLo, Alibaba'nın çok modlu yapay zekada "kapsamlı bir yükseltme" olarak tanımladığı şeyi temsil ediyor. Qwen‑VL öncelikli olarak görsel bilgileri yorumlamaya odaklanırken ve Qwen2.5‑VL uzun bağlam anlayışını geliştirirken, Qwen‑VLo bu güçlü yönleri çift yönlü görsel dil görevlerini yerine getirebilen tek bir çerçeveye entegre ediyor. Açık uçlu talimatlara uyum sağlıyor, Çince ve İngilizce dahil olmak üzere birden fazla dili destekliyor ve çıktılarını insan sanatçıların çıktılarıyla rekabet edecek şekilde iyileştiriyor.

Ana Özellikler

Progresif Görüntü Üretimi

Qwen‑VLo, tutarlılık ve görsel uyumu sağlamak için öngörülen içeriği yinelemeli olarak iyileştirerek soldan sağa ve yukarıdan aşağıya doğru kademeli bir şekilde görüntüleri oluşturur. Bu mekanizma hem üretim verimliliğini hem de yaratıcı süreç üzerindeki kullanıcı kontrolünü artırır.

Dinamik Çözünürlük Desteği

Dinamik çözünürlük eğitimini kullanarak, model keyfi giriş/çıkış çözünürlüklerini ve en boy oranlarını işleyebilir. Kullanıcılar, sabit formatlarla kısıtlanmadan web afişleri, sosyal medya kapakları veya yüksek çözünürlüklü posterler gibi çeşitli senaryolar için uyarlanmış içerik üretebilir.

Açık Uçlu Talimat Düzenleme

Qwen VLo, doğal dil istemleri aracılığıyla stil transferleri ("Van Gogh stili uygula"), bileşik dönüşümler ("Güneşli bir gökyüzü ekle") ve tek bir talimatta çok yönlü değişiklikler gibi gelişmiş düzenlemeler gerçekleştirebilir. Ayrıca derinlik haritaları, segmentasyon maskeleri ve kenar ana hatları gibi geleneksel görsel sinyalleri çıkarmayı ve düzenlemeyi de destekler.

Çok Dilli Etkileşim

Model, birden fazla dilde komutları kabul ediyor (şu anda Çince ve İngilizce destekleniyor), böylece küresel bir kullanıcı tabanına hitap ediyor ve yaratıcı iş akışlarındaki dil engellerini ortadan kaldırıyor.

Kullanılabilirlik ve Erişim

Qwen‑VLo şu anda şu şekilde mevcuttur: önizleme Qwen Sohbet platformu üzerinden sohbet.qwen.ai. Alibaba Cloud, bir önizleme sürümü olarak kullanıcıların üretim sırasında zaman zaman tutarsızlıklar veya gerçek yanlışlıklarla karşılaşabileceğini belirtti. Geliştirme ekibi, daha geniş bir dağıtımdan önce bu sınırlamaları gidermek için aktif olarak yineleme yapıyor.

Alibaba'nın AI mühendisleri, perde arkasında Qwen‑VLo'yu hem bulut hem de uç ortamlarda dağıtım için optimize etti. Karma hassasiyetli niceleme ve yeni parametre açısından verimli ince ayar tekniklerinden yararlanan model, kompakt bir hesaplama ayak izinde yüksek performansı koruyor. Alibaba ayrıca gecikme ve kaliteyi dengelemek için uyarlanabilir çıkarım hatlarını entegre ederek Qwen‑VLo'nun etkileşimli tasarım araçları gibi gecikmeye duyarlı uygulamalara hizmet edebilmesini ve Alibaba Cloud'da kurumsal düzeydeki iş yüklerine ölçeklenebilmesini sağladı.

Karşılaştırmak Qwen-VL-Artı/Maksimum

Fonksiyon Boyutu	Qwen-VL-Artı/Maksimum	Qwen VLo
Görüntü Anlama	Temel sınıflandırma, açıklama	Çok boyutlu yapı tanıma, gelişmiş bağlamsal anlayış
Görüntü Üretimi	Sınırlı stil desteği	Yüksek hassasiyet, ilerici üretim, güçlü stil kontrol yetenekleri
Çoklu Görev Yeteneği	Göreve özgü girdi gerektirir	Birleşik çoklu görev, karmaşık dil talimatlarını destekler
Çok Dilli Etkileşim	Sınırlı destek	Çince ve İngilizce için yerel destek, daha akıcı doğal dil kontrolü
Detay Koruma Yeteneği	Üretimde olası detay kaybı	Anahtar yapıların ve semantiğin doğru bir şekilde tanımlanması ve yeniden yapılandırılması

Başlamak

CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.

Başlamak için, modellerin yeteneklerini keşfedin Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun.

En son entegrasyon Qwen‑VLo API yakında CometAPI'de görünecek, bu yüzden bizi izlemeye devam edin! Qwen‑VLo Model yüklemesini sonlandırırken, diğer modellerimizi keşfedin Modeller sayfası veya bunları deneyin yapay zeka oyun alanı. Qwen'in CometAPI'deki son Modeli Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.