Alibaba Cloud'un AI bölümü resmen başlatıldı Qwen-VLoQwen çok modlu model serisinin en son yinelemesi, birleşik görüş ve dil yeteneklerinde önemli bir ilerlemeyi işaret ediyor. 28 Haziran 2025'te duyurulan Qwen‑VLo, doğal dil istemleri ve görsel girdilerle yönlendirilen yüksek çözünürlüklü görüntü oluşturma ve düzenlemeyi içerecek şekilde seleflerinin çok ötesine uzanan hem anlama hem de üretim işlevleri sunuyor.
Qwen‑VL ve Qwen2.5‑VL gibi önceki sürümleri temel alan Qwen‑VLo, Alibaba'nın çok modlu yapay zekada "kapsamlı bir yükseltme" olarak tanımladığı şeyi temsil ediyor. Qwen‑VL öncelikli olarak görsel bilgileri yorumlamaya odaklanırken ve Qwen2.5‑VL uzun bağlam anlayışını geliştirirken, Qwen‑VLo bu güçlü yönleri çift yönlü görsel dil görevlerini yerine getirebilen tek bir çerçeveye entegre ediyor. Açık uçlu talimatlara uyum sağlıyor, Çince ve İngilizce dahil olmak üzere birden fazla dili destekliyor ve çıktılarını insan sanatçıların çıktılarıyla rekabet edecek şekilde iyileştiriyor.
Ana Özellikler
Progresif Görüntü Üretimi
Qwen‑VLo, tutarlılık ve görsel uyumu sağlamak için öngörülen içeriği yinelemeli olarak iyileştirerek soldan sağa ve yukarıdan aşağıya doğru kademeli bir şekilde görüntüleri oluşturur. Bu mekanizma hem üretim verimliliğini hem de yaratıcı süreç üzerindeki kullanıcı kontrolünü artırır.
Dinamik Çözünürlük Desteği
Dinamik çözünürlük eğitimini kullanarak, model keyfi giriş/çıkış çözünürlüklerini ve en boy oranlarını işleyebilir. Kullanıcılar, sabit formatlarla kısıtlanmadan web afişleri, sosyal medya kapakları veya yüksek çözünürlüklü posterler gibi çeşitli senaryolar için uyarlanmış içerik üretebilir.
Açık Uçlu Talimat Düzenleme
Qwen VLo, doğal dil istemleri aracılığıyla stil transferleri ("Van Gogh stili uygula"), bileşik dönüşümler ("Güneşli bir gökyüzü ekle") ve tek bir talimatta çok yönlü değişiklikler gibi gelişmiş düzenlemeler gerçekleştirebilir. Ayrıca derinlik haritaları, segmentasyon maskeleri ve kenar ana hatları gibi geleneksel görsel sinyalleri çıkarmayı ve düzenlemeyi de destekler.
Çok Dilli Etkileşim
Model, birden fazla dilde komutları kabul ediyor (şu anda Çince ve İngilizce destekleniyor), böylece küresel bir kullanıcı tabanına hitap ediyor ve yaratıcı iş akışlarındaki dil engellerini ortadan kaldırıyor.
Kullanılabilirlik ve Erişim
Qwen‑VLo şu anda şu şekilde mevcuttur: önizleme Qwen Sohbet platformu üzerinden sohbet.qwen.ai. Alibaba Cloud, bir önizleme sürümü olarak kullanıcıların üretim sırasında zaman zaman tutarsızlıklar veya gerçek yanlışlıklarla karşılaşabileceğini belirtti. Geliştirme ekibi, daha geniş bir dağıtımdan önce bu sınırlamaları gidermek için aktif olarak yineleme yapıyor.
Alibaba'nın AI mühendisleri, perde arkasında Qwen‑VLo'yu hem bulut hem de uç ortamlarda dağıtım için optimize etti. Karma hassasiyetli niceleme ve yeni parametre açısından verimli ince ayar tekniklerinden yararlanan model, kompakt bir hesaplama ayak izinde yüksek performansı koruyor. Alibaba ayrıca gecikme ve kaliteyi dengelemek için uyarlanabilir çıkarım hatlarını entegre ederek Qwen‑VLo'nun etkileşimli tasarım araçları gibi gecikmeye duyarlı uygulamalara hizmet edebilmesini ve Alibaba Cloud'da kurumsal düzeydeki iş yüklerine ölçeklenebilmesini sağladı.
Karşılaştırmak Qwen-VL-Artı/Maksimum
| Fonksiyon Boyutu | Qwen-VL-Artı/Maksimum | Qwen VLo |
|---|---|---|
| Görüntü Anlama | Temel sınıflandırma, açıklama | Çok boyutlu yapı tanıma, gelişmiş bağlamsal anlayış |
| Görüntü Üretimi | Sınırlı stil desteği | Yüksek hassasiyet, ilerici üretim, güçlü stil kontrol yetenekleri |
| Çoklu Görev Yeteneği | Göreve özgü girdi gerektirir | Birleşik çoklu görev, karmaşık dil talimatlarını destekler |
| Çok Dilli Etkileşim | Sınırlı destek | Çince ve İngilizce için yerel destek, daha akıcı doğal dil kontrolü |
| Detay Koruma Yeteneği | Üretimde olası detay kaybı | Anahtar yapıların ve semantiğin doğru bir şekilde tanımlanması ve yeniden yapılandırılması |
Başlamak
CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.
Başlamak için, modellerin yeteneklerini keşfedin Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun.
En son entegrasyon Qwen‑VLo API yakında CometAPI'de görünecek, bu yüzden bizi izlemeye devam edin! Qwen‑VLo Model yüklemesini sonlandırırken, diğer modellerimizi keşfedin Modeller sayfası veya bunları deneyin yapay zeka oyun alanı. Qwen'in CometAPI'deki son Modeli Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

