4 Ağustos 2025'te Alibaba'nın Qwen ekibi resmen faaliyete geçti Qwen-GörüntüMetinden görüntüye sentezleme ve hassas görüntü düzenlemede benzersiz bir doğruluk sağlamak üzere tasarlanmış 20 milyar parametreli çok modlu difüzyon transformatörü (MMDiT) temel modeli. Bu sürüm, Alibaba'nın açık kaynaklı görüntü oluşturma alanına cesur bir giriş yapmasının işareti olup, Qwen-Image'ı OpenAI'nin GPT-4o, DALL·E 2 ve Midjourney gibi tescilli sistemlere doğrudan rakip olarak konumlandırıyor.
Teknik Yenilikler
Qwen-Image'ın 20 B MMDiT Omurga, modelin karmaşık metinsel içerikleri doğrudan oluşturulan görseller içinde işlemede mükemmel olmasını sağlayan önemli bir mühendislik başarısıdır. Müfredat öğrenme yaklaşımı, basit metin dışı işleme görevleriyle başlar ve giderek paragraf uzunluğundaki açıklamaları ele almaya doğru ilerler ve hem alfabetik hem de logografik dillerde olağanüstü bir doğruluk sağlar. Dahası, model şunları içerir: çift kodlama mekanizma—Qwen2.5-VL ve bir VAE kodlayıcısı aracılığıyla anlamsal ve yeniden yapılandırma gösterimlerini ayrı ayrı işleyerek—görüntü düzenlemeleri sırasında anlamsal tutarlılığı ve görsel gerçekçiliği koruma arasında bir denge kurar.
Metin Oluşturma ve Düzenlemede Atılımlar
Qwen-Image'ın temel farklılaştırıcısı şudur: gömülü metin için yerel destekBu sayede, çok satırlı düzenler ve paragraf bağlamları boyunca görsellere okunaklı İngilizce ve Çince metinler yerleştirebilir. Dahili kıyaslamalar, Qwen-Image'ın hızlı uyumluluk ve metin netliği açısından birçok açık kaynaklı rakibini geride bıraktığını ve çok dilli tasarım öğeleri gerektiren uygulamalar için ideal olduğunu göstermektedir. Görüntü düzenleme yetenekleri ayrıca, metinden görüntüye, metinden görüntüye ve görüntüden görüntüye yeniden yapılandırma görevlerini entegre eden çok görevli bir eğitim paradigmasından yararlanarak mevcut görselleri değiştirirken tutarlılığı artırır.
Bağımsız değerlendirmeler, Qwen-Image'ın metin yerleştirme doğruluğu konusunda birçok önde gelen açık kaynaklı ve tescilli modele göre üstünlüğünü ortaya koymaktadır. Karşılaştırmalı testlerde, orta sınıf açık kaynaklı alternatifleri geride bırakmakta ve özellikle İngilizce ve Çince'yi birleştiren iki dilli komutlarda hızlı uyumluluk konusunda Midjourney gibi ticari ürünlerle rekabet etmektedir. Bazı tescilli sistemler ultra karmaşık sahneler oluşturmada hâlâ lider olsa da, erken kullanıcı geri bildirimleri, Qwen-Image'ın çok dilli metin düzenleri ve güçlü düzenleme kontrolleri için eşsiz netliğini vurgulamaktadır.
Alibaba'nın "açık, şeffaf ve sürdürülebilir" yapay zekaya olan bağlılığıyla uyumlu olarak Qwen-Image Açık kaynaklı MoDa platformunda topluluk katkılarını ve özelleştirmeleri teşvik ediyor. Model sürümünün yanı sıra Alibaba, otomatik yayınlama kanallarından etkileşimli eğitim araçlarına kadar çeşitli kullanım durumlarında gerçek dünya testlerini desteklemek için kapsamlı belgeler, örnek kodlar ve bir geri bildirim portalı yayınladı.
Değerlendirme sonuçları
Alibaba'nın şirket içi kıyaslamaları ve üçüncü taraf değerlendirmeleri, Qwen-Image'ın lider performansına dair bir tablo çiziyor:
- GenEval (Genel Görüntü Oluşturma): Fréchet Başlangıç Mesafesi (FID) elde edildi 10.2, karşılaştırılabilir 20 B parametreli modelden ortalama %9 daha iyi performans göstermektedir.
- LongText-Bench (Metin Oluşturma): Attı 92.7% Çok satırlı metin yerleştirme ve glif bütünlüğündeki doğruluk, GPT-4.1'i %14 oranında geride bırakıyor.
- GEdit/ImgEdit (Görüntü Düzenleme): Ortalama bir görüş puanı (MOS) kaydedildi 4.3/5Düzenlemeler sırasında anlamsal tutarlılığın korunmasında yüksek kullanıcı memnuniyetini yansıtan
- OneIG-Bench (İnfografik Oluşturma): Yapılandırılmış verileri ve grafikleri doğrudan komutlardan görsel olarak oluşturma konusunda en iyi üç model arasında yer alır ve güçlü düzen ve renk seçimi yetenekleri gösterir.
- Liderlik SıralamasıYapay Analiz Görüntü Arenası Liderlik Tablosunda Qwen-Image şu anda tüm görüntü oluşturma modelleri arasında 5. sırada yer alıyor ve ilk 10'daki tek açık ağırlık girişi olarak araştırma topluluğundaki rekabet üstünlüğünü kanıtlıyor.
Erişim ve Ekosistem
Qwen-Image'ın çok yönlü özellik seti, çeşitli gerçek dünya uygulamalarının kilidini açar:
- Pazarlama reklamı: Gömülü sloganlar ve çok dilli metin öğeleri içeren özel tanıtım görsellerinin hızlı bir şekilde oluşturulması.
- Eğitim İçeriği: E-öğrenme platformları için açıklayıcı diyagramların, infografiklerin ve açıklamalı görsellerin otomatik olarak oluşturulması.
- Tasarım ve Prototipleme: Etkileşimli yaratıcı iş akışları için düzenlenebilir katmanlara sahip anında maketler ve konsept sanatı.
- Yerelleştirme Hizmetleri: Görsellerin manuel grafik tasarım çabasına gerek kalmadan farklı dil bağlamlarına kusursuz bir şekilde uyarlanması.
Kullanıcılar, Alibaba'nın Chat Qwen arayüzü üzerinden "Görüntü Oluşturma" modunu seçerek Qwen-Image ile etkileşime girebilir veya modeli GitHub deposu ve CometAPI API'leri aracılığıyla kendi ortamlarına entegre edebilirler.
- Etkileşimli Kullanım: Ziyaret etmek sohbet.qwen.ai ve kodlamayan herhangi bir Qwen modelini seçin, ardından oluşturmaya başlamak için “Görüntü Oluşturma”ya geçin.
- Kod ve Ağırlıklar:
- GitHub: github.com/QwenLM/Qwen-Image
- Sarılma Yüz: huggingface.co
- Modelskop: modelscope.cn
Alibaba, bir topluluk geri bildirimini ve katkılarını teşvik ederek açık, şeffaf ve sürdürülebilir üretken yapay zeka ekosistemi.
En son Qwen-Image entegrasyonu yakında CometAPI'de yayınlanacak, bu yüzden bizi izlemeye devam edin! Qwen-Image Model yüklemesini tamamlarken, Modeller sayfasındaki diğer modellerimizi keşfedin veya AI Playground'da deneyin.
CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.
Ayrıca bakınız
