Pada tanggal 4 Agustus 2025, tim Qwen Alibaba secara resmi diluncurkan Qwen-Gambar, sebuah model fondasi transformator difusi multimodal (MMDiT) dengan 20 miliar parameter yang dirancang untuk menghadirkan fidelitas tak tertandingi dalam sintesis teks-ke-gambar dan penyuntingan gambar presisi. Rilis ini menandai langkah berani Alibaba ke arena pembuatan gambar sumber terbuka, memposisikan Qwen-Image sebagai penantang langsung bagi sistem proprietary seperti GPT-4o dari OpenAI, DALL·E 2, dan Midjourney.
Inovasi Teknis
Gambar Qwen 20 B MMDiT Tulang punggung menandai sebuah prestasi rekayasa yang signifikan, yang memungkinkan model ini unggul dalam merender konten tekstual kompleks langsung di dalam gambar yang dihasilkan. Pendekatan pembelajaran kurikulumnya dimulai dengan tugas-tugas rendering non-teks sederhana dan secara progresif berkembang hingga menangani deskripsi sepanjang paragraf, menghasilkan fidelitas luar biasa dalam bahasa alfabet maupun logografis. Selain itu, model ini menggabungkan pengkodean ganda mekanisme—memproses representasi semantik dan rekonstruktif secara terpisah melalui Qwen2.5-VL dan encoder VAE—yang mencapai keseimbangan antara menjaga konsistensi semantik dan realisme visual selama penyuntingan gambar.
Terobosan dalam Rendering dan Penyuntingan Teks
Salah satu pembeda utama Qwen-Image adalah dukungan asli untuk teks tertanam, memungkinkannya menempatkan teks bahasa Inggris dan Mandarin yang terbaca di dalam gambar di seluruh tata letak multi-baris dan konteks paragraf. Tolok ukur internal menunjukkan bahwa Qwen-Image mengungguli banyak pesaing sumber terbuka dalam hal kecepatan dan kejelasan teks, menjadikannya ideal untuk aplikasi yang membutuhkan elemen desain multibahasa. Kemampuan penyuntingan gambarnya juga diuntungkan oleh paradigma pelatihan multi-tugas yang mengintegrasikan tugas rekonstruksi teks-ke-gambar, teks-gambar-ke-gambar, dan gambar-ke-gambar, yang meningkatkan konsistensi saat memodifikasi visual yang ada.
Evaluasi independen menunjukkan keunggulan Qwen-Image dibandingkan beberapa model sumber terbuka dan berpemilik terkemuka dalam hal akurasi penyisipan teks. Dalam uji perbandingan, Qwen-Image melampaui alternatif sumber terbuka kelas menengah dan menyaingi penawaran komersial seperti Midjourney dalam hal kecepatan respons—terutama pada perintah dwibahasa yang menggabungkan bahasa Inggris dan Mandarin. Meskipun beberapa sistem berpemilik mungkin masih unggul dalam menghasilkan adegan yang sangat kompleks, umpan balik pengguna awal menyoroti kejelasan Qwen-Image yang tak tertandingi untuk tata letak teks multibahasa dan kontrol pengeditannya yang tangguh.
Sesuai dengan komitmen Alibaba terhadap AI yang “terbuka, transparan, dan berkelanjutan”, Qwen-Image adalah bersumber terbuka di platform MoDa, mengundang kontribusi dan kustomisasi komunitas. Bersamaan dengan rilis model ini, Alibaba telah menerbitkan dokumentasi yang ekstensif, contoh kode, dan portal umpan balik untuk mendukung pengujian di dunia nyata di berbagai kasus penggunaan—mulai dari alur penerbitan otomatis hingga perangkat edukasi interaktif.
Hasil Evaluasi
Tolok ukur internal Alibaba dan penilaian pihak ketiga menggambarkan kinerja terdepan Qwen-Image:
- GenEval (Pembuatan Gambar Umum): Mencapai Jarak Awal Fréchet (FID) sebesar 10.2, mengungguli 20 model B-parameter yang sebanding sebesar 9% secara rata-rata.
- LongText-Bench (Rendering Teks): Mencetak gol 92.7% akurasi dalam penempatan teks multi-baris dan integritas mesin terbang, melampaui GPT-4.1 sebesar 14%.
- GEdit/ImgEdit (Pengeditan Gambar): Mencatat skor opini rata-rata (MOS) sebesar 4.3/5, mencerminkan kepuasan pengguna yang tinggi dalam menjaga konsistensi semantik selama pengeditan
- OneIG-Bench (Pembuatan Infografis): Termasuk dalam tiga model teratas untuk penyajian visual data dan grafik terstruktur langsung dari perintah, menunjukkan kemampuan tata letak dan pemilihan warna yang kuat.
- Peringkat Papan Peringkat:Di Papan Peringkat Artificial Analysis Image Arena, Qwen-Image saat ini menduduki posisi ke-5 di antara semua model pembangkit gambar—dan merupakan satu-satunya entri bobot terbuka di 10 besar—yang menunjukkan keunggulan kompetitifnya dalam komunitas penelitian.
Akses & Ekosistem
Rangkaian fitur Qwen-Image yang serbaguna membuka berbagai aplikasi di dunia nyata:
- Pemasaran & Periklanan: Pembuatan visual promosi khusus yang cepat dengan slogan tertanam dan elemen teks multibahasa.
- Konten Pendidikan: Pembuatan diagram ilustrasi, infografis, dan gambar beranotasi secara otomatis untuk platform e-learning.
- Desain & Pembuatan Prototipe: Mockup dan konsep seni yang dapat diedit secara cepat dengan lapisan yang dapat diedit untuk alur kerja kreatif yang interaktif.
- Layanan Lokalisasi: Adaptasi visual yang mulus ke dalam konteks linguistik yang berbeda tanpa upaya desain grafis manual.
Pengguna dapat berinteraksi dengan Qwen-Image melalui antarmuka Chat Qwen Alibaba dengan memilih mode “Pembuatan Gambar”, atau mengintegrasikan model ke dalam lingkungan mereka melalui repositori GitHub dan API CometAPI.
- Penggunaan Interaktif: Kunjungi obrolan.qwen.ai dan pilih model Qwen non-coding apa pun, lalu beralih ke “Pembuatan Gambar” untuk mulai membuat.
- Kode & Bobot:
- GitHub: github.com/QwenLM/Qwen-Image
- Wajah Memeluk: huggingface.co
- Lingkup Model: modelscope.cn
Alibaba mendorong umpan balik dan kontribusi komunitas untuk mendorong terbuka, transparan, dan berkelanjutan ekosistem AI generatif.
Integrasi terbaru Qwen-Image akan segera muncul di CometAPI, jadi nantikanlah! Sementara kami menyelesaikan unggahan Model Qwen-Image, jelajahi model kami yang lain di halaman Model atau cobalah di AI Playground.
CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.
Lihat Juga
