Ciri utama
- Pemaparan teks asli/berkualiti tinggi di dalam imej — cemerlang menghasilkan teks yang mudah dibaca dan tepat dari segi semantik dalam imej terjana (poster, pembungkusan, tangkapan skrin) — satu bidang yang banyak model imej terdahulu kurang mahir.
- Output multimodal kesetiaan tinggi — menghasilkan imej fotorealistik dan berstail dengan perincian yang baik serta susun atur yang peka bahasa.
- Pemindahan gaya & penambahbaikan perincian — boleh menerapkan gaya artistik yang konsisten atau mempertingkat perincian setempat sambil mengekalkan kekohesifan adegan.
Perincian teknikal — cara Qwen-Image berfungsi
Senibina dan komponen (kata kunci: MMDiT, Qwen2.5-VL). Model ini menggunakan transformer difusi berasaskan MMDiT untuk sintesis imej digabungkan dengan pengekod visual-bahasa (Qwen2.5-VL) bagi mentafsir prompt dan konteks visual. Pemisahan ini membolehkan model mengendalikan panduan semantik dan rupa piksel secara berbeza, sekali gus meningkatkan kesetiaan teks dan konsistensi penyuntingan. Repositori rasmi dan laporan teknikal menyatakan rangka asas 20B parameter untuk model T2I utama.
Saluran latihan (kata kunci: pembelajaran kurikulum, saluran data). Untuk menyelesaikan pemaparan teks yang sukar, Qwen-Image menggunakan kurikulum progresif: ia bermula dengan imej tanpa teks yang lebih ringkas dan secara beransur-ansur dilatih pada contoh yang lebih kompleks dan kaya teks sehingga input pada peringkat perenggan. Pasukan membina saluran menyeluruh yang merangkumi pengumpulan berskala besar, penapisan teliti, penguatan sintetik dan pengimbangan bagi memastikan model melihat banyak gubahan teks/foto yang realistik semasa latihan. Kurikulum strategik ini merupakan sebab utama model cemerlang dalam pemaparan teks berbilang bahasa.
Mekanisme penyuntingan (kata kunci: pengekodan dwi, VAE + pengekod VL). Untuk penyuntingan, sistem memasukkan imej asal dua kali: sekali ke dalam pengekod Qwen2.5-VL untuk kawalan semantik dan sekali ke dalam pengekod VAE untuk maklumat rupa rekonstruktif. Reka bentuk pengekodan dwi membolehkan modul suntingan mengekalkan identiti dan kesetiaan visual sambil membenarkan pengubahsuaian semantik — contohnya, menggantikan objek atau menukar kandungan teks tanpa menjejaskan kawasan yang tidak berkaitan.
Prestasi penanda aras
Qwen-Image mencapai prestasi SOTA atau hampir SOTA merentasi pelbagai penanda aras awam bagi penjanaan dan penyuntingan, dengan keputusan yang amat kukuh dalam tugasan pemaparan teks dan penanda aras gubahan dunia nyata (cth., T2I-CoreBench dan set penyuntingan imej terkurasi).

Perbandingan Qwen-Image dengan model terkemuka lain
Kekuatan relatif: pemaparan teks dan kesetiaan teks dwibahasa ialah kelebihan tersendiri model ini berbanding banyak pesaing generatif (cth., DALL·E 3, SDXL, Midjourney), yang sering lebih kuat dalam gubahan seni semata-mata atau kepelbagaian gaya tetapi lebih lemah pada susun atur teks berbilang baris yang padat atau teks Cina. Pelbagai perbandingan komuniti dan jadual penanda aras oleh pengarang model menyokong pernyataan ini.
Pertukaran relatif: berbanding sistem komersial tertutup yang ditala secara intensif, Qwen-Image mungkin memerlukan pascapemprosesan atau talaan prompt/adapter untuk mencapai realisme yang setara dalam sesetengah konteks (herotan permukaan melengkung, penggubahan fotorealistik), menurut ujian bebas. Bagi pengguna yang mengutamakan rekaan bertemplat, mockup pembungkusan, atau susun atur teks dwibahasa, Qwen-Image lazimnya lebih sesuai.
Kes penggunaan tipikal dan bernilai tinggi
- Pembungkusan & mockup produk: teks yang tepat dan susun atur berbilang baris untuk label dan percubaan pembungkusan.
- Pengiklanan & draf reka bentuk: pemprotaipan pantas di mana kesetiaan teks penting (poster, sepanduk).
- Penjanaan imej yang didokumenkan: menjana imej yang mesti mengandungi kandungan yang boleh dibaca (menu, papan tanda, antara muka).
- Saluran penyuntingan imej: suntingan terarah (penggantian teks, tambah/buang objek) sambil mengekalkan gaya dan perspektif.
- Cara mengakses Qwen Image API
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke CometAPI console. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.
Langkah 2: Hantar Permintaan ke Qwen Image API
Pilih titik akhir “qwen-image ” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Images format(https://api.cometapi.com/v1/images/generations) melalui CometAPI.
Masukkan soalan atau permintaan anda ke dalam medan content—ini ialah perkara yang model akan balas .
Langkah 3: Dapatkan dan Sahkan Keputusan
Proses respons API untuk mendapatkan jawapan terjana. Selepas diproses, API membalas dengan status tugasan dan data output.