Ciri utama

Pelukisan teks asli / berkualiti tinggi dalam imej — cemerlang dalam menghasilkan teks yang jelas terbaca dan tepat dari segi semantik dalam imej terjana (poster, pembungkusan, tangkapan skrin) — satu bidang yang banyak model imej terdahulu bergelut dengannya.
Output multimodal kesetiaan tinggi — menghasilkan imej fotorealistik dan berstail dengan perincian yang baik serta susun atur yang peka bahasa.
Pemindahan gaya & penambahbaikan perincian — boleh menerapkan gaya artistik yang konsisten atau mempertingkat perincian setempat sambil mengekalkan koherens adegan.

Butiran teknikal — cara Qwen-Image berfungsi

Seni bina dan komponen (kata kunci: MMDiT, Qwen2.5-VL). Model ini menggunakan transformer difusi berasaskan MMDiT untuk sintesis imej, digabungkan dengan pengekod visual-bahasa (Qwen2.5-VL) untuk mentafsir arahan dan konteks visual. Pemisahan ini membolehkan model memperlakukan panduan semantik dan rupa piksel secara berbeza, meningkatkan kesetiaan teks dan konsistensi suntingan. Repositori rasmi dan laporan teknikal menyatakan tulang belakang berparameter 20B untuk model T2I utama.

Saluran latihan (kata kunci: pembelajaran kurikulum, saluran data). Untuk menyelesaikan pelukisan teks yang sukar, Qwen-Image menggunakan kurikulum progresif: ia bermula dengan imej tanpa teks yang lebih ringkas dan secara beransur-ansur dilatih pada contoh yang lebih kompleks dan kaya teks sehingga input bertahap perenggan. Pasukan membina saluran menyeluruh yang merangkumi pengumpulan berskala besar, penapisan teliti, augmentasi sintetik dan pengimbangan bagi memastikan model melihat banyak komposisi teks/foto yang realistik semasa latihan. Kurikulum strategik ini adalah sebab utama model cemerlang dalam pelukisan teks berbilang bahasa.

Mekanisme penyuntingan (kata kunci: pengekodan dwi, pengekod VAE + VL). Untuk penyuntingan, sistem memasukkan imej asal dua kali: sekali ke dalam pengekod Qwen2.5-VL untuk kawalan semantik dan sekali ke dalam pengekod VAE untuk maklumat rupa rekonstruktif. Reka bentuk pengekodan dwi membolehkan modul suntingan mengekalkan identiti dan kesetiaan visual sambil membenarkan pengubahsuaian semantik — contohnya, menggantikan objek atau menukar kandungan teks tanpa menjejaskan kawasan tidak berkaitan.

Prestasi penanda aras

Qwen-Image mencapai prestasi SOTA atau hampir SOTA merentasi pelbagai penanda aras awam bagi penjanaan dan penyuntingan, dengan keputusan yang sangat kukuh dalam tugas pelukisan teks dan penanda aras komposisi dunia sebenar (cth., T2I-CoreBench dan set penyuntingan imej terkurasi).

Qwen-image API

Perbandingan Qwen-Image dengan model terkemuka lain

Kekuatan relatif: pelukisan teks dan kesetiaan teks dwibahasa ialah kelebihan tersendiri model ini berbanding banyak pesaing generatif (cth., DALL·E 3, SDXL, Midjourney), yang kerap lebih kuat dalam komposisi seni tulen atau kepelbagaian gaya tetapi lemah pada susun atur teks padat berbaris banyak atau teks Cina. Pelbagai perbandingan komuniti dan jadual penanda aras oleh pengarang model menyokong pencirian ini.

Pertukaran relatif: berbanding sistem komersial tertutup yang ditala kuat, Qwen-Image mungkin memerlukan pasca-pemprosesan atau talaan prompt/penyesuai untuk mencapai realisme yang sama dalam sesetengah konteks (herotan permukaan melengkung, penggubahan fotorealistik), menurut ujian bebas. Bagi pengguna yang mengutamakan reka bentuk bertemplat, lakaran pembungkusan, atau susun atur teks dwibahasa, Qwen-Image lazimnya lebih sesuai.

Kes penggunaan tipikal dan bernilai tinggi

Lakaran pembungkusan & produk: teks yang tepat dan susun atur berbilang baris untuk label dan ujian pembungkusan.
Iklan & draf reka bentuk: pemprototipan pantas di mana kesetiaan teks penting (poster, sepanduk).
Penjanaan imej berdokumen: menghasilkan imej yang mesti mengandungi kandungan boleh dibaca (menu, tanda, antara muka).
Saluran penyuntingan imej: suntingan berfokus (penggantian teks, tambah/buang objek) sambil mengekalkan gaya dan perspektif.
Cara mengakses Qwen image API

Langkah 1: Daftar untuk Kunci API

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Masuk ke konsol CometAPI. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

Langkah 2: Hantar Permintaan ke Qwen image API

Pilih titik akhir “qwen-image” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Imej format(https://api.cometapi.com/v1/images/generations) melalui CometAPI.

Masukkan soalan atau permintaan anda ke dalam medan content—ini yang akan dijawab oleh model .

Langkah 3: Dapatkan dan Sahkan Keputusan

Proses respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API memberikan status tugas dan data output.

Ciri utama

Pelukisan teks asli / berkualiti tinggi dalam imej — cemerlang dalam menghasilkan teks yang jelas terbaca dan tepat dari segi semantik dalam imej terjana (poster, pembungkusan, tangkapan skrin) — satu bidang yang banyak model imej terdahulu bergelut dengannya.
Output multimodal kesetiaan tinggi — menghasilkan imej fotorealistik dan berstail dengan perincian yang baik serta susun atur yang peka bahasa.
Pemindahan gaya & penambahbaikan perincian — boleh menerapkan gaya artistik yang konsisten atau mempertingkat perincian setempat sambil mengekalkan koherens adegan.

Butiran teknikal — cara Qwen-Image berfungsi

Prestasi penanda aras

Qwen-image API

Perbandingan Qwen-Image dengan model terkemuka lain

Kes penggunaan tipikal dan bernilai tinggi

Lakaran pembungkusan & produk: teks yang tepat dan susun atur berbilang baris untuk label dan ujian pembungkusan.
Iklan & draf reka bentuk: pemprototipan pantas di mana kesetiaan teks penting (poster, sepanduk).
Penjanaan imej berdokumen: menghasilkan imej yang mesti mengandungi kandungan boleh dibaca (menu, tanda, antara muka).
Saluran penyuntingan imej: suntingan berfokus (penggantian teks, tambah/buang objek) sambil mengekalkan gaya dan perspektif.
Cara mengakses Qwen image API

Langkah 1: Daftar untuk Kunci API

Langkah 2: Hantar Permintaan ke Qwen image API

Masukkan soalan atau permintaan anda ke dalam medan content—ini yang akan dijawab oleh model .

Langkah 3: Dapatkan dan Sahkan Keputusan

Proses respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API memberikan status tugas dan data output.

Qwen Image

Ciri utama

Butiran teknikal — cara Qwen-Image berfungsi

Prestasi penanda aras

Perbandingan Qwen-Image dengan model terkemuka lain

Kes penggunaan tipikal dan bernilai tinggi

Langkah 1: Daftar untuk Kunci API

Langkah 2: Hantar Permintaan ke Qwen image API

Langkah 3: Dapatkan dan Sahkan Keputusan

Harga untuk Qwen Image

Kod contoh dan API untuk Qwen Image

Versi Qwen Image

Qwen Image

Ciri utama

Butiran teknikal — cara Qwen-Image berfungsi

Prestasi penanda aras

Perbandingan Qwen-Image dengan model terkemuka lain

Kes penggunaan tipikal dan bernilai tinggi

Langkah 1: Daftar untuk Kunci API

Langkah 2: Hantar Permintaan ke Qwen image API

Langkah 3: Dapatkan dan Sahkan Keputusan

Harga untuk Qwen Image

Kod contoh dan API untuk Qwen Image

Versi Qwen Image

version
qwen-image
qwen-image-edit

version
qwen-image
qwen-image-edit