ModelHargaPerusahaan
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Syarikat
Tentang kamiPerusahaan
Sumber
Model AIBlogLog PerubahanSokongan
Terma PerkhidmatanDasar Privasi
© 2026 CometAPI · All rights reserved
Home/Models/Aliyun/Qwen Image
Q

Qwen Image

Setiap Permintaan:$0.028
Qwen-Image ialah model asas penjanaan imej yang revolusioner yang dikeluarkan oleh pasukan Tongyi Qianwen Alibaba pada tahun 2025. Dengan skala parameter sebanyak 20 bilion, ia berasaskan seni bina MMDiT (Multimodal Diffusion Transformer). Model ini telah mencapai kemajuan yang ketara dalam pemaparan teks kompleks dan penyuntingan imej yang tepat, menunjukkan prestasi yang luar biasa khususnya dalam pemaparan teks bahasa Cina. Diterjemahkan dengan DeepL.com (versi percuma)
Baru
Penggunaan komersial
Gambaran Keseluruhan
Ciri-ciri
Harga
API
Versi

Ciri utama

  • Pemaparan teks asli/berkualiti tinggi di dalam imej — cemerlang menghasilkan teks yang mudah dibaca dan tepat dari segi semantik dalam imej terjana (poster, pembungkusan, tangkapan skrin) — satu bidang yang banyak model imej terdahulu kurang mahir.
  • Output multimodal kesetiaan tinggi — menghasilkan imej fotorealistik dan berstail dengan perincian yang baik serta susun atur yang peka bahasa.
  • Pemindahan gaya & penambahbaikan perincian — boleh menerapkan gaya artistik yang konsisten atau mempertingkat perincian setempat sambil mengekalkan kekohesifan adegan.

Perincian teknikal — cara Qwen-Image berfungsi

Senibina dan komponen (kata kunci: MMDiT, Qwen2.5-VL). Model ini menggunakan transformer difusi berasaskan MMDiT untuk sintesis imej digabungkan dengan pengekod visual-bahasa (Qwen2.5-VL) bagi mentafsir prompt dan konteks visual. Pemisahan ini membolehkan model mengendalikan panduan semantik dan rupa piksel secara berbeza, sekali gus meningkatkan kesetiaan teks dan konsistensi penyuntingan. Repositori rasmi dan laporan teknikal menyatakan rangka asas 20B parameter untuk model T2I utama.

Saluran latihan (kata kunci: pembelajaran kurikulum, saluran data). Untuk menyelesaikan pemaparan teks yang sukar, Qwen-Image menggunakan kurikulum progresif: ia bermula dengan imej tanpa teks yang lebih ringkas dan secara beransur-ansur dilatih pada contoh yang lebih kompleks dan kaya teks sehingga input pada peringkat perenggan. Pasukan membina saluran menyeluruh yang merangkumi pengumpulan berskala besar, penapisan teliti, penguatan sintetik dan pengimbangan bagi memastikan model melihat banyak gubahan teks/foto yang realistik semasa latihan. Kurikulum strategik ini merupakan sebab utama model cemerlang dalam pemaparan teks berbilang bahasa.

Mekanisme penyuntingan (kata kunci: pengekodan dwi, VAE + pengekod VL). Untuk penyuntingan, sistem memasukkan imej asal dua kali: sekali ke dalam pengekod Qwen2.5-VL untuk kawalan semantik dan sekali ke dalam pengekod VAE untuk maklumat rupa rekonstruktif. Reka bentuk pengekodan dwi membolehkan modul suntingan mengekalkan identiti dan kesetiaan visual sambil membenarkan pengubahsuaian semantik — contohnya, menggantikan objek atau menukar kandungan teks tanpa menjejaskan kawasan yang tidak berkaitan.

Prestasi penanda aras

Qwen-Image mencapai prestasi SOTA atau hampir SOTA merentasi pelbagai penanda aras awam bagi penjanaan dan penyuntingan, dengan keputusan yang amat kukuh dalam tugasan pemaparan teks dan penanda aras gubahan dunia nyata (cth., T2I-CoreBench dan set penyuntingan imej terkurasi).

Qwen-image API

Perbandingan Qwen-Image dengan model terkemuka lain

Kekuatan relatif: pemaparan teks dan kesetiaan teks dwibahasa ialah kelebihan tersendiri model ini berbanding banyak pesaing generatif (cth., DALL·E 3, SDXL, Midjourney), yang sering lebih kuat dalam gubahan seni semata-mata atau kepelbagaian gaya tetapi lebih lemah pada susun atur teks berbilang baris yang padat atau teks Cina. Pelbagai perbandingan komuniti dan jadual penanda aras oleh pengarang model menyokong pernyataan ini.

Pertukaran relatif: berbanding sistem komersial tertutup yang ditala secara intensif, Qwen-Image mungkin memerlukan pascapemprosesan atau talaan prompt/adapter untuk mencapai realisme yang setara dalam sesetengah konteks (herotan permukaan melengkung, penggubahan fotorealistik), menurut ujian bebas. Bagi pengguna yang mengutamakan rekaan bertemplat, mockup pembungkusan, atau susun atur teks dwibahasa, Qwen-Image lazimnya lebih sesuai.


Kes penggunaan tipikal dan bernilai tinggi

  • Pembungkusan & mockup produk: teks yang tepat dan susun atur berbilang baris untuk label dan percubaan pembungkusan.
  • Pengiklanan & draf reka bentuk: pemprotaipan pantas di mana kesetiaan teks penting (poster, sepanduk).
  • Penjanaan imej yang didokumenkan: menjana imej yang mesti mengandungi kandungan yang boleh dibaca (menu, papan tanda, antara muka).
  • Saluran penyuntingan imej: suntingan terarah (penggantian teks, tambah/buang objek) sambil mengekalkan gaya dan perspektif.
  • Cara mengakses Qwen Image API

Langkah 1: Daftar untuk Kunci API

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke CometAPI console. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

Langkah 2: Hantar Permintaan ke Qwen Image API

Pilih titik akhir “qwen-image ” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Images format(https://api.cometapi.com/v1/images/generations) melalui CometAPI.

Masukkan soalan atau permintaan anda ke dalam medan content—ini ialah perkara yang model akan balas .

Langkah 3: Dapatkan dan Sahkan Keputusan

Proses respons API untuk mendapatkan jawapan terjana. Selepas diproses, API membalas dengan status tugasan dan data output.

Harga untuk Qwen Image

Terokai harga yang kompetitif untuk Qwen Image, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana Qwen Image boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Setiap Permintaan:$0.028
Setiap Permintaan:$0.035
-20%

Kod contoh dan API untuk Qwen Image

Qwen-Image ialah model asas penjanaan imej dan penyuntingan imej dalam keluarga Qwen yang direka untuk renderan teks fideliti tinggi, penyuntingan yang tepat, dan penjanaan teks-ke-imej umum. Ia direka untuk melaksanakan penjanaan yang peka terhadap teks, renderan teks dwibahasa (terutamanya cemerlang dalam Bahasa Cina dan Bahasa Inggeris), serta penyuntingan dalam konteks yang berbutiran halus. Keluaran ini menekankan falsafah reka bentuk gabungan memahami + menjana (tugasan pemahaman imej dan tugasan penjanaan yang dilatih dalam aliran pemprosesan bersepadu).

Versi Qwen Image

Sebab Qwen Image mempunyai berbilang snapshot mungkin merangkumi faktor berpotensi seperti variasi output selepas kemas kini yang memerlukan snapshot lama untuk konsistensi, menyediakan tempoh peralihan untuk penyesuaian dan migrasi kepada pembangun, serta snapshot berbeza yang sepadan dengan endpoint global atau serantau untuk mengoptimumkan pengalaman pengguna. Untuk perbezaan terperinci antara versi, sila rujuk dokumentasi rasmi.
version
qwen-image-edit
qwen-image