API imej Qwen

CometAPI
AnnaNov 12, 2025
API imej Qwen

Qwen-Imej ialah penjanaan imej dan penyuntingan imej model asas dalam keluarga Qwen yang direka untuk pemaparan teks kesetiaan tinggi, penyuntingan yang tepat, dan penjanaan teks-ke-imej am. Ia direka untuk melaksanakan generasi sedar teks, rendering teks dwibahasa (terutamanya kuat dalam bahasa Cina dan Inggeris), dan penyuntingan dalam konteks yang halus. Keluaran menekankan gabungan faham + jana falsafah reka bentuk (tugas pemahaman imej dan tugas generatif yang dilatih dalam saluran paip bersatu).

Ciri-ciri utama

  • Penyampaian teks asli / berkualiti tinggi dalam imej — cemerlang dalam menghasilkan teks yang boleh dibaca, tepat dari segi semantik dalam imej yang dijana (poster, pembungkusan, tangkapan skrin) — kawasan yang dihadapi oleh banyak model imej terdahulu.
  • Output multimodal ketelitian tinggi — menghasilkan imej fotorealistik dan bergaya dengan perincian yang baik dan susun atur yang memahami bahasa.
  • Pemindahan gaya & peningkatan perincian — boleh menggunakan gaya artistik yang konsisten atau mempertingkatkan butiran tempatan sambil mengekalkan kepaduan pemandangan.

Butiran teknikal — cara Qwen-Image berfungsi

Seni bina dan komponen (kata kunci: MMDiT, Qwen2.5-VL). Model menggunakan an berasaskan MMDiT pengubah resapan untuk sintesis imej digabungkan dengan a pengekod bahasa visual (Qwen2.5-VL) untuk mentafsir gesaan dan konteks visual. Pemisahan ini membolehkan model merawat bimbingan semantik and penampilan piksel secara berbeza, meningkatkan kesetiaan teks dan konsistensi edit. Repositori rasmi dan laporan teknikal mencatatkan tulang belakang parameter 20B untuk model T2I utama.

Saluran paip latihan (kata kunci: pembelajaran kurikulum, saluran paip data). Untuk menyelesaikan pemaparan teks keras, Qwen-Image menggunakan a kurikulum progresif: ia bermula dengan imej bukan teks yang lebih ringkas dan secara beransur-ansur melatih contoh kaya teks yang lebih kompleks sehingga input peringkat perenggan. Pasukan itu membina saluran paip komprehensif yang merangkumi pengumpulan berskala besar, penapisan berhati-hati, pembesaran sintetik dan pengimbangan untuk memastikan model melihat banyak gubahan teks/foto yang realistik semasa latihan. Kurikulum strategik ini merupakan sebab utama model cemerlang dalam pemaparan teks berbilang bahasa.

Mekanisme penyuntingan (kata kunci: pengekodan dwi, ​​pengekod VAE + VL). Untuk menyunting, sistem menyuap imej asal dua kali: sekali ke dalam pengekod Qwen2.5-VL untuk kawalan semantik dan sekali ke dalam pengekod VAE untuk maklumat penampilan rekonstruktif. Reka bentuk dwi pengekodan membolehkan modul suntingan untuk mengekalkan identiti dan kesetiaan visual sambil membenarkan pengubahsuaian semantik — contohnya, menggantikan objek atau menukar kandungan teks tanpa merendahkan kawasan yang tidak berkaitan.

Prestasi penanda aras

Qwen-Image mencapai prestasi SOTA atau hampir SOTA merentas berbilang penanda aras awam untuk kedua-dua penjanaan dan pengeditan, dengan hasil yang sangat kukuh dalam tugas pemaparan teks dan penanda aras komposisi dunia sebenar (cth, T2I-CoreBench dan suite penyuntingan imej yang dipilih susun).

API imej Qwen

Bagaimana Qwen-Image dibandingkan dengan model terkemuka lain

Kekuatan relatif: pemaparan teks dan kesetiaan teks dwibahasa ialah kelebihan tersendiri model berbanding banyak pesaing generatif (cth, DALL·E 3, SDXL, Midjourney), yang selalunya lebih kuat dalam komposisi artistik semata-mata atau kepelbagaian gaya tetapi lebih lemah pada susun atur teks berbilang baris atau bahasa Cina yang padat. Perbandingan berbilang komuniti dan jadual penanda aras pengarang model menyokong pencirian ini.

Pertukaran relatif: berbanding dengan sistem komersil tertutup dan sangat ditala, Qwen-Image mungkin memerlukan pemprosesan pasca atau penalaan gesaan/penyesuai untuk mencapai realisme yang sama dalam beberapa konteks (meledingkan permukaan melengkung, penggubahan fotorealistik), setiap ujian bebas. Untuk pengguna yang mengutamakan reka bentuk templat, mockup pembungkusan atau reka letak teks dwibahasa, Qwen-Image cenderung lebih disukai.


Kes penggunaan biasa dan bernilai tinggi

  • Pembungkusan & mockup produk: teks yang tepat dan susun atur berbilang baris untuk label dan percubaan pembungkusan.
  • Draf pengiklanan & reka bentuk: prototaip pantas di mana kesetiaan teks penting (poster, sepanduk).
  • Penjanaan imej yang didokumenkan: menjana imej yang mesti mengandungi kandungan yang boleh dibaca (menu, tanda, antara muka).
  • Saluran paip penyuntingan imej: suntingan disasarkan (penggantian teks, tambah/buang objek) mengekalkan gaya dan perspektif.

Bagaimana untuk memanggil qwen-image API dari CometAPI

qwen-image Harga API dalam CometAPI,diskaun 20% daripada harga rasmi:

Langkah yang Diperlukan

  • Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu.
  • Masuk ke dalam anda Konsol CometAPI.
  • Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.

API imej Qwen

Gunakan Kaedah

  1. Pilih titik akhir "qwen-image" untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda.
  2. Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
  3. Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
  4. . Proses respons API untuk mendapatkan jawapan yang dijana.

CometAPI menyediakan REST API yang serasi sepenuhnya—untuk penghijrahan yang lancar. Butiran penting kepada penjanaan imej:

Model "qwen-image" tidak memerlukan parameter "n" dan hanya boleh mengeluarkan satu imej.

Lihat juga API Imej Flash Gemini 2.5 (Nano-Banana)

Baca Lagi

500+ Model dalam Satu API

Sehingga 20% Diskaun