API gambar Qwen

CometAPI
AnnaNov 12, 2025
API gambar Qwen

Qwen-Gambar adalah pembuatan gambar dan penyuntingan gambar model pondasi dalam keluarga Qwen yang dirancang untuk rendering teks fidelitas tinggi, pengeditan yang tepat, dan pembuatan teks menjadi gambar secara umum. Dirancang untuk melakukan generasi yang sadar teks, rendering teks dwibahasa (terutama kuat dalam bahasa Cina dan Inggris), dan penyuntingan kontekstual yang terperinciRilis ini menekankan gabungan memahami + menghasilkan filosofi desain (tugas pemahaman gambar dan tugas generatif yang dilatih dalam jalur terpadu).

Fitur Utama

  • Rendering teks asli / berkualitas tinggi di dalam gambar — unggul dalam menghasilkan teks yang terbaca dan akurat secara semantik dalam gambar yang dihasilkan (poster, kemasan, tangkapan layar) — suatu area yang banyak diperjuangkan oleh model gambar sebelumnya.
  • Output multimodal fidelitas tinggi — menghasilkan gambar fotorealistis dan bergaya dengan detail yang baik dan tata letak yang memahami bahasa.
  • Transfer gaya & peningkatan detail — dapat menerapkan gaya artistik yang konsisten atau meningkatkan detail lokal sambil mempertahankan koherensi pemandangan.

Detail teknis — cara kerja Qwen-Image

Arsitektur dan komponen (kata kunci: MMDiT, Qwen2.5-VL). Model ini menggunakan Berbasis MMDiT transformator difusi untuk sintesis gambar dikombinasikan dengan pengkode bahasa visual (Qwen2.5-VL) untuk menginterpretasikan perintah dan konteks visual. Pemisahan ini memungkinkan model untuk menangani panduan semantik dan penampilan piksel berbeda, meningkatkan fidelitas teks dan konsistensi suntingan. Repositori resmi dan laporan teknis mencatat tulang punggung 20B parameter untuk model T2I utama.

Alur pelatihan (kata kunci: pembelajaran kurikulum, alur data). Untuk mengatasi rendering teks keras, Qwen-Image menggunakan kurikulum progresifDimulai dengan gambar non-teks yang lebih sederhana dan secara bertahap dilatih pada contoh-contoh kaya teks yang lebih kompleks hingga input tingkat paragraf. Tim membangun alur kerja komprehensif yang mencakup pengumpulan data skala besar, penyaringan yang cermat, augmentasi sintetis, dan penyeimbangan untuk memastikan model melihat banyak komposisi teks/foto yang realistis selama pelatihan. Kurikulum strategis ini merupakan alasan utama mengapa model ini unggul dalam rendering teks multibahasa.

Mekanisme pengeditan (kata kunci: pengkodean ganda, enkoder VAE + VL). Untuk mengedit, sistem memberi makan gambar asli dua kali: sekali ke dalam encoder Qwen2.5-VL untuk kontrol semantik dan sekali ke encoder VAE untuk informasi penampilan rekonstruktifDesain pengodean ganda memungkinkan modul edit untuk mempertahankan identitas dan fidelitas visual sekaligus memungkinkan modifikasi semantik — misalnya, mengganti objek atau mengubah konten tekstual tanpa mengurangi area yang tidak terkait.

Kinerja tolok ukur

Qwen-Image mencapai kinerja SOTA atau mendekati SOTA di berbagai tolok ukur publik untuk pembuatan dan pengeditan, dengan hasil yang sangat kuat dalam tugas-tugas rendering teks dan tolok ukur komposisi dunia nyata (misalnya, T2I-CoreBench dan rangkaian pengeditan gambar yang dikurasi).

API gambar Qwen

Bagaimana Qwen-Image dibandingkan dengan model terkemuka lainnya

Kekuatan relatif: rendering teks dan kesetiaan teks dwibahasa Keunggulan khas model ini dibandingkan banyak pesaing generatif (misalnya, DALL·E 3, SDXL, Midjourney) adalah keunggulannya, yang seringkali lebih kuat dalam hal komposisi artistik murni atau keragaman gaya, tetapi lebih lemah dalam hal tata letak teks multi-baris atau teks Mandarin yang padat. Berbagai perbandingan komunitas dan tabel tolok ukur penulis model mendukung karakterisasi ini.

Pertukaran relatif: dibandingkan dengan sistem komersial tertutup yang disetel secara ketat, Qwen-Image mungkin memerlukan pengolahan pasca atau penyetelan prompt/adaptor untuk mencapai realisme yang identik dalam beberapa konteks (lengkungan permukaan lengkung, pengomposisian fotorealistik), berdasarkan pengujian independen. Bagi pengguna yang memprioritaskan desain templat, contoh kemasan, atau tata letak teks dwibahasa, Qwen-Image cenderung lebih disukai.


Kasus penggunaan yang umum dan bernilai tinggi

  • Mockup kemasan & produk: teks akurat dan tata letak multi-baris untuk label dan uji coba pengemasan.
  • Draf iklan & desain: pembuatan prototipe cepat yang mengutamakan ketepatan teks (poster, spanduk).
  • Pembuatan gambar terdokumentasi: menghasilkan gambar yang harus menyertakan konten yang dapat dibaca (menu, tanda, antarmuka).
  • Alur kerja penyuntingan gambar: pengeditan yang ditargetkan (penggantian teks, penambahan/penghapusan objek) dengan tetap mempertahankan gaya dan perspektif.

Cara memanggil API qwen-image dari CometAPI

qwen-image Harga API di CometAPI, diskon 20% dari harga resmi:

Langkah-langkah yang Diperlukan

  • Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu.
  • Masuk ke Anda Konsol CometAPI.
  • Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.

API gambar Qwen

Gunakan Metode

  1. Pilih titik akhir "qwen-image" untuk mengirim permintaan API dan atur isi permintaan. Metode dan isi permintaan diperoleh dari dokumen API situs web kami. Situs web kami juga menyediakan uji Apifox untuk kenyamanan Anda.
  2. Mengganti dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
  3. Masukkan pertanyaan atau permintaan Anda ke dalam kolom konten—inilah yang akan ditanggapi oleh model.
  4. Memproses respons API untuk mendapatkan jawaban yang dihasilkan.

CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi yang lancar. Detail penting untuk generasi gambar:

Model “qwen-image” tidak memerlukan parameter “n” dan hanya dapat menghasilkan satu gambar.

Lihat juga API Gambar Flash Gemini 2.5 (Nano-Banana)

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%