Qwen-Image-Edit adalah cabang pengeditan dari keluarga gambar Qwen yang dikembangkan oleh tim Qwen (ekosistem Alibaba/QwenLM). Dikembangkan di atas tulang punggung MMDiT dengan 20 miliar parameter, Qwen-Image secara eksplisit memperluas kemampuan rendering teks canggih Qwen-Image ke dalam alur kerja pengeditan gambar yang andal. Model ini ditujukan untuk tugas-tugas yang membutuhkan fidelitas pengeditan—misalnya, mengubah teks secara langsung pada rambu, mempertahankan font dan tata letak, menambah/menghapus objek dengan tetap menjaga konsistensi semantik, transformasi sudut pandang/pose, dan transfer gaya yang halus.
Fitur Utama
- Pengeditan teks dalam gambar yang tepat (dwibahasa: Mandarin & Inggris) — menambah, menghapus, atau mengganti teks sambil mempertahankan font/ukuran/gaya semaksimal mungkin.
- Mode pengeditan ganda: semantik + tampilan — mendukung perubahan semantik tingkat tinggi (istirahat, penggantian objek, sudut pandang) dan pengeditan tampilan tingkat rendah (transfer gaya, tekstur, retouching lokal).
- Masker / wilayah / suntingan multi-giliran — mendukung inpainting bertopeng, perintah wilayah, dan suntingan berantai untuk alur kerja penyempurnaan berulang.
- Masukan multi-gambar (versi terbaru): Iterasi 2509 menambahkan dukungan pengeditan multi-gambar (misalnya, orang+orang, orang+produk), peningkatan konsistensi identitas/produk/teks, dan masukan gaya ControlNet asli.
Detail teknis
- Skala dasar / keluarga: dibangun di atas Parameter 20B Model pondasi Qwen-Image (desain difusi / multimoda gaya MMDiT).
- Alur penyuntingan pengkodean ganda: Modul edit menerima (1) representasi semantik melalui encoder visual Qwen2.5-VL dan (2) representasi rekonstruktif melalui encoder VAE. Memasukkan kedua representasi secara paralel memungkinkan kepala edit untuk mempertimbangkan perubahan semantik vs. fidelitas piksel. Pengodean ganda ini merupakan pilihan rekayasa inti untuk pengeditan yang robust.
- Pelatihan progresif/kurikulum: Pelatihan berkembang dari tugas rendering dan pembuatan teks yang lebih sederhana menjadi rendering teks tingkat paragraf yang kompleks dan tujuan pengeditan multi-tugas (rekonstruksi T2I, TI2I, I2I). Kurikulum ini dilaporkan menjadi faktor utama dalam peningkatan fidelitas teks dan stabilitas pengeditan model.
- Model rasa/modul: Qwen-Image-Edit dideskripsikan sebagai model 20B bergaya MMDiT yang mengintegrasikan komponen Qwen2.5-VL, kepala pengeditan difusi, dan komponen VAE untuk kontrol tampilan.
Kinerja tolok ukur
Klaim SOTA lintas-patokan: Tim Qwen melaporkan hasil terkini (SOTA) atau hasil tingkat atas pada beberapa tolok ukur pembuatan dan pengeditan gambar publik — termasuk GenEval, DPG, OneIG-Bench (generasi) dan GEdit, ImgEdit, GSO (penyuntingan).

Keterbatasan & peringatan (praktis)
- Artefak & kasus tepi: Pengujian komunitas menunjukkan adanya kelebihan saturasi, artefak tekstur kulit, atau jahitan komposit sesekali dalam beberapa suntingan berdetail tinggi; garpu petir komunitas bertujuan untuk mengurangi hal ini.
- Komputasi / memori: Model 20B dan alur kerja pengeditan presisi penuh membutuhkan GPU yang intensif. Penerapan lokal diuntungkan oleh bfloat16/FP8 dan alur kerja pengambilan sampel yang dioptimalkan (tersedia varian "lightning" 4/8 langkah untuk mengurangi VRAM dan latensi).
- Keamanan & Hak Kekayaan Intelektual: Seperti halnya semua pencitra serbaguna, Qwen-Image-Edit dapat menghasilkan karakter berhak cipta atau konten sensitif — penggunaan produksi memerlukan kontrol moderasi dan izin hak. (Praktik terbaik perusahaan yang umum.)
- Mode kegagalan: Karakter/kata yang tidak jelas atau sangat langka mungkin masih dapat ditampilkan secara tidak benar atau memerlukan suntingan berulang (“berantai”) agar konvergen (penulis mencatat contoh seperti huruf Cina langka yang memerlukan koreksi bertahap).
Bagaimana Qwen-Image-Edit dibandingkan dengan opsi lain
- Difusi Stabil / SDXL (inpainting): SDXL plus ControlNet dan pipeline inpainting khusus cepat, memiliki dukungan alat komunitas yang luas, dan banyak LoRA; mereka unggul dalam alur kerja inpainting umum dan kecepatan/efisiensi. Keunggulan Qwen-Image-Edit adalah penyuntingan teks bilingual asli, konsistensi identitas/produk yang lebih ketat dalam beberapa kasus, dan kompromi semantik+tampilan yang terintegrasi. Perbandingan komunitas menunjukkan Qwen seringkali berperingkat lebih tinggi dalam hal fidelitas pengeditan dan kepatuhan teks, tetapi dengan biaya komputasi yang lebih tinggi.
- Editor sumber tertutup (Adobe Firefly / DALL·E / Runway): API tertutup bisa sangat canggih (UI, moderasi terintegrasi, jaminan latensi), tetapi Qwen-Image-Edit menonjol sebagai alternatif yang sepenuhnya terbuka yang secara khusus menargetkan pengeditan teks dwibahasa yang andal dan menawarkan penerapan lokal. Pilihan praktis seringkali bergantung pada apakah Anda memerlukan kontrol lokal/lisensi terbuka atau UX cloud yang canggih.
Kasus penggunaan praktis
- Edit poster & papan tanda — mengubah teks pada poster sambil mempertahankan font/tekstur.
- Pemasaran produk / pembuatan poster — menambah/menghapus item, mempertahankan identitas produk untuk gambar e-commerce.
- Pengeditan potret yang mempertahankan identitas — perubahan pose, perpindahan gaya sambil menjaga identitas tetap konsisten (ditingkatkan pada 2509).
- Restorasi & koreksi kaligrafi — restorasi foto lama dan koreksi bertahap pada karakter tulisan tangan/cetak.
- Alur kerja Kreatif/Desain —pengeditan komposisi multi-gambar, pembuatan meme, penataan gaya avatar yang mungkin melibatkan teks dwibahasa.
Cara memanggil API qwen-image-edit dari CometAPI
qwen-image-edit Harga API di CometAPI, diskon 20% dari harga resmi:
| Token Masukan | $2.00 |
| Token Keluaran | $6.40 |
Langkah-langkah yang Diperlukan
- Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu.
- Masuk ke Anda Konsol CometAPI.
- Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.

Gunakan Metode
- Pilih titik akhir "qwen-image-edit" untuk mengirim permintaan API dan atur isi permintaan. Metode dan isi permintaan diperoleh dari dokumen API situs web kami. Situs web kami juga menyediakan uji Apifox untuk kenyamanan Anda.
- Mengganti dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
- Masukkan pertanyaan atau permintaan Anda ke dalam kolom konten—inilah yang akan ditanggapi oleh model.
- Memproses respons API untuk mendapatkan jawaban yang dihasilkan.
CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi yang lancar. Detail penting untuk edit gambar:
- URL dasar: https://api.cometapi.com/v1/images/edits
- Nama Model: qwen-gambar-edit
- Otentikasi:
Bearer YOUR_CometAPI_API_KEYHeader - Jenis konten:
application/json.
Lihat juga API gambar Qwen
