Bolehkah Model Imej Qwen mentakrifkan semula Penjanaan dan Penyuntingan Imej AI

Pada 4 Ogos 2025, pasukan Qwen Alibaba dilancarkan secara rasmi Qwen-Imej, model asas pengubah resapan berbilang mod (MMDiT) 20 bilion parameter yang direka untuk menyampaikan kesetiaan yang belum pernah berlaku sebelum ini dalam sintesis teks-ke-imej dan penyuntingan imej ketepatan. Keluaran ini menandakan kemasukan berani Alibaba ke arena penjanaan imej sumber terbuka, meletakkan Qwen-Image sebagai pencabar langsung kepada sistem proprietari seperti OpenAI GPT-4o, DALL·E 2 dan Midjourney .

Inovasi Teknikal

Qwen-Imej 20 B MMDiT tulang belakang menandakan pencapaian kejuruteraan yang penting, membolehkan model itu cemerlang dalam menghasilkan kandungan teks yang kompleks secara langsung dalam imej yang dijana. Pendekatan pembelajaran kurikulumnya bermula dengan tugas pemaparan bukan teks yang mudah dan secara beransur-ansur maju untuk mengendalikan huraian sepanjang perenggan, menghasilkan kesetiaan yang luar biasa dalam kedua-dua bahasa abjad dan logografik. Selain itu, model ini menggabungkan a dwi pengekodan mekanisme—memproses secara berasingan perwakilan semantik dan rekonstruktif melalui Qwen2.5-VL dan pengekod VAE—yang menyeimbangkan antara mengekalkan konsistensi semantik dan realisme visual semasa pengeditan imej.

Kejayaan dalam Penyampaian dan Penyuntingan Teks

Pembeza utama untuk Qwen-Image ialah sokongan asli untuk teks terbenam, membolehkannya meletakkan teks Inggeris dan Cina yang boleh dibaca dalam imej merentas reka letak berbilang baris dan konteks perenggan. Penanda aras dalaman menunjukkan bahawa Qwen-Image mengatasi banyak pesaing sumber terbuka dalam pematuhan segera dan kejelasan teks, menjadikannya sesuai untuk aplikasi yang memerlukan elemen reka bentuk berbilang bahasa . Keupayaan penyuntingan imejnya juga mendapat manfaat daripada paradigma latihan berbilang tugas yang menyepadukan tugas pembinaan semula teks-ke-imej, teks-imej-ke-imej dan imej-ke-imej, meningkatkan ketekalan apabila mengubah suai visual sedia ada .

Penilaian bebas menunjukkan keunggulan Qwen-Image berbanding beberapa model sumber terbuka dan proprietari terkemuka dalam ketepatan pembenaman teks. Dalam ujian perbandingan, ia mengatasi alternatif sumber terbuka julat pertengahan dan menyaingi tawaran komersial seperti Midjourney untuk pematuhan segera—terutama pada gesaan dwibahasa yang menggabungkan bahasa Inggeris dan Cina . Walaupun sesetengah sistem proprietari mungkin masih memimpin dalam menghasilkan pemandangan ultra-kompleks, maklum balas pengguna awal menyerlahkan kejelasan Qwen-Image yang tiada tandingan untuk reka letak teks berbilang bahasa dan kawalan pengeditannya yang mantap .

Selaras dengan komitmen Alibaba untuk AI "terbuka, telus dan mampan", Qwen-Image adalah sumber terbuka pada platform MoDa, menjemput sumbangan dan penyesuaian komuniti . Di samping keluaran model, Alibaba telah menerbitkan dokumentasi yang luas, kod sampel dan portal maklum balas untuk menyokong ujian dunia sebenar merentas pelbagai kes penggunaan—daripada saluran paip penerbitan automatik kepada alatan pendidikan interaktif.

Keputusan Penilaian

Penanda aras dalaman Alibaba dan penilaian pihak ketiga menggambarkan prestasi terkemuka Qwen-Image:

Geneval (Penjanaan Imej Umum): Mencapai Jarak Permulaan Fréchet (FID) sebanyak 10.2, mengatasi prestasi setanding 20 model parameter B sebanyak 9 % secara purata.
LongText-Bench (Penyampaian Teks): Menjaringkan gol 92.7% ketepatan dalam peletakan teks berbilang baris dan integriti glyph, mengatasi GPT-4.1 sebanyak 14 % .
GEdit/ImgEdit (Penyuntingan Imej): Mendaftarkan skor min pendapat (MOS) sebanyak 4.3/5, mencerminkan kepuasan pengguna yang tinggi dalam mengekalkan konsistensi semantik semasa suntingan
OneIG-Bench (Penjanaan Infografik): Kedudukan dalam tiga model teratas untuk memaparkan data berstruktur dan carta secara visual terus daripada gesaan, menunjukkan reka letak yang kukuh dan keupayaan pemilihan warna.
Kedudukan Papan Pendahulu: Pada Papan Pendahulu Arena Imej Analisis Buatan, Qwen-Image kini memegang tempat ke-5 di antara semua model penjanaan imej—dan merupakan satu-satunya penyertaan terbuka dalam 10 teratas—menunjukkan kelebihan daya saingnya dalam komuniti penyelidikan .

Akses & Ekosistem

Set ciri serba boleh Qwen-Image membuka kunci pelbagai aplikasi dunia sebenar:

Pemasaran & Pengiklanan: Penciptaan pantas visual promosi yang dipesan lebih dahulu dengan slogan terbenam dan elemen teks berbilang bahasa.
Kandungan Pendidikan: Penjanaan automatik gambar rajah ilustrasi, maklumat grafik dan imej beranotasi untuk platform e-pembelajaran.
Reka Bentuk & Prototaip: Mockup dan seni konsep dengan cepat dengan lapisan boleh diedit untuk aliran kerja kreatif interaktif.
Perkhidmatan Penyetempatan: Penyesuaian lancar visual ke dalam konteks linguistik yang berbeza tanpa usaha reka bentuk grafik manual.

Pengguna boleh berinteraksi dengan Qwen-Image melalui antara muka Chat Qwen Alibaba dengan memilih mod "Penjanaan Imej", atau menyepadukan model ke dalam persekitaran mereka melalui repositori GitHub dan API CometAPI .

Penggunaan Interaktif: Lawatan sembang.qwen.ai dan pilih mana-mana model Qwen bukan pengekodan, kemudian beralih kepada "Penjanaan Imej" untuk mula mencipta.
Kod & Berat:
GitHub: github.com/QwenLM/Qwen-Image
Memeluk Muka: huggingface.co
Modelscope: modelscope.cn

Alibaba menggalakkan maklum balas dan sumbangan komuniti untuk memupuk an terbuka, telus dan mampan ekosistem AI generatif.

Penyepaduan terkini Qwen-Image tidak lama lagi akan muncul di CometAPI, jadi nantikan!Sementara kami memuktamadkan muat naik Model Qwen-Image, teroka model kami yang lain di halaman Model atau cuba mereka di Taman Permainan AI.

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

See Also

Inovasi Teknikal

Kejayaan dalam Penyampaian dan Penyuntingan Teks

Keputusan Penilaian

Akses & Ekosistem

Baca Lagi

500+ Model dalam Satu API