Alibaba Cloud mengeluarkan model multimodal Qwen‑VLo，Naik taraf keupayaan imej

Bahagian AI Alibaba Cloud telah dilancarkan secara rasmi Qwen‑VLo, lelaran terbaharu dalam siri model multimodal Qwennya, menandakan kemajuan ketara dalam keupayaan penglihatan-dan-bahasa yang bersatu. Diumumkan pada 28 Jun 2025, Qwen‑VLo menawarkan kedua-dua fungsi pemahaman dan penjanaan, menjangkau jauh melebihi pendahulunya untuk memasukkan penciptaan dan pengeditan imej resolusi tinggi yang dipacu oleh gesaan bahasa semula jadi dan input visual.

Berdasarkan keluaran terdahulu seperti Qwen‑VL dan Qwen2.5‑VL, Qwen‑VLo mewakili apa yang Alibaba gambarkan sebagai “peningkatan menyeluruh” dalam AI berbilang mod. Walaupun Qwen‑VL tertumpu terutamanya pada mentafsir maklumat visual, dan Qwen2.5‑VL mempertingkatkan pemahaman konteks panjang, Qwen‑VLo menyepadukan kekuatan ini ke dalam rangka kerja tunggal yang mampu melakukan tugasan bahasa penglihatan dua arah. Ia menampung arahan terbuka, menyokong berbilang bahasa—termasuk bahasa Cina dan Inggeris—dan memperhalusi outputnya untuk menyaingi pelukis manusia .

Ciri-ciri utama

Penjanaan Imej Progresif

Qwen‑VLo membina imej mengikut langkah—dari kiri ke kanan dan atas ke bawah—memurnikan kandungan ramalan secara berulang untuk memastikan konsistensi dan keharmonian visual. Mekanisme ini meningkatkan kecekapan penjanaan dan kawalan pengguna ke atas proses kreatif.

Sokongan Resolusi Dinamik

Menggunakan latihan resolusi dinamik, model ini boleh mengendalikan resolusi input/output dan nisbah aspek yang sewenang-wenangnya. Pengguna boleh menjana kandungan yang disesuaikan untuk pelbagai senario—seperti sepanduk web, muka depan media sosial atau poster beresolusi tinggi—tanpa dikekang oleh format tetap.

Penyuntingan Arahan Terbuka

Melalui gesaan bahasa semula jadi, Qwen VLo boleh melakukan suntingan lanjutan seperti pemindahan gaya ("Gunakan gaya Van Gogh"), transformasi komposit ("Tambah langit yang cerah") dan pengubahsuaian pelbagai segi dalam satu arahan. Ia juga menyokong pengekstrakan dan pengeditan isyarat visual tradisional seperti peta kedalaman, topeng pembahagian dan garis tepi.

Interaksi Pelbagai bahasa

Model ini menerima arahan dalam berbilang bahasa—yang kini menyokong bahasa Cina dan Inggeris—dengan itu memenuhi pangkalan pengguna global dan memecahkan halangan linguistik dalam aliran kerja kreatif.

Ketersediaan dan Akses

Qwen‑VLo kini tersedia di preview melalui platform Sembang Qwen di sembang.qwen.ai. Alibaba Cloud telah menyatakan bahawa, sebagai keluaran pratonton, pengguna mungkin menghadapi ketidakkonsistenan sekali-sekala atau ketidaktepatan fakta semasa penjanaan. Pasukan pembangunan sedang aktif bergerak untuk menangani batasan ini sebelum pelancaran yang lebih luas.

Di bawah hud, jurutera AI Alibaba telah mengoptimumkan Qwen‑VLo untuk penggunaan merentas kedua-dua persekitaran awan dan pinggir. Memanfaatkan pengkuantitian ketepatan campuran dan teknik penalaan halus yang cekap parameter baru, model ini mengekalkan prestasi tinggi pada jejak pengiraan yang padat. Alibaba juga telah menyepadukan saluran paip inferens penyesuaian untuk mengimbangi kependaman dan kualiti, memastikan Qwen‑VLo boleh menyediakan aplikasi sensitif kependaman—seperti alatan reka bentuk interaktif—semasa menskalakan kepada beban kerja gred perusahaan di Alibaba Cloud.

Bandingkan dengan Qwen-VL-Plus/Maks

Dimensi Fungsi	Qwen-VL-Plus/Maks	Qwen VLo
Pemahaman Imej	Klasifikasi asas, penerangan	Pengecaman struktur berbilang dimensi, pemahaman kontekstual yang dipertingkatkan
Penjanaan Imej	Sokongan gaya terhad	Ketepatan tinggi, penjanaan progresif, keupayaan kawalan gaya yang kuat
Keupayaan Multitasking	Memerlukan input khusus tugas	Berbilang tugas bersatu, menyokong arahan bahasa yang kompleks
Interaksi Pelbagai bahasa	Sokongan terhad	Sokongan asli untuk bahasa Cina dan Inggeris, kawalan bahasa semula jadi yang lebih lancar
Keupayaan Pemeliharaan Perincian	Kemungkinan kehilangan butiran dalam penjanaan	Pengenalpastian dan pembinaan semula struktur utama dan semantik yang tepat

Bermula

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

Untuk bermula, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API.

Penyepaduan terkini Qwen‑VLo API akan muncul di CometAPI tidak lama lagi, jadi nantikan! Sementara kami memuktamadkan muat naik Model Qwen‑VLo, teroka model kami yang lain di Halaman model atau cuba mereka dalam Taman Permainan AI. Model terbaru Qwen dalam CometAPI ialah API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.