Bahagian AI Alibaba Cloud telah dilancarkan secara rasmi Qwen‑VLo, lelaran terbaharu dalam siri model multimodal Qwennya, menandakan kemajuan ketara dalam keupayaan penglihatan-dan-bahasa yang bersatu. Diumumkan pada 28 Jun 2025, Qwen‑VLo menawarkan kedua-dua fungsi pemahaman dan penjanaan, menjangkau jauh melebihi pendahulunya untuk memasukkan penciptaan dan pengeditan imej resolusi tinggi yang dipacu oleh gesaan bahasa semula jadi dan input visual.
Berdasarkan keluaran terdahulu seperti Qwen‑VL dan Qwen2.5‑VL, Qwen‑VLo mewakili apa yang Alibaba gambarkan sebagai “peningkatan menyeluruh” dalam AI berbilang mod. Walaupun Qwen‑VL tertumpu terutamanya pada mentafsir maklumat visual, dan Qwen2.5‑VL mempertingkatkan pemahaman konteks panjang, Qwen‑VLo menyepadukan kekuatan ini ke dalam rangka kerja tunggal yang mampu melakukan tugasan bahasa penglihatan dua arah. Ia menampung arahan terbuka, menyokong berbilang bahasa—termasuk bahasa Cina dan Inggeris—dan memperhalusi outputnya untuk menyaingi pelukis manusia .
Ciri-ciri utama
Penjanaan Imej Progresif
Qwen‑VLo membina imej mengikut langkah—dari kiri ke kanan dan atas ke bawah—memurnikan kandungan ramalan secara berulang untuk memastikan konsistensi dan keharmonian visual. Mekanisme ini meningkatkan kecekapan penjanaan dan kawalan pengguna ke atas proses kreatif.
Sokongan Resolusi Dinamik
Menggunakan latihan resolusi dinamik, model ini boleh mengendalikan resolusi input/output dan nisbah aspek yang sewenang-wenangnya. Pengguna boleh menjana kandungan yang disesuaikan untuk pelbagai senario—seperti sepanduk web, muka depan media sosial atau poster beresolusi tinggi—tanpa dikekang oleh format tetap.
Penyuntingan Arahan Terbuka
Melalui gesaan bahasa semula jadi, Qwen VLo boleh melakukan suntingan lanjutan seperti pemindahan gaya ("Gunakan gaya Van Gogh"), transformasi komposit ("Tambah langit yang cerah") dan pengubahsuaian pelbagai segi dalam satu arahan. Ia juga menyokong pengekstrakan dan pengeditan isyarat visual tradisional seperti peta kedalaman, topeng pembahagian dan garis tepi.
Interaksi Pelbagai bahasa
Model ini menerima arahan dalam berbilang bahasa—yang kini menyokong bahasa Cina dan Inggeris—dengan itu memenuhi pangkalan pengguna global dan memecahkan halangan linguistik dalam aliran kerja kreatif.
Ketersediaan dan Akses
Qwen‑VLo kini tersedia di preview melalui platform Sembang Qwen di sembang.qwen.ai. Alibaba Cloud telah menyatakan bahawa, sebagai keluaran pratonton, pengguna mungkin menghadapi ketidakkonsistenan sekali-sekala atau ketidaktepatan fakta semasa penjanaan. Pasukan pembangunan sedang aktif bergerak untuk menangani batasan ini sebelum pelancaran yang lebih luas.
Di bawah hud, jurutera AI Alibaba telah mengoptimumkan Qwen‑VLo untuk penggunaan merentas kedua-dua persekitaran awan dan pinggir. Memanfaatkan pengkuantitian ketepatan campuran dan teknik penalaan halus yang cekap parameter baru, model ini mengekalkan prestasi tinggi pada jejak pengiraan yang padat. Alibaba juga telah menyepadukan saluran paip inferens penyesuaian untuk mengimbangi kependaman dan kualiti, memastikan Qwen‑VLo boleh menyediakan aplikasi sensitif kependaman—seperti alatan reka bentuk interaktif—semasa menskalakan kepada beban kerja gred perusahaan di Alibaba Cloud.
Bandingkan dengan Qwen-VL-Plus/Maks
| Dimensi Fungsi | Qwen-VL-Plus/Maks | Qwen VLo |
|---|---|---|
| Pemahaman Imej | Klasifikasi asas, penerangan | Pengecaman struktur berbilang dimensi, pemahaman kontekstual yang dipertingkatkan |
| Penjanaan Imej | Sokongan gaya terhad | Ketepatan tinggi, penjanaan progresif, keupayaan kawalan gaya yang kuat |
| Keupayaan Multitasking | Memerlukan input khusus tugas | Berbilang tugas bersatu, menyokong arahan bahasa yang kompleks |
| Interaksi Pelbagai bahasa | Sokongan terhad | Sokongan asli untuk bahasa Cina dan Inggeris, kawalan bahasa semula jadi yang lebih lancar |
| Keupayaan Pemeliharaan Perincian | Kemungkinan kehilangan butiran dalam penjanaan | Pengenalpastian dan pembinaan semula struktur utama dan semantik yang tepat |
Bermula
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Untuk bermula, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API.
Penyepaduan terkini Qwen‑VLo API akan muncul di CometAPI tidak lama lagi, jadi nantikan! Sementara kami memuktamadkan muat naik Model Qwen‑VLo, teroka model kami yang lain di Halaman model atau cuba mereka dalam Taman Permainan AI. Model terbaru Qwen dalam CometAPI ialah API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

