Alibaba Cloud merilis model multimodal Qwen‑VLo, peningkatan kemampuan gambar

CometAPI
AnnaJun 29, 2025
Alibaba Cloud merilis model multimodal Qwen‑VLo, peningkatan kemampuan gambar

Divisi AI Alibaba Cloud telah resmi diluncurkan Qwen‑VLo, iterasi terbaru dalam seri model multimoda Qwen, yang menandai kemajuan signifikan dalam kemampuan penglihatan dan bahasa yang terpadu. Diumumkan pada tanggal 28 Juni 2025, Qwen‑VLo menawarkan fungsionalitas pemahaman dan pembuatan, yang jauh melampaui pendahulunya hingga mencakup pembuatan dan penyuntingan gambar beresolusi tinggi yang didorong oleh perintah bahasa alami dan masukan visual.

Berdasarkan rilis sebelumnya seperti Qwen‑VL dan Qwen2.5‑VL, Qwen‑VLo mewakili apa yang digambarkan Alibaba sebagai "peningkatan komprehensif" dalam AI multimodal. Sementara Qwen‑VL berfokus terutama pada penafsiran informasi visual, dan Qwen2.5‑VL meningkatkan pemahaman konteks panjang, Qwen‑VLo memadukan kekuatan ini ke dalam satu kerangka kerja tunggal yang mampu menjalankan tugas-tugas penglihatan-bahasa dua arah. Ia mengakomodasi instruksi terbuka, mendukung berbagai bahasa—termasuk bahasa Mandarin dan Inggris—dan menyempurnakan output-nya untuk menyaingi output seniman manusia.

Fitur utama

Generasi Gambar Progresif

Qwen‑VLo menyusun gambar secara bertahap—dari kiri ke kanan dan atas ke bawah—secara berulang menyempurnakan konten yang diprediksi untuk memastikan konsistensi dan harmoni visual. Mekanisme ini meningkatkan efisiensi pembuatan dan kontrol pengguna atas proses kreatif.

Dukungan Resolusi Dinamis

Dengan memanfaatkan pelatihan resolusi dinamis, model ini dapat menangani resolusi input/output dan rasio aspek yang berubah-ubah. Pengguna dapat membuat konten yang disesuaikan untuk berbagai skenario—seperti spanduk web, sampul media sosial, atau poster beresolusi tinggi—tanpa dibatasi oleh format yang tetap.

Pengeditan Instruksi Terbuka

Melalui perintah bahasa alami, Qwen VLo dapat melakukan penyuntingan tingkat lanjut seperti transfer gaya ("Terapkan gaya Van Gogh"), transformasi komposit ("Tambahkan langit cerah"), dan modifikasi multifaset dalam satu instruksi. Ia juga mendukung ekstraksi dan penyuntingan sinyal visual tradisional seperti peta kedalaman, topeng segmentasi, dan garis tepi.

Interaksi Multibahasa

Model tersebut menerima perintah dalam berbagai bahasa—saat ini mendukung bahasa Mandarin dan Inggris—sehingga melayani basis pengguna global dan mendobrak hambatan linguistik dalam alur kerja kreatif.

Ketersediaan dan Akses

Qwen‑VLo saat ini tersedia di pratinjau melalui platform Qwen Chat di obrolan.qwen.aiAlibaba Cloud telah mencatat bahwa, sebagai rilis pratinjau, pengguna mungkin mengalami ketidakkonsistenan atau ketidakakuratan fakta sesekali selama pembuatan. Tim pengembangan secara aktif berupaya mengatasi keterbatasan ini sebelum peluncuran yang lebih luas.

Di balik layar, teknisi AI Alibaba telah mengoptimalkan Qwen‑VLo untuk penerapan di lingkungan cloud dan edge. Dengan memanfaatkan kuantisasi presisi campuran dan teknik fine-tuning hemat parameter yang baru, model tersebut mempertahankan kinerja tinggi pada jejak komputasi yang ringkas. Alibaba juga telah mengintegrasikan jalur inferensi adaptif untuk menyeimbangkan latensi dan kualitas, memastikan bahwa Qwen‑VLo dapat melayani aplikasi yang sensitif terhadap latensi—seperti alat desain interaktif—sambil menyesuaikan dengan beban kerja tingkat perusahaan di Alibaba Cloud.

Dibandingkan dengan Qwen-VL-Plus/Maks

Dimensi FungsiQwen-VL-Plus/MaksQwen VLo
Pemahaman GambarKlasifikasi dasar, deskripsiPengenalan struktur multidimensi, pemahaman kontekstual yang ditingkatkan
Pembuatan GambarDukungan gaya terbatasPresisi tinggi, generasi progresif, kemampuan kontrol gaya yang kuat
Kemampuan MultitugasMemerlukan masukan khusus tugasMultitasking terpadu, mendukung instruksi bahasa yang kompleks
Interaksi MultibahasaDukungan terbatasDukungan asli untuk bahasa Mandarin dan Inggris, kontrol bahasa alami yang lebih lancar
Kemampuan Pelestarian DetailKemungkinan hilangnya detail saat pembuatanIdentifikasi dan rekonstruksi akurat dari struktur dan semantik kunci

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.

API Qwen‑VLo integrasi terbaru akan segera muncul di CometAPI, jadi nantikan! Sementara kami menyelesaikan unggahan Model Qwen‑VLo, jelajahi model kami yang lain di Halaman model atau mencobanya di Taman Bermain AIModel terbaru Qwen di CometAPI adalah API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

Alibaba Cloud merilis model multimodal Qwen‑VLo, peningkatan kemampuan gambar

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%