| Field | Value / Notes |
|---|---|
| Nama model | Qwen3-VL-32B (varian Instruct / Thinking tersedia). |
| Keluarga model / arsitektur | Qwen3-VL — transformer vision-language; backbone multimodal dengan encoder visual bergaya ViT + lapisan fusi LLM. |
| Jumlah parameter | Kelas bernama “32B” (sumber publik mencantumkan skala parameter ~32–33B untuk varian dense 32B). |
| Varian | Dense: 2B / 4B / 8B / 32B; MoE: 30B-A3B, 235B-A22B (varian MoE yang lebih besar juga telah dirilis). |
| Panjang konteks native | 256K token (konteks multimodal native yang diselingi), dengan mode/teknik ekstensi terrekayasa yang memungkinkan hingga ~1M token pada beberapa deployment. |
| Modalitas input | Teks + gambar (resolusi tinggi) + video panjang (pemodelan temporal/stempel waktu) + OCR (multibahasa). |
| Modalitas output | Teks (bahasa alami), ekstraksi terstruktur (ekstraksi OCR/tabel/grafik), stempel waktu/ringkasan segmen untuk video; mendukung penggunaan alat / panggilan agen. |
Apa itu Qwen3-VL-32B
Qwen3-VL-32B adalah varian dense 32 miliar parameter dalam keluarga model vision-language Qwen3 milik Alibaba. Ini adalah transformer multimodal (vision + language + video) yang dirancang untuk persepsi terpadu, penalaran konteks panjang, OCR dan visual grounding yang andal, serta alur kerja agentic/toolified.
Fitur utama
- Konteks multimodal besar — Dukungan native untuk 256K token yang diselingi (teks + referensi gambar) serta hook arsitektural / tooling untuk memperluas konteks efektif hingga ~1M token untuk dokumen panjang dan video panjang; memungkinkan retrieval dan penalaran lintas dokumen serta lintas media.
- Pretraining visual + bahasa terpadu — Pelatihan bersama sejak tahap awal meningkatkan grounding bahasa terhadap input visual, menghasilkan representasi lintas modal yang lebih kuat (bermanfaat untuk VQA, OCR, dan penalaran diagram).
- Pemahaman video & penyelarasan temporal — Penanganan video native dengan penyelarasan teks berstempel waktu dan kemampuan untuk merangkum atau mengindeks aliran video panjang pada granularitas temporal yang halus.
- OCR multibahasa dan parsing dokumen — OCR berkualitas tinggi di banyak bahasa dan pemahaman dokumen/tata letak yang andal untuk kasus penggunaan ekstraksi tabel dan grafik.
- Varian Instruct vs Thinking — Build terpisah yang dioptimalkan untuk kepatuhan instruksi (Instruct) vs. throughput chain-of-thought / penalaran internal yang mendalam (Thinking) agar sesuai dengan kebutuhan aplikasi (keamanan/ketuntasan vs. penalaran bertahap).
- Opsi MoE untuk penskalaan — Untuk kapasitas/cakupan ekstrem tersedia varian MoE (30B-A3B, 235B-A22B) yang meningkatkan kapasitas representasi sambil berupaya mengendalikan komputasi inferensi melalui expert routing.
Kecocokan Qwen3-VL-32B
- Ekstraksi dokumen dan formulir dalam skala besar — OCR yang andal lintas bahasa, ekstraksi tabel dan grafik, serta ringkasan semantik laporan panjang.
- Visual question answering untuk gambar kompleks — diagram medis/teknik, foto beranotasi, atau troubleshooting visual yang memerlukan integrasi bukti visual dengan penalaran tekstual bertahap.
- Pengindeksan dan peringkasan video panjang — menghasilkan transkrip yang dapat dicari, pengindeksan tingkat detik, dan ringkasan untuk rekaman berjam-jam atau arsip pengawasan/video.
- Agen multimodal / rantai alat — mengorkestrasi panggilan alat yang memerlukan ekstraksi payload visual (misalnya, OCR→pencarian→aksi), cocok untuk framework agen yang menggabungkan persepsi dan tindakan.
- Penalaran visual STEM & alat bimbingan — matematika berbasis diagram dan solusi bertahap yang menggabungkan gambar/grafik serta penjelasan tekstual (perlu dicatat bahwa output harus diverifikasi kebenarannya dalam konteks pendidikan).
Cara mengakses API Qwen3 VL-32B
Langkah 1: Daftar untuk API Key
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke konsol CometAPI Anda. Dapatkan kredensial akses API key untuk antarmuka tersebut. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx lalu kirimkan.
Langkah 2: Kirim Request ke API Qwen3 VL-32B
Pilih endpoint “Qwen3-VL-32B” untuk mengirim request API dan atur request body. Metode request dan request body dapat diperoleh dari dokumentasi API di situs web kami. Situs web kami juga menyediakan pengujian Apifox untuk kemudahan Anda. Ganti <YOUR_API_KEY> dengan key CometAPI aktual dari akun Anda. base url adalah Chat
Masukkan pertanyaan atau permintaan Anda ke dalam field content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data output.