| Medan | Nilai / Catatan |
|---|---|
| Model name | Qwen3-VL-32B (varian Instruct / Thinking tersedia). |
| Model family / architecture | Qwen3-VL — transformer visi-bahasa; rangka multimodal dengan pengekod visual gaya ViT + lapisan penggabungan LLM. |
| Parameter count | Dinamakan kelas “32B” (sumber awam menyenaraikan skala parameter ~32–33B bagi varian 32B padat). |
| Variants | Padat: 2B / 4B / 8B / 32B; MoE: 30B-A3B, 235B-A22B (varian MoE yang lebih besar juga dikeluarkan). |
| Native context length | 256K token (konteks multimodal berselang-seli natif), dengan mod/teknik peluasan kejuruteraan yang membolehkan sehingga ~1M token dalam sesetengah penerapan. |
| Input modalities | Teks + imej (beresolusi tinggi) + video panjang (pemodelan temporal/cap masa) + OCR (berbilang bahasa). |
| Output modalities | Teks (bahasa semula jadi), pengekstrakan berstruktur (pengekstrakan OCR/jadual/carta), cap masa/ringkasan segmen untuk video; menyokong penggunaan alat / panggilan ejen. |
Apakah Qwen3-VL-32B
Qwen3-VL-32B ialah varian padat 32 bilion parameter dalam keluarga model visi-bahasa Qwen3 oleh Alibaba. Ia ialah transformer multimodal (visi + bahasa + video) yang direka untuk persepsi bersepadu, penaakulan konteks panjang, OCR yang teguh dan pengaitan visual, serta aliran kerja berasaskan ejen/alatan.
Ciri utama
- Konteks multimodal besar — Sokongan natif untuk 256K token berselang-seli (teks + rujukan imej) dan cangkuk seni bina/peralatan untuk memanjangkan konteks efektif hingga ~1M token bagi dokumen panjang dan video panjang; membolehkan pengambilan dan penaakulan rentas dokumen serta rentas media.
- Pralatih visual + bahasa bersepadu — Latihan bersama dari peringkat awal memperbaik pengkaitan bahasa kepada input visual, menghasilkan perwakilan silang-modal yang lebih kukuh (bermanfaat untuk VQA, OCR dan penaakulan rajah).
- Pemahaman video & penjajaran temporal — Pengendalian video natif dengan penjajaran teks ber-cap masa serta keupayaan untuk meringkaskan atau mengindeks aliran video panjang pada kehalusan temporal yang tinggi.
- OCR berbilang bahasa dan penghurai dokumen — OCR berkualiti tinggi merentasi banyak bahasa serta pemahaman dokumen/tataletak yang teguh untuk kes guna pengekstrakan jadual dan carta.
- Varian Instruct vs Thinking — Binaan berasingan yang dioptimumkan untuk pematuhan arahan (Instruct) vs. aliran penaakulan/chain-of-thought dalaman yang lebih mendalam (Thinking) bagi memenuhi keperluan aplikasi (keselamatan/keringkasan vs. penaakulan berlangkah).
- Pilihan MoE untuk penskalaan — Untuk kapasiti/liputan melampau terdapat varian MoE (30B-A3B, 235B-A22B) yang meningkatkan kapasiti perwakilan sambil cuba mengawal pengiraan inferens melalui perarutan pakar.
Sesuai untuk
- Pengekstrakan dokumen dan borang pada skala besar — OCR yang teguh merentas bahasa, pengekstrakan jadual dan carta, serta pemeringkasan semantik laporan panjang.
- Menjawab soalan visual untuk imej kompleks — rajah perubatan/kejuruteraan, foto beranotasi, atau penyelesaian masalah visual yang memerlukan penggabungan bukti visual dengan penaakulan teks berlangkah.
- Pengindeksan dan pemeringkasan video panjang — menjana transkrip boleh carian, pengindeksan pada aras saat dan ringkasan bagi rakaman berjam-jam atau arkib pengawasan/video.
- Ejen multimodal / rantaian alat — mengorkestrasikan panggilan alat yang memerlukan pengekstrakan muatan visual (cth., OCR→carian→tindakan), sesuai untuk rangka kerja ejen yang menggabungkan persepsi dan tindakan.
- Penaakulan visual STEM & alat pembimbingan — matematik berdiagram dan penyelesaian berlangkah yang menggabungkan imej/graf serta penjelasan teks (perlu diingat bahawa keluaran harus disahkan ketepatannya dalam persekitaran pendidikan).
Cara mengakses API Qwen3 VL-32B
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI. Dapatkan kunci API bukti kelayakan akses antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.
Langkah 2: Hantar Permintaan ke API Qwen3 VL-32B
Pilih titik akhir “Qwen3-VL-32B” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Chat
Masukkan soalan atau permintaan anda ke dalam medan content — inilah yang akan dibalas oleh model. Proses respons API untuk mendapatkan jawapan yang dijana.
Langkah 3: Dapatkan dan Sahkan Keputusan
Proses respons API untuk mendapatkan jawapan yang dijana. Selepas diproses, API akan membalas dengan status tugasan dan data keluaran.