| Field | Value / Notes |
|---|---|
| Model name | Qwen3-VL-32B (Instruct / Thinking нұсқалары қолжетімді). |
| Model family / architecture | Qwen3-VL — көру-тіл трансформері; ViT-стильді визуалды энкодер + LLM біріктіру қабаттары бар мультимодальды бэкбон. |
| Parameter count | “32B” класы деп аталады (қоғамдық дереккөздер тығыз 32B нұсқасы үшін шамамен ~32–33B параметр ауқымын көрсетеді). |
| Variants | Тығыз: 2B / 4B / 8B / 32B; MoE: 30B-A3B, 235B-A22B (үлкенірек MoE нұсқалары да шығарылды). |
| Native context length | 256K токен (түпнұсқалық аралас мультимодальды контекст), кейбір орналастыруларда ~1M токенге дейін кеңейтуді мүмкін ететін инженерлік режимдер/тәсілдер бар. |
| Input modalities | Мәтін + суреттер (жоғары ажыратымдылық) + ұзын видео (уақыттық модельдеу/уақыт белгілері) + OCR (көптілді). |
| Output modalities | Мәтін (табиғи тіл), құрылымдық шығарып алу (OCR/кесте/диаграмма шығару), бейне үшін уақыт белгілері/сегменттік қысқаша мазмұндар; құралдарды пайдалану / агент шақыруларын қолдайды. |
Qwen3-VL-32B деген не
Qwen3-VL-32B — Alibaba-ның Qwen3 көру-тіл модельдер отбасының 32 миллиард параметрлі тығыз нұсқасы. Бұл біріктірілген қабылдау, ұзын контексттегі пайымдау, сенімді OCR және визуалдық байлау, сондай-ақ агенттік/құралдандырылған жұмыс процестері үшін жасалған мультимодальды (көрініс + тіл + видео) трансформер.
Негізгі мүмкіндіктер
- Үлкен мультимодальды контекст — 256K аралас токенге (мәтін + сурет сілтемелері) түпнұсқалық қолдау және ұзын құжаттар мен ұзақ видеолар үшін тиімді контексті ~1M токенге дейін кеңейтуге мүмкіндік беретін архитектуралық «ілгектер»/құралдар; құжаттар мен медиалар арасындағы іздеу және пайымдауды мүмкін етеді.
- Біріктірілген визуал + тіл алдын ала үйрету — ерте кезеңдерден бірлескен оқыту мәтіннің визуалдық енгізулермен байланысын жақсартады, нәтижесінде күштірек кросс-модальды ұсынулар қалыптасады (VQA, OCR және диаграммалар бойынша пайымдау үшін пайдалы).
- Видеоны түсіну және уақыттық туралау — уақытаңбалары бар мәтінді туралаумен бірге видеоны түпнұсқалық өңдеу және ұзын видеожолақтарды майда уақыттық нақтылықпен қысқаша мазмұндау немесе индекстеу мүмкіндігі.
- Көптілді OCR және құжатты талдау — көптеген тілдер бойынша жоғары сапалы OCR және кесте мен диаграмманы шығарып алу сценарийлері үшін құжат/орналасымды берік түсіну.
- Instruct және Thinking нұсқалары — қолданба талаптарына сай болу үшін нұсқауларды орындауға оңтайландырылған жеке құрастыру (Instruct) және терең ішкі ой-жүру/пайымдау өткізу қабілетіне бағытталған (Thinking) нұсқалар (қауіпсіздік/ықшамдық vs. кезең-кезеңімен ой қорыту).
- Масштабтау үшін MoE опциялары — аса жоғары сыйымдылық/қамту үшін есептеуін сарапшыларға бағыттау арқылы инференс шығынын бақылауға тырыса отырып, ұсыну қабілетін арттыратын MoE нұсқалары (30B-A3B, 235B-A22B) бар.
Qwen3-VL-32B қолдануға қолайлы
- Құжаттар мен формаларды ауқымды шығарып алу — тілдер бойымен берік OCR, кесте мен диаграмманы шығарып алу және ұзын есептердің семантикалық қысқаша мазмұндауы.
- Күрделі суреттер үшін визуал сұрақ-жауап — медициналық/инженерлік диаграммалар, аннотацияланған фотолар немесе визуалды ақауды жою, мұнда визуал айғақтарды мәтіндік кезең-кезеңімен пайымдаумен біріктіру қажет.
- Ұзақ видеоларды индекстеу және қысқаша мазмұндау — ізделетін транскрипттерді жасау, сағаттар бойы жазылған бейнелер немесе бейнебақылау архивтері үшін секунд деңгейінде индекстеу және түйіндемелер.
- Мультимодальды агенттер / құрал тізбектері — визуал мазмұнды шығарып алуды қажет ететін (мыс., OCR→іздеу→әрекет) құрал шақыруларын үйлестіру, қабылдау мен әрекетті біріктіретін агенттік фреймворктерге лайық.
- STEM бойынша визуалды пайымдау және оқыту құралдары — суреттер/графиктер мен мәтіндік түсіндіруді қамтитын диаграммалық математика және кезең-кезеңімен шешімдер (білім беру жағдайларында нәтижelerin дұрыстығын тексеру қажет екенін ескеріңіз).
Qwen3 VL-32B API-не қалай қол жеткізуге болады
Қадам 1: API кілтіне тіркелу
cometapi.com сайтына кіріңіз. Егер әлі пайдаланушымыз болмасаңыз, алдымен тіркеліңіз. CometAPI console бөліміне кіріңіз. Интерфейс үшін қолжетімділік деректемесі — API кілтін алыңыз. Жеке кабинеттегі API token бөлімінде “Add Token” батырмасын басып, токен кілтін алыңыз: sk-xxxxx және жіберіңіз.
Қадам 2: Qwen3 VL-32B API-іне сұраулар жіберу
API сұрауын жіберу үшін “Qwen3-VL-32B” endpoint-ын таңдап, сұрау денесін орнатыңыз. Сұрау әдісі мен сұрау денесі біздің веб-сайттағы API құжатынан алынады. Қолайлылығыңыз үшін веб-сайтымыз Apifox test ұсынады. <YOUR_API_KEY> өрісін аккаунтыңыздағы нақты CometAPI кілтімен ауыстырыңыз. base url is Chat
Сұрағыңызды немесе өтінішіңізді content өрісіне енгізіңіз — модель осыған жауап береді. Генерацияланған жауапты алу үшін API жауабын өңдеңіз.
Қадам 3: Нәтижелерді алу және тексеру
Генерацияланған жауапты алу үшін API жауабын өңдеңіз. Өңдеуден кейін API тапсырманың күйін және шығыс деректерін қайтарады.