| فیلڈ | قدر / نوٹس |
|---|---|
| ماڈل کا نام | Qwen3-VL-32B (Instruct / Thinking ویریئنٹس دستیاب ہیں)۔ |
| ماڈل فیملی / آرکیٹیکچر | Qwen3-VL — وژن-لینگویج ٹرانسفارمر؛ ملٹی موڈل بیک بون جس میں ViT-اسٹائل ویژول انکوڈر + LLM فیوژن لیئرز شامل ہیں۔ |
| پیرامیٹر کی تعداد | “32B” کلاس کے نام سے موسوم (عوامی ذرائع کے مطابق dense 32B ویریئنٹ کے لیے ~32–33B پیرامیٹر اسکیل درج ہے)۔ |
| ویریئنٹس | Dense: 2B / 4B / 8B / 32B؛ MoE: 30B-A3B, 235B-A22B (بڑے MoE ویریئنٹس بھی جاری کیے گئے ہیں)۔ |
| مقامی کانٹیکسٹ کی لمبائی | 256K ٹوکنز (مقامی interleaved multimodal context)، جبکہ کچھ ڈپلائمنٹس میں انجینئرڈ ایکسٹینشن موڈز/تکنیکوں کے ذریعے ~1M ٹوکنز تک فعال کیا جا سکتا ہے۔ |
| ان پٹ موڈالیٹیز | متن + تصاویر (ہائی ریزولوشن) + طویل ویڈیو (temporal modeling/timestamps) + OCR (کثیر لسانی)۔ |
| آؤٹ پٹ موڈالیٹیز | متن (فطری زبان)، structured extraction (OCR/table/chart extraction)، ویڈیو کے لیے timestamps/segment summaries؛ tool use / agent calls کی معاونت۔ |
Qwen3-VL-32B کیا ہے
Qwen3-VL-32B Alibaba کی Qwen3 وژن-لینگویج ماڈل فیملی میں 32-بلین-پیرامیٹر dense ویریئنٹ ہے۔ یہ ایک ملٹی موڈل (ویژن + زبان + ویڈیو) ٹرانسفارمر ہے جسے یکجا ادراک، طویل کانٹیکسٹ ریزننگ، مضبوط OCR اور visual grounding، اور agentic/toolified workflows کے لیے ڈیزائن کیا گیا ہے۔
اہم خصوصیات
- بڑا ملٹی موڈل کانٹیکسٹ — 256K interleaved ٹوکنز (متن + image references) کی مقامی معاونت اور طویل دستاویزات اور طویل ویڈیوز کے لیے مؤثر کانٹیکسٹ کو ~1M ٹوکنز تک بڑھانے کے لیے architectural hooks / tooling؛ یہ cross-document cross-media retrieval اور reasoning کو ممکن بناتا ہے۔
- یکجا ویژول + لسانی پری ٹریننگ — ابتدائی مراحل سے مشترکہ تربیت، جو ویژول ان پٹس کے ساتھ زبان کی grounding کو بہتر بناتی ہے، جس کے نتیجے میں زیادہ مضبوط cross-modal representations حاصل ہوتی ہیں (VQA، OCR، اور diagram reasoning کے لیے مفید)۔
- ویڈیو فہم اور وقتی ہم آہنگی — timestamped text alignment کے ساتھ مقامی ویڈیو ہینڈلنگ اور fine temporal granularity پر طویل ویڈیو اسٹریمز کا خلاصہ یا انڈیکس بنانے کی صلاحیت۔
- کثیر لسانی OCR اور دستاویز پارسنگ — بہت سی زبانوں میں اعلیٰ معیار کا OCR اور table و chart extraction کے استعمالی معاملات کے لیے مضبوط document/layout understanding۔
- Instruct بمقابلہ Thinking ویریئنٹس — instruction compliance (Instruct) بمقابلہ گہری داخلی chain-of-thought / reasoning throughput (Thinking) کے لیے الگ builds، تاکہ مختلف اطلاقی ضروریات (حفاظت/اختصار بمقابلہ مرحلہ وار reasoning) پوری کی جا سکیں۔
- اسکیلنگ کے لیے MoE آپشنز — انتہائی capacity/coverage کے لیے MoE ویریئنٹس (30B-A3B, 235B-A22B) موجود ہیں، جو expert routing کے ذریعے inference compute کو قابو میں رکھنے کی کوشش کرتے ہوئے representational capacity بڑھاتے ہیں۔
Qwen3-VL-32B کن مقاصد کے لیے موزوں ہے
- بڑے پیمانے پر دستاویز اور فارم extraction — مختلف زبانوں میں مضبوط OCR، table اور chart extraction، اور طویل رپورٹس کی معنوی summarization۔
- پیچیدہ تصاویر کے لیے visual question answering — طبی/انجینئرنگ diagrams، annotated photos، یا visual troubleshooting جہاں ویژول شواہد کو مرحلہ وار متنی reasoning کے ساتھ یکجا کرنا ضروری ہو۔
- طویل ویڈیو کی indexing اور summarization — گھنٹوں طویل recordings یا surveillance/video archives کے لیے قابلِ تلاش transcripts، second-level indexing، اور summaries تیار کرنا۔
- ملٹی موڈل agents / tool chains — ایسے tool calls کی orchestration جن میں visual payloads کو extract کرنا ضروری ہو (مثلاً OCR→search→action)، اور یہ agent frameworks کے لیے موزوں ہے جو perception اور action کو یکجا کرتے ہیں۔
- STEM visual reasoning اور tutoring tools — diagrammatic math اور مرحلہ وار حل جو تصاویر/graphs اور متنی وضاحت کو شامل کرتے ہیں (اس بات کو مدنظر رکھتے ہوئے کہ تعلیمی ماحول میں درستگی کے لیے آؤٹ پٹس کی توثیق کی جانی چاہیے)۔
Qwen3 VL-32B API تک رسائی کیسے حاصل کریں
مرحلہ 1: API Key کے لیے سائن اپ کریں
cometapi.com میں لاگ ان کریں۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو براہِ کرم پہلے رجسٹر کریں۔ اپنی CometAPI console میں سائن ان کریں۔ انٹرفیس کی رسائی کے لیے API key credential حاصل کریں۔ ذاتی مرکز میں API token کے حصے میں “Add Token” پر کلک کریں، token key حاصل کریں: sk-xxxxx اور submit کریں۔
مرحلہ 2: Qwen3 VL-32B API کو Requests بھیجیں
API request بھیجنے کے لیے “Qwen3-VL-32B” endpoint منتخب کریں اور request body سیٹ کریں۔ request method اور request body ہماری ویب سائٹ کی API doc سے حاصل کیے جاتے ہیں۔ آپ کی سہولت کے لیے ہماری ویب سائٹ Apifox test بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ سے حاصل کردہ حقیقی CometAPI key سے تبدیل کریں۔ base url یہ ہے Chat
اپنا سوال یا درخواست content field میں درج کریں—ماڈل اسی کا جواب دے گا۔ generated answer حاصل کرنے کے لیے API response کو process کریں۔
مرحلہ 3: نتائج حاصل کریں اور ان کی تصدیق کریں
generated answer حاصل کرنے کے لیے API response کو process کریں۔ processing کے بعد، API task status اور output data کے ساتھ جواب دیتی ہے۔