تکنیکی وضاحتیں (فوری حوالہ جاتی جدول)
| Item | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash (hosted) |
|---|---|---|---|---|
| پیرامیٹر پیمانہ | ~122B (درمیانہ-بڑا) | ~27B (ڈینس) | ~35B (MoE / A3B ہائبرڈ) | 35B-A3B ویٹس کے مطابق (ہوسٹڈ) |
| معماری نوٹس | ہائبرڈ (گیٹڈ ڈیلٹا + خاندان میں MoE اٹینشن) | ڈینس ٹرانسفارمر | اسپارس / مکسچر-آف-ایکسپرٹس ویریئنٹ (A3B) | 35B-A3B جیسی ہی معماری، پروڈکشن فیچرز |
| ان پٹ/آؤٹ پٹ طریقے | متن، وژن-لینگویج (ارلی فیوژن ملٹی ماڈل ٹوکنز)؛ چیٹ طرز I/O | متن، V+L سپورٹ | متن + وژن (ایجنٹک ٹول کالز سپورٹڈ) | متن + وژن؛ آفیشل ٹول انٹیگریشنز اور API آؤٹ پٹس |
| طے شدہ زیادہ سے زیادہ سیاق (لوکل/معیاری) | قابلِ تشکیل (بڑا) — فیملی بہت طویل سیاق کی سپورٹ دیتی ہے | قابلِ تشکیل | 262,144 ٹوکنز (معیاری لوکل کنفیگ مثال) | 1,000,000 ٹوکنز (ہوسٹڈ Flash کے لیے طے شدہ) |
| سروِنگ / API | OpenAI طرز چیٹ کمپلیشنز کے ساتھ مطابقت پذیر؛ vLLM / SGLang / Transformers تجویز کردہ | وہی | وہی (ماڈل کارڈ میں مثالاً CLI / vLLM کمانڈز) | ہوسٹڈ API (Alibaba Cloud Model Studio / Qwen Chat)؛ اضافی پروڈکشن آبزرویبیلٹی اور اسکیلنگ۔ |
| عام استعمال کے کیسز | ایجنٹس، ریزننگ، کوڈنگ اسسٹنس، طویل دستاویزاتی ٹاسکس، ملٹی ماڈل اسسٹنٹس | لائٹ ویٹ/سنگل-GPU انفِرنس، کم فُٹ پرنٹ والے ایجنٹک ٹاسکس | پروڈکشن ایجنٹ ڈیپلائمنٹس، طویل سیاق کے ملٹی ماڈل ٹاسکس | پروڈکشن ایجنٹ SaaS: طویل سیاق، ٹول کا استعمال، منیجڈ انفِرنس |
Qwen-3.5 Flash کیا ہے
Qwen-3.5 Flash، Qwen3.5 فیملی کی پروڈکشن/ہوسٹڈ پیشکش ہے جو 35B-A3B اوپن ویٹس سے مطابقت رکھتی ہے مگر پروڈکشن صلاحیتیں شامل کرتی ہے: توسیع شدہ ڈیفالٹ سیاق (ہوسٹڈ پروڈکٹ کے لیے 1M ٹوکنز تک کا اشتہار)، آفیشل ٹول انٹیگریشنز، اور منیجڈ انفِرنس اینڈپوائنٹس تاکہ ایجنٹک ورک فلو اور اسکیلنگ آسان ہوں۔ مختصراً: Flash = کلاؤڈ-ہوسٹڈ، پروڈکشن کے لیے تیار 35B A3B ویریئنٹ جس میں طویل سیاق، ٹول استعمال اور تھروپُٹ کے لیے اضافی انجینئرنگ شامل ہے۔
Qwen-3.5 Flash Series، وسیع تر Qwen 3.5 “Medium model series” کا حصہ ہے، جس میں متعدد ماڈلز شامل ہیں:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
اس لائن اَپ میں، Qwen3.5-Flash پروڈکشن API ورژن ہے—یعنی بنیادی طور پر 35B ماڈل کا تیز، قابلِ تعیناتی ورژن جو ڈویلپرز اور انٹرپرائزز کے لیے موزوں بنایا گیا ہے۔ 👉 Flash بنیادی طور پر 35B-A3B ماڈل کے اوپر بنایا گیا “انٹرپرائز رن ٹائم لئیر” ہے۔
Qwen-3.5 Flash کی اہم خصوصیات
- متحدہ وژن-لینگویج بنیاد — ارلی فیوژن ملٹی ماڈل ٹوکنز کے ساتھ تربیت یافتہ، تاکہ متن اور تصاویر ایک مربوط اسٹریم میں پروسیس ہوں (ریزننگ اور بصری ایجنٹک ٹاسکس بہتر ہوتے ہیں)۔
- ہائبرڈ/موثر معماری — گیٹڈ ڈیلٹا نیٹ ورکس + کچھ سائزز میں اسپارس مکسچر-آف-ایکسپرٹس (MoE) پیٹرنز (A3B ایک اسپارس ویریئنٹ کی علامت ہے)، فی کمپیوٹ اعلیٰ قابلیت کا ٹریڈ آف فراہم کرتی ہے۔
- طویل سیاق کی سپورٹ — فیملی مقامی طور پر بہت طویل سیاق کی سپورٹ دیتی ہے (مثالی کنفیگز لوکلی 262,144 ٹوکنز تک دکھاتے ہیں) اور Flash ہوسٹڈ پروڈکٹ پروڈکشن ورک فلو کے لیے 1,000,000-ٹوکن سیاق کو ڈیفالٹ کرتا ہے۔ یہ ایجنٹک چینز، دستاویزی QA، اور متعدد دستاویزات کی ترکیب کے لیے ٹیون ہے۔
- ایجنٹک ٹول استعمال — ٹول کالز، ریزننگ پائپ لائنز، اور “سوچنے” یا اسپیکیولیٹو سیمپلنگ کے لیے نیٹو سپورٹ اور پارسرز، جو ماڈل کو منظم انداز میں بیرونی APIs یا ٹولز پلان کر کے کال کرنے کے قابل بناتے ہیں۔
Qwen-3.5 Flash کی بینچ مارک کارکردگی
| Benchmark / Category | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash 35B-A3B کے ساتھ منطبق ہے) |
|---|---|---|---|---|
| MMLU-Pro (علم) | 86.7 | 86.1 | 85.3 (35B) | Flash ≈ 35B-A3B شائع شدہ پروفائل کے قریب۔ |
| C-Eval (چینی امتحان) | 91.9 | 90.5 | 90.2 | |
| IFEval (ہدایت پر عمل) | 93.4 | 95.0 | 91.9 | |
| AA-LCR (طویل سیاقی استدلال) | 66.9 | 66.1 | 58.5 | (لوکل کنفیگز 262k ٹوکنز تک طویل سیاق کی سیٹ اپس دکھاتے ہیں؛ Flash کے لیے 1M ڈیفالٹ بتایا گیا ہے)۔ |
خلاصہ: Qwen3.5 کے میڈیم اور چھوٹے ویریئنٹس (مثلاً 27B، 122B A10B) بہت سے نالج اور انسٹرکشن بینچ مارکس پر فرنٹیئر ماڈلز کے ساتھ فرق کم کرتے ہیں، جبکہ 35B-A3B (اور Flash) پروڈکشن ٹریڈ آفز (تھروپُٹ + طویل سیاق) کے لیے ہدف رکھتے ہوئے بڑے ماڈلز کے مقابلے میں مسابقتی MMLU/C-Eval اسکورز دیتے ہیں۔
🆚 Qwen 3.5 خاندان میں Qwen-3.5 Flash کی جگہ
Think of the series like this:
| Model | Role |
|---|---|
| Qwen3.5-Flash | ⚡ تیز رفتار پروڈکشن API |
| Qwen3.5-35B-A3B | 🧠 متوازن بنیادی ماڈل |
| Qwen3.5-122B-A10B | 🏆 زیادہ استدلالی طاقت |
| Qwen3.5-27B | 💻 چھوٹا، موثر لوکل ماڈل |
👉 Flash = 35B کے برابر ذہانت کی سطح، مگر تعیناتی کے لیے موزوں بنایا گیا ہے۔
Qwen-3.5 Flash کب استعمال کریں
Use it if you need:
- ریئل ٹائم AI (چیٹ بوٹس، معاونین)
- ٹولز کے ساتھ AI ایجنٹس (سرچ، APIs، آٹومیشن)
- بڑی دستاویز یا کوڈ کا تجزیہ
- ہائی اسکیل پروڈکشن APIs
Qwen-3.5 Flash API تک کیسے رسائی حاصل کریں
مرحلہ 1: API کلید کے لیے سائن اپ کریں
cometapi.com میں لاگ اِن کریں۔ اگر آپ ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI کنسول میں سائن اِن کریں۔ انٹرفیس کی رسائی کے اسناد (API key) حاصل کریں۔ پرسنل سینٹر میں API ٹوکن پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کریں۔

مرحلہ 2: Qwen-3.5 Flash API کو درخواست بھیجیں
“qwen3.5-flash” اینڈ پوائنٹ منتخب کریں تاکہ API ریکویسٹ بھیجی جا سکے اور ریکویسٹ باڈی سیٹ کریں۔ ریکویسٹ میتھڈ اور ریکویسٹ باڈی ہماری ویب سائٹ کی API ڈاک سے حاصل کیے جا سکتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ سے اصل CometAPI کلید سے بدلیں۔ بیس URL Chat Completions ہے۔
اپنا سوال یا درخواست content فیلڈ میں درج کریں—اسی پر ماڈل جواب دے گا۔ جنریٹڈ جواب حاصل کرنے کے لیے API ریسپانس کو پراسیس کریں۔
مرحلہ 3: نتائج حاصل کریں اور تصدیق کریں
جنریٹڈ جواب حاصل کرنے کے لیے API ریسپانس کو پراسیس کریں۔ پراسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔