Qwen3، علی بابا کے جدید ترین ہائبرڈ ریجننگ لارج لینگوئج ماڈل (LLM) کے اجراء نے ایک بار پھر AI تحقیق اور اطلاق کی شکل کو نئی شکل دی ہے۔ اس کی قابل ذکر صلاحیتوں کے پیچھے ایک باریک بینی سے تیار کردہ تربیتی عمل پوشیدہ ہے جو متنوع اعداد و شمار، تعمیراتی اختراعات، اور ایک ملٹی اسٹیج پوسٹ ٹریننگ پائپ لائن پر بڑے پیمانے پر پری ٹریننگ پر محیط ہے۔ یہ مضمون کھولتا ہے۔ Qwen3 کیسے ٹرین کرتا ہے۔, خام ڈیٹا کے ادخال سے لے کر استدلال اور تعیناتی کے لیے فائن ٹیوننگ تک کے ہر مرحلے کی کھوج کرتے ہوئے، ان اہم سوالات کے جوابات دیتے ہیں جو اس کے ڈیزائن اور کارکردگی کو آگے بڑھاتے ہیں۔
کون سا ڈیٹا Qwen3 کی پری ٹریننگ کو طاقت دیتا ہے؟
ٹوکن کی تعداد کو بڑھانا: کھربوں سے دسیوں کھربوں تک
Qwen3 کی بنیاد ایک بے مثال کارپس پر بنائی گئی ہے۔36 ٹریلین سے زیادہ ٹوکن 119 سے زیادہ زبانوں اور بولیوں پر پھیلا ہوا ہے۔ یہ اپنے پیشرو Qwen2.5 میں استعمال ہونے والے ٹوکن والیوم سے تقریباً دوگنا ہے، جس نے 18 ٹریلین ٹوکنز پر تربیت حاصل کی تھی۔ ڈیٹا کی وسعت کو بڑھاتے ہوئے، Qwen3 لسانی نمونوں، عالمی علم، اور ڈومین سے متعلق مخصوص مواد کی ایک بھرپور ٹیپسٹری کا استعمال کرتا ہے۔
متنوع ڈیٹا ذرائع کا استعمال: ویب، پی ڈی ایف، اور مصنوعی مواد
اس زبردست ڈیٹاسیٹ کو جمع کرنے کے لیے، علی بابا نے ویب کرالز کو ملایا پی ڈی ایف جیسی دستاویزات Qwen2.5-VL کے ذریعے عملدرآمد، تکنیکی متن اور تعلیمی مواد کے اعلیٰ معیار کے اخراج کو یقینی بنانا۔ مزید برآں، ٹارگٹڈ مصنوعی ڈیٹا جنریشن — Qwen2.5-Math اور Qwen2.5-Coder سے فائدہ اٹھاتے ہوئے — نے لاکھوں ریاضی کے مسائل کے حل اور کوڈ کے ٹکڑوں کے ساتھ کارپس کو بڑھایا، جس سے STEM اور پروگرامنگ کی روانی کو تقویت ملی۔
Qwen3 کی پری ٹریننگ کے عمل کی ساخت کیسے ہے؟
مرحلہ 1: بنیادی علم کی تعمیر
In مرحلہ 1 (S1)، Qwen3 پر تربیت یافتہ ہے۔ 30 ٹریلین سے زیادہ ٹوکن معیاری 4K سیاق و سباق کے ٹرانسفارمر بیک بون کا استعمال کرتے ہوئے یہ مرحلہ بنیادی زبان کی تفہیم اور عمومی ڈومین کا علم پیدا کرتا ہے، جو انسانی خواندگی کے لیے "حروف تہجی سیکھنے" کے مترادف ہے۔
مرحلہ 2: علم سے بھرپور صلاحیتوں کو بڑھانا
میں منتقل ہو رہا ہے۔ **مرحلہ 2 (S2)**پر زور دینے کے لیے ڈیٹاسیٹ کو دوبارہ متوازن کیا گیا ہے۔ علم پر مبنی موادSTEM متن، کوڈنگ چیلنجز، اور استدلال کے کام۔ ایک اضافی 5 ٹریلین ٹوکن پیچیدہ تعلیمی اور تکنیکی مسائل سے نمٹنے کے لیے ماڈل کی صلاحیت کو تیز کرتا ہے۔
مرحلہ 3: سیاق و سباق کی لمبائی کو بڑھانا
آخر میں، ایک طویل سیاق و سباق سے پہلے کی تربیت کا مرحلہ Qwen3 کی مقامی سیاق و سباق کی ونڈو کو پھیلانے کے لیے اعلیٰ معیار کی دستاویزات کا فائدہ اٹھاتا ہے۔ 32K ٹوکن, تحقیقی مقالے یا کثیر قدمی ہدایات جیسے لمبے ان پٹ پر کارروائی اور استدلال کرنے کے لیے اسے بااختیار بنانا۔
کون سی آرکیٹیکچرل ایجادات Qwen3 کی کارکردگی کو قابل بناتی ہیں؟
ڈینس بمقابلہ مکسچر آف ایکسپرٹس (MoE) ماڈل
Qwen3 دونوں پیش کرتا ہے۔ گھنے اور ماہرین کا مرکب (MoE) متغیرات گھنے ماڈلز 0.6B سے 32B پیرامیٹرز تک ہوتے ہیں، جبکہ MoE ورژن ماہرین کے صرف ایک چھوٹے سے حصے کو چالو کرتے ہیں (مثلاً، 8 میں سے 128) فی ٹوکن، کارکردگی کو قربان کیے بغیر فعال کمپیوٹ کو 90% تک کم کرتے ہیں۔
توجہ اور معمول میں اضافہ
اختراعات جیسے فی سر QK نارملائزیشن اور دوبارہ ڈیزائن کردہ توجہ کے تعصبات پیمانے پر استحکام کو فروغ دیتے ہیں۔ یہ تطہیر گہرے ماڈلز (Qwen94-3B-A235B میں 22 تہوں تک) کو مؤثر طریقے سے اکٹھا کرنے کے قابل بناتے ہیں، اضافی صلاحیت کے ساتھ مسلسل فوائد کو یقینی بناتے ہوئے۔
Qwen3 ہائبرڈ استدلال کو کیسے نافذ کرتا ہے؟
سوچنے کا موڈ بمقابلہ نان تھنکنگ موڈ
Qwen3 کی ایک پہچان یہ ہے۔ ہائبرڈ استدلال:
- سوچنے کا موڈ: چین آف تھاٹ (CoT) استدلال کو شامل کرتا ہے، حتمی جواب پیش کرنے سے پہلے مسائل کو درمیانی مراحل میں توڑ دیتا ہے۔
- غیر سوچنے کا موڈ: واضح انٹرمیڈیٹ استدلال کے بغیر فوری جوابات فراہم کرتا ہے۔
صارفین کے ذریعے موڈ ٹوگل کر سکتے ہیں۔enable_thinkingپرچم یا ان لائن ٹیگز (/think,/no_think)، ٹاسک کی پیچیدگی کا اندازہ لگانا۔
استدلال کے بجٹ کو کنٹرول کرنا
استدلال کے مراحل کے لیے "کمپیوٹیشن بجٹ" مختص کر کے، Qwen3 لاگت کے معیار کے توازن کو یقینی بناتا ہے۔ مشکل کام گہری استدلال (زیادہ حساب) کو متحرک کر سکتے ہیں، جبکہ آسان سوالات تیز رہتے ہیں، پیشکش انفرنس ٹریڈ آف پر عمدہ کنٹرول .
Qwen3 کی پوسٹ ٹریننگ پائپ لائن میں کیا شامل ہے؟
چین آف تھیٹ کولڈ اسٹارٹ کے ساتھ فائن ٹیوننگ
۔ تربیت کے بعد پہلا مرحلہ فائن ٹیونز Qwen3 آن متنوع طویل CoT ڈیٹا، ریاضی، منطق پہیلیاں، اور کوڈنگ کے مسائل پر پھیلا ہوا ہے۔ یہ "کولڈ اسٹارٹ" مرحلہ ماڈل کی واضح استدلال کی صلاحیتوں کو کمک سیکھنے سے پہلے چھلانگ لگاتا ہے۔
استدلال کے لیے کمک سیکھنا
اسٹیج 2 کے لیے کمپیوٹ کو بڑھاتا ہے۔ اصول پر مبنی کمک سیکھنے (RL)، استدلال کے راستوں کی تلاش کی رہنمائی کے لئے دستکاری والے انعامی افعال کا استعمال کرتے ہوئے یہ ماڈل کی صلاحیت کو بہتر بناتا ہے کہ وہ کام سے ہٹے بغیر مربوط انٹرمیڈیٹ اقدامات پیدا کرے۔
تھنکنگ موڈ فیوژن اور جنرل آر ایل
اسٹیج 3 میں، استدلال اور ہدایات کے مطابق ڈیٹا ملا دیا جاتا ہے۔سوچ موڈ فیوژنمندرجہ ذیل عمومی ہدایات کے ساتھ گہری استدلال کو ملانا۔ آخر میں، مرحلہ 4 RL کو 20+ عمومی ڈومین کاموں پر لاگو کرتا ہے (مثال کے طور پر، فارمیٹ کی پابندی، ایجنٹ کے افعال)، ناپسندیدہ رویوں کو درست کرنا اور روانی کو چمکانا۔
Qwen3 Qwen2.5 سے کیسے مختلف ہے؟
جبکہ Qwen2.5 نے کھلے LLMs میں علی بابا کی قیادت قائم کی، Qwen3 کئی اہم اضافہ لاتا ہے:
| نمایاں کریں | Qwen2.5 | Qwen3 |
|---|---|---|
| پیرامیٹر ترازو | 72B تک (گھنا) | 235B (MoE) تک + گھنے اختیارات |
| سیاق و سباق کی کھڑکی | 16K ٹوکن | 128K ٹوکن (زیادہ تر قسمیں) |
| زبان کی کوریج | 29 زبانوں | 119 زبانیں اور بولیاں |
| استدلال انضمام | علیحدہ استدلال ماڈل | متحد سوچ/غیر سوچنے کے طریقے |
| کھلے وزن کی دستیابی | ہاں (Apache 2.0) | ہاں (Apache 2.0) |
یہ اپ گریڈ زیادہ ورسٹائل، درست، اور عالمی سطح پر قابل رسائی ماڈلز میں ترجمہ کرتے ہیں۔
ریئل ٹائم تعیناتی کے لیے Qwen3 کو کس طرح بہتر بنایا گیا ہے؟
تربیت کے علاوہ، Qwen3 کی انجینئرنگ پروڈکشن گریڈ ایجنٹس اور copilots کو سپورٹ کرنے کے لیے کم تاخیر کے تخمینے اور توسیع پذیر تعیناتی پر زور دیتی ہے۔
Cerebras پر ہارڈ ویئر ایکسلریشن
Cerebras نے Qwen3-32B کے ساتھ ریئل ٹائم استدلال کا مظاہرہ کیا ہے، جو کہ 1.2 سیکنڈ کے اندر جوابات فراہم کرتا ہے- تقابلی استدلال کے ماڈلز کے مقابلے میں 60× تک تیز- اپنے ویفر اسکیل انجن اور Qwen3 کے فن تعمیر کے لیے موزوں خصوصی انفرنس کرنل کا فائدہ اٹھا کر۔
کلاؤڈ تعیناتی اور API کی تیاری
علی بابا کلاؤڈ Qwen3 کو اپنے API سوٹ کے ذریعے پیش کرتا ہے، جس میں آٹو اسکیلنگ GPU کلسٹرز اور inference-optimized CPU نوڈس ہیں۔ ڈویلپرز وسائل کی کھپت کو کم کرنے کے لیے بلٹ ان LoRA سپورٹ کا استعمال کرتے ہوئے Qwen3 ویریئنٹس کو ٹھیک اور تعینات کر سکتے ہیں، جس سے بڑے پیمانے پر AI خدمات کو لاگت سے موثر اور قابل رسائی بنایا جا سکتا ہے۔
ڈویلپرز Qwen3 کا فائدہ کیسے اٹھا سکتے ہیں؟
علی بابا نے Qwen3 کے تحت جاری کیا ہے۔ اپاچی 2.0 لائسنس، عالمی ریسرچ کمیونٹی اور انٹرپرائز ڈویلپرز کو خصوصی ایپلی کیشنز کے لیے ماڈل فیملی کو اپنانے، ڈھالنے اور توسیع دینے کی دعوت دیتا ہے۔
کون سی قسمیں دستیاب ہیں؟
- گھنے ماڈلز (0.6B, 3B, 22B, 32B)
آن پریمیس تعیناتیوں اور کنارے کے منظرناموں کے لیے مثالی، یہ مختلف قسمیں سیدھے سادے انضمام کے ساتھ مضبوط صلاحیتیں فراہم کرتی ہیں۔ - MoE ماڈلز (235B کل پیرامیٹرز؛ 22B فعال)
ہائی تھرو پٹ کلاؤڈ سروسز کے لیے ڈیزائن کیا گیا، یہ بڑی کنفیگریشنز زیادہ سے زیادہ استدلال کی گہرائی اور کثیر لسانی روانی فراہم کرتی ہیں اور وسائل کے بہتر استعمال کے ساتھ۔
API اور آن پریمائز آپشنز کیسے مختلف ہیں؟
ڈویلپرز کے درمیان انتخاب کر سکتے ہیں:
- علی بابا کلاؤڈ API: آٹو اسکیلنگ کے ساتھ ایک منظم اختتامی نقطہ، تیز رفتار پروٹو ٹائپنگ اور عالمی تقسیم کو قابل بناتا ہے۔
- خود میزبان تعیناتی: Docker کنٹینرز اور Kubernetes مینی فیسٹ فراہم کیے گئے ہیں، جس سے تعمیل کرنے والے بھاری منظرناموں میں سہولت فراہم کی جاتی ہے جہاں ڈیٹا کی رہائش اور سیکیورٹی سب سے اہم ہے۔
- CometAPI: ڈویلپرز رسائی حاصل کر سکتے ہیں۔ Qwen 3 API کے ذریعے CometAPI. CometAPI ایک متحد REST انٹرفیس فراہم کرتا ہے جو سیکڑوں AI ماڈلز کو جمع کرتا ہے۔
کیا کمیونٹی اور ایکو سسٹم سپورٹ موجود ہے؟
- اوپن سورس ریپوزٹری: Qwen GitHub ماڈل وزن، تربیتی اسکرپٹس، اور فائن ٹیوننگ ٹول کٹس کی میزبانی کرتا ہے، جو کمیونٹی سے چلنے والی اختراع کی حوصلہ افزائی کرتا ہے۔
- پری بلٹ انٹیگریشنز: مقبول ML فریم ورکس (TensorFlow، PyTorch) اور فریق ثالث پلیٹ فارمز (LangChain، Hugging Face) کے لیے پلگ انز وقت کی قدر کو تیز کرتے ہیں۔
- تحقیقی تعاون: علی بابا نے arXiv پر مکمل Qwen3 تکنیکی رپورٹ شائع کی ہے، جس میں تعمیراتی فیصلوں اور تربیت کے طریقہ کار میں شفافیت کی پیشکش کی گئی ہے۔
بڑے پیمانے پر، ملٹی اسٹیج پری ٹریننگ، تعمیراتی پیش رفت، اور ایک جدید ترین پوسٹ ٹریننگ پائپ لائن کے ذریعے، Qwen3 ہائبرڈ استدلال میں ایک نیا معیار حاصل کرتا ہے۔ اس کے لچکدار سوچنے کے طریقے، موثر MoE متغیرات، اور بھرپور تعیناتی ماحولیاتی نظام اسے اوپن سورس AI میں سب سے آگے رکھتا ہے، محققین اور ڈویلپرز کو ذہین ایجنٹوں کی اگلی نسل تیار کرنے کے لیے بااختیار بناتا ہے۔
شروع
CometAPI ایک متحد REST انٹرفیس فراہم کرتا ہے جو سیکڑوں AI ماڈلز کو جمع کرتا ہے — ایک مستقل اختتامی نقطہ کے تحت، بلٹ ان API-کی مینجمنٹ، استعمال کوٹہ، اور بلنگ ڈیش بورڈز کے ساتھ۔ متعدد وینڈر یو آر ایل اور اسناد کو جگانے کے بجائے۔
ڈویلپرز رسائی حاصل کر سکتے ہیں۔ Qwen 3 API کے ذریعے CometAPIشروع کرنے کے لیے، پلے گراؤنڈ میں ماڈل کی صلاحیتوں کو دریافت کریں اور اس سے مشورہ کریں۔ API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔
