Seed 1.8 API کی تکنیکی خصوصیات
| آئٹم | خصوصیات / نوٹ |
|---|---|
| ماڈل کا نام / خاندان | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| حمایت یافتہ موڈالٹیز | Text, images, video (multimodal VLM capabilities), audio tooling in ecosystem (separate models for audio/video generation). |
| کانٹیکسٹ ونڈو (متن) | 256K tokens |
| ویڈیو / بصری صلاحیت | طویل ویڈیو استدلال کے لیے ڈیزائن کیا گیا، مؤثر بصری اینکوڈنگ اور بڑے ویڈیو ٹوکن بجٹس کی حمایت کرتا ہے (model card میں ویڈیو ٹوکن تجربات اور طویل ویڈیو بینچ مارکس کی رپورٹ موجود ہے)۔ |
| ان پٹ فارمیٹس | Free-text prompts; image uploads (screenshots, charts, photos); video as tokenized frames / video tools for segment inspection; file uploads (documents). |
| آؤٹ پٹ فارمیٹس | Natural-language text, structured outputs (structured-output beta), function calls / tool calls, code, and multimodal outputs via orchestration. |
| سوچ / انفرنس موڈز | no_think, think-low, think-medium, think-high — درستگی اور تاخیر/لاگت کے درمیان توازن۔ |
Doubao Seed 1.8 کیا ہے؟
Doubao Seed 1.8 Seed ٹیم کی 1.8 ریلیز ہے: ایک متحد LLM+VLM جو واضح طور پر generalized real-world agency کو ہدف بناتا ہے — یعنی ادراک (images/video)، استدلال، ٹول آرکسٹریشن (search، function calls، code execution، GUI grounding) اور ایک ہی ماڈل کے اندر کثیر مرحلہ فیصلہ سازی۔ ڈیزائن میں قابلِ ترتیب “thinking modes” (تاخیر اور گہرائی کے درمیان توازن)، مؤثر بصری اینکوڈنگ اور طویل کانٹیکسٹ و ملٹی موڈل ان پٹ کی نیٹو سپورٹ پر زور دیا گیا ہے تاکہ ماڈل پروڈکشن ورک فلو میں ایک خود مختار assistant/agent کے طور پر کام کر سکے۔
Seed 1.8 API کی اہم خصوصیات
- متحد ملٹی موڈل ایجنٹک ماڈل۔ ادراک (image/video)، استدلال (LLM)، اور ایکشن (tool/G U I calls، code execution) کو ایک ہی ماڈل میں ضم کرتا ہے بجائے اس کے کہ علیحدہ پائپ لائن ہو۔ یہ کمپیکٹ ایجنٹ ورک فلو اور کم آرکسٹریشن پیچیدگی ممکن بناتا ہے۔
- انتہائی طویل کانٹیکسٹ اور طویل ویڈیو ہینڈلنگ۔ طویل کانٹیکسٹ (پروڈکٹ سپورٹ 256k tokens تک) اور مخصوص طویل ویڈیو بینچ مارکس (Seed1.8 طویل ویڈیو ٹوکن مؤثریت میں مضبوط دکھاتا ہے)۔ ماڈل منتخب ویڈیو ٹولز (VideoCut) کی سپورٹ کرتا ہے تاکہ استدلال کو ٹائم اسٹیمپس پر مرکوز کیا جا سکے۔
- ایجنٹک GUI آٹومیشن اور ٹول استعمال۔ بینچ مارکس اور اندرونی ٹیسٹس (OSWorld، AndroidWorld، LiveCodeBench، GUI grounding بینچ مارکس) GUI ایجنٹ ٹاسکس اور کثیر مرحلہ آٹومیشن میں بہتری دکھاتے ہیں۔ ماڈل GUI گراؤنڈنگ کمانڈز آؤٹ پٹ کر سکتا ہے اور سمولیٹیڈ OS/web/mobile کانٹیکسٹس میں کام کر سکتا ہے۔
- لیٹنسی/لاگت کنٹرول کے لیے قابلِ ترتیب سوچ موڈز۔ چار انفرنس موڈز ڈیویلپرز کو انٹرایکٹو بمقابلہ ہائی کوالٹی بیچ ٹاسکس کے لیے ٹیسٹ ٹائم پر کمپیوٹ ٹیون کرنے دیتے ہیں۔ یہ سخت لیٹنسی بجٹس والے پروڈکشن سسٹمز کے لیے مفید ہے۔
- بہتر ٹوکن مؤثریت (ملٹی موڈل)۔ Seed 1.8 ملٹی موڈل بینچ مارکس پر اپنے پیش رو (Seed-1.5/1.6 سیریز) کے مقابلے مضبوط ٹوکن مؤثریت دکھاتا ہے، اور کئی طویل ویڈیو ٹاسکس میں کم ٹوکن بجٹس کے ساتھ بلند درستی حاصل کرتا ہے۔
- قابلِ ترتیب سوچ موڈز: انفرنس کی گہرائی بمقابلہ لیٹنسی/لاگت میں توازن کے لیے مختلف موڈز (
no_think→think-high)، تاکہ انٹرایکٹو پروڈکشن استعمال کے لیے ٹیون کیا جا سکے۔ - تکنیکی صلاحیتیں
- ٹوکن مؤثریت: Seed1.8 نے Seed-1.5/1.6 کے مقابلے واضح ٹوکن مؤثریت دکھائی، طویل ویڈیو ٹاسکس پر کم ٹوکن بجٹس کے ساتھ زیادہ درستی دی (مثال کے طور پر 32K ویڈیو ٹوکنز پر بھی مسابقتی درستی)۔ یہ طویل ان پٹ کے لیے کم انفرنس لاگت ممکن بناتا ہے۔
- ملٹی موڈل استدلال و ادراک: ماڈل نے متعدد multi-image VQA اور موشن/ادراک ٹاسکس میں SOTA حاصل کیا اور کئی ملٹی موڈل استدلال بینچ مارکس پر دوسری پوزیشن یا SOTA کے قریب رہا؛ خاص طور پر بصری/ویڈیو جہتوں کے تقریباً ہر پیمانے پر اپنے پیش رو سے آگے رہا۔
- ایجنٹک ٹول استعمال اور GUI گراؤنڈنگ: اسکرین بیسڈ آپریشن بینچ مارکس (ScreenSpot-Pro، GUI agenting) پر GUI گراؤنڈنگ کی دستاویزی سپورٹ، مضبوط گراؤنڈنگ اسکورز کے ساتھ (مثلاً Seed-1.5-VL پر ScreenSpot-Pro میں بہتری)۔
- متوازی / مرحلہ وار استدلال: ٹیسٹ ٹائم کمپیوٹ میں اضافہ (parallel thinking) ریاضی، کوڈنگ، اور ملٹی موڈل استدلال بینچ مارکس پر قابلِ پیمائش بہتری لاتا ہے۔
Seed1.8 کی منتخب عوامی بینچ مارک نمایاں جھلکیاں
- VCRBench (visual commonsense reasoning): Seed1.8 نے 59.8 اسکور کیا (Pass@1 ماڈل کارڈ ٹیبل میں رپورٹ کے مطابق)، جو Seed-1.5-VL پر بہتری ہے اور ٹاپ ماڈلز کے مقابلے میں مسابقتی ہے۔
- VideoHolmes (video reasoning): Seed1.8 65.5، Seed-1.5-VL سے بہتر اور پرو گریڈ مدمقابل ماڈلز کے قریب۔
- MMLB-NIAH (ملٹی موڈل طویل کانٹیکسٹ، 128k): Seed1.8 نے 128k کانٹیکسٹ پر 72.2 Pass@1 حاصل کیا، کچھ ہم عصر پرو ماڈلز سے آگے۔
- Motion & Perception suite: 6 میں سے 5 زیرِ جائزہ ٹاسکس میں SOTA؛ مثالیں: TVBench، TempCompass اور TOMATO جہاں Seed1.8 نے زمانی ادراک میں نمایاں بہتری دکھائی۔
- Agentic workflows: BrowseComp اور دیگر ایجنٹک سرچ/کوڈ بینچ مارکس پر Seed1.8 اکثر مقابل حریف پرو ماڈلز کے برابر یا ان سے اوپر رہا۔
Seed 1.8 بمقابلہ Gemini 3 Pro / GPT-5.x
- Seed1.8 بمقابلہ Seed-1.5-VL / Seed-1.6: ملٹی موڈل ادراک، طویل ویڈیوز کے لیے ٹوکن مؤثریت، اور ایجنٹک اجرا میں واضح بہتری۔
- Seed1.8 بمقابلہ Gemini 3 Pro / GPT-5.x: کئی ملٹی موڈل بینچ مارکس پر Seed1.8 نے Gemini 3 Pro کو یا تو میچ کیا یا پیچھے چھوڑا (متعدد VQA/موشن ٹاسکس پر SOTA؛ MMLB-NIAH 128k رن پر بہتر)۔ تاہم کارڈ یہ بھی دکھاتا ہے کہ بعض مضامینی علم کے ٹاسکس پر Gemini فیملی ماڈلز کو برتری حاصل رہتی ہے — لہٰذا نسبتی درجہ بندی بینچ مارک پر منحصر ہے۔
- Seed-Code ویریئنٹ (Doubao-Seed-Code): پروگرامنگ/ایجنٹک کوڈ ٹاسکس کے لیے مخصوص (بڑے کانٹیکسٹ کے ساتھ کوڈ بیسز؛ مخصوص SWE بینچ مارکس)۔ Seed1.8 ایک جنرلِسٹ ایجنٹک ملٹی موڈل ماڈل ہے، جبکہ Seed-Code پروگرامنگ پر مرکوز ویریئنٹ ہے۔
CometAPI پر Seedream 4.5 API کے عملی استعمال
- ملٹی موڈل ریسرچ اسسٹنٹس اور دستاویزی تجزیہ: طویل دستاویزات، سلائیڈ ڈیکس، اور کثیر صفحات پر مشتمل رپورٹس سے اخذ، خلاصہ اور بین المتنی استدلال۔
- طویل ویڈیو تفہیم اور مانیٹرنگ: سکیورٹی/اسپورٹس براڈ کاسٹنگ اینالیٹکس، طویل میٹنگ خلاصہ، اور اسٹریمنگ تجزیہ جہاں ماڈل کی طویل ویڈیو ٹوکن مؤثریت اہمیت رکھتی ہے۔
- ایجنٹک ورک فلو / آٹومیشن: کثیر مرحلہ ویب سرچ + کوڈ اجرا + ڈیٹا استخراج منظرنامے (مثلاً اندرونی بینچ مارکس میں دکھائے گئے خودکار مقابلتی تجزیے، ٹریول پلاننگ، ریسرچ پائپ لائنز)۔
- ڈیویلپر ٹولنگ (Seed-Code استعمال کرنے کی صورت میں): بڑے کوڈ بیس کا تجزیہ، IDE اسسٹنٹس، اور ٹیسٹنگ و مرمت کے لیے ایجنٹک کوڈ اجرا (Seed-Code اس مقصد کے لیے تجویز کردہ مخصوص ویریئنٹ ہے)۔
- GUI آٹومیشن اور RPA: اسکرین گراؤنڈنگ اور GUI ایجنٹ بینچ مارکس اشارہ دیتے ہیں کہ ماڈل ساختہ GUI ٹاسکس سابقہ Seed ریلیز کے مقابلے بہتر طور پر انجام دے سکتا ہے۔
CometAPI کے ذریعے doubao Seed 1.8 API کا استعمال کیسے کریں
Doubao seed1.8 اب CometAPI کے ذریعے کمرشل طور پر ایک hosted inference API کی صورت میں دستیاب ہے۔ یہ API ملٹی موڈل پیلوڈز (text + images + video fragments / timestamps) اور قابلِ ترتیب انفرنس موڈز کی حمایت کرتی ہے تاکہ لیٹنسی اور کمپیوٹ کو جواب کے معیار کے خلاف متوازن کیا جا سکے۔
کال پیٹرنز: API معیاری chat/completion طرز کی درخواستیں، اسٹریمنگ رسپانسز، اور ایجنٹک فلو کی حمایت کرتی ہے جہاں ماڈل ٹول کالز (search، code execution، GUI actions) جاری کرتا ہے اور اگلے کانٹیکسٹ میں ٹول آؤٹ پٹس کو انجیسٹ کرتا ہے۔
اسٹریمنگ اور طویل کانٹیکسٹ ہینڈلنگ: API اسٹریمنگ کی حمایت کرتی ہے اور طویل سیشنز کے لیے بلٹ اِن کانٹیکسٹ مینجمنٹ پرائمِٹوز رکھتی ہے (100K+ کانٹیکسٹس / کثیر مرحلہ ایجنٹ ٹریسز کو ممکن بنانے کے لیے)۔
مرحلہ 1: API Key کے لیے سائن اپ کریں
cometapi.com میں لاگ اِن کریں۔ اگر آپ ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI کنسول میں سائن اِن کریں۔ انٹرفیس کی رسائی کے لیے API key حاصل کریں۔ پرسنل سینٹر میں API token پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کریں۔

مرحلہ 2: doubao Seed 1.8 API کو درخواست بھیجیں
“doubao-seed-1-8-251228 ” اینڈ پوائنٹ منتخب کریں تاکہ API درخواست بھیجی جا سکے اور request body سیٹ کریں۔ request method اور request body ہماری ویب سائٹ کے API ڈاک سے حاصل کیے جا سکتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ سے اصل CometAPI key سے بدلیں۔ Chat APIs کے ساتھ مطابقت۔
اپنا سوال یا درخواست content فیلڈ میں درج کریں — ماڈل اسی کا جواب دے گا۔ API رسپانس کو پروسیس کریں تاکہ جنریٹڈ جواب حاصل ہو سکے۔
مرحلہ 3: نتائج بازیافت کریں اور تصدیق کریں
API رسپانس کو پروسیس کریں تاکہ جنریٹڈ جواب حاصل ہو سکے۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔