Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

ان پٹ:$0.2/M
آؤٹ پٹ:$1.6/M
سیاق و سباق:256k
زیادہ سے زیادہ آؤٹ پٹ:224k
Doubao-Seed-1.8 کو ملٹی موڈل ایجنٹ کے منظرناموں کے لیے بہتر بنایا گیا ہے۔ ایجنٹ کی صلاحیتوں کے لحاظ سے، ٹول کے استعمال اور پیچیدہ کمانڈز پر عمل درآمد میں نمایاں بہتری آئی ہے۔ ملٹی موڈل فہم کے حوالے سے، بنیادی بصری صلاحیتیں نمایاں طور پر بہتر ہوئی ہیں، جس سے انتہائی طویل ویڈیوز کو کم فریم ریٹ پر سمجھنا ممکن ہو گیا ہے۔ ویڈیو میں حرکت کی تفہیم، پیچیدہ مکانی سمجھ، اور دستاویز کی ساخت کی پارسنگ کی صلاحیتیں بھی بہتر کی گئی ہیں، اور ذہین کانٹیکسٹ مینیجمنٹ اب نیٹو سپورٹ کے ساتھ دستیاب ہے، جس کے ذریعے صارفین کانٹیکسٹ حکمتِ عملیاں ترتیب دے سکتے ہیں۔
نیا
تجارتی استعمال
Playground
خلاصہ
خصوصیات
قیمت
API

Seed 1.8 API کی تکنیکی خصوصیات

آئٹمخصوصیات / نوٹ
ماڈل کا نام / خاندانDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
حمایت یافتہ موڈالٹیزText, images, video (multimodal VLM capabilities), audio tooling in ecosystem (separate models for audio/video generation).
کانٹیکسٹ ونڈو (متن)256K tokens
ویڈیو / بصری صلاحیتطویل ویڈیو استدلال کے لیے ڈیزائن کیا گیا، مؤثر بصری اینکوڈنگ اور بڑے ویڈیو ٹوکن بجٹس کی حمایت کرتا ہے (model card میں ویڈیو ٹوکن تجربات اور طویل ویڈیو بینچ مارکس کی رپورٹ موجود ہے)۔
ان پٹ فارمیٹسFree-text prompts; image uploads (screenshots, charts, photos); video as tokenized frames / video tools for segment inspection; file uploads (documents).
آؤٹ پٹ فارمیٹسNatural-language text, structured outputs (structured-output beta), function calls / tool calls, code, and multimodal outputs via orchestration.
سوچ / انفرنس موڈزno_think, think-low, think-medium, think-high — درستگی اور تاخیر/لاگت کے درمیان توازن۔

Doubao Seed 1.8 کیا ہے؟

Doubao Seed 1.8 Seed ٹیم کی 1.8 ریلیز ہے: ایک متحد LLM+VLM جو واضح طور پر generalized real-world agency کو ہدف بناتا ہے — یعنی ادراک (images/video)، استدلال، ٹول آرکسٹریشن (search، function calls، code execution، GUI grounding) اور ایک ہی ماڈل کے اندر کثیر مرحلہ فیصلہ سازی۔ ڈیزائن میں قابلِ ترتیب “thinking modes” (تاخیر اور گہرائی کے درمیان توازن)، مؤثر بصری اینکوڈنگ اور طویل کانٹیکسٹ و ملٹی موڈل ان پٹ کی نیٹو سپورٹ پر زور دیا گیا ہے تاکہ ماڈل پروڈکشن ورک فلو میں ایک خود مختار assistant/agent کے طور پر کام کر سکے۔

Seed 1.8 API کی اہم خصوصیات

  1. متحد ملٹی موڈل ایجنٹک ماڈل۔ ادراک (image/video)، استدلال (LLM)، اور ایکشن (tool/G U I calls، code execution) کو ایک ہی ماڈل میں ضم کرتا ہے بجائے اس کے کہ علیحدہ پائپ لائن ہو۔ یہ کمپیکٹ ایجنٹ ورک فلو اور کم آرکسٹریشن پیچیدگی ممکن بناتا ہے۔
  2. انتہائی طویل کانٹیکسٹ اور طویل ویڈیو ہینڈلنگ۔ طویل کانٹیکسٹ (پروڈکٹ سپورٹ 256k tokens تک) اور مخصوص طویل ویڈیو بینچ مارکس (Seed1.8 طویل ویڈیو ٹوکن مؤثریت میں مضبوط دکھاتا ہے)۔ ماڈل منتخب ویڈیو ٹولز (VideoCut) کی سپورٹ کرتا ہے تاکہ استدلال کو ٹائم اسٹیمپس پر مرکوز کیا جا سکے۔
  3. ایجنٹک GUI آٹومیشن اور ٹول استعمال۔ بینچ مارکس اور اندرونی ٹیسٹس (OSWorld، AndroidWorld، LiveCodeBench، GUI grounding بینچ مارکس) GUI ایجنٹ ٹاسکس اور کثیر مرحلہ آٹومیشن میں بہتری دکھاتے ہیں۔ ماڈل GUI گراؤنڈنگ کمانڈز آؤٹ پٹ کر سکتا ہے اور سمولیٹیڈ OS/web/mobile کانٹیکسٹس میں کام کر سکتا ہے۔
  4. لیٹنسی/لاگت کنٹرول کے لیے قابلِ ترتیب سوچ موڈز۔ چار انفرنس موڈز ڈیویلپرز کو انٹرایکٹو بمقابلہ ہائی کوالٹی بیچ ٹاسکس کے لیے ٹیسٹ ٹائم پر کمپیوٹ ٹیون کرنے دیتے ہیں۔ یہ سخت لیٹنسی بجٹس والے پروڈکشن سسٹمز کے لیے مفید ہے۔
  5. بہتر ٹوکن مؤثریت (ملٹی موڈل)۔ Seed 1.8 ملٹی موڈل بینچ مارکس پر اپنے پیش رو (Seed-1.5/1.6 سیریز) کے مقابلے مضبوط ٹوکن مؤثریت دکھاتا ہے، اور کئی طویل ویڈیو ٹاسکس میں کم ٹوکن بجٹس کے ساتھ بلند درستی حاصل کرتا ہے۔
  6. قابلِ ترتیب سوچ موڈز: انفرنس کی گہرائی بمقابلہ لیٹنسی/لاگت میں توازن کے لیے مختلف موڈز (no_think → think-high)، تاکہ انٹرایکٹو پروڈکشن استعمال کے لیے ٹیون کیا جا سکے۔
  7. تکنیکی صلاحیتیں
  • ٹوکن مؤثریت: Seed1.8 نے Seed-1.5/1.6 کے مقابلے واضح ٹوکن مؤثریت دکھائی، طویل ویڈیو ٹاسکس پر کم ٹوکن بجٹس کے ساتھ زیادہ درستی دی (مثال کے طور پر 32K ویڈیو ٹوکنز پر بھی مسابقتی درستی)۔ یہ طویل ان پٹ کے لیے کم انفرنس لاگت ممکن بناتا ہے۔
  • ملٹی موڈل استدلال و ادراک: ماڈل نے متعدد multi-image VQA اور موشن/ادراک ٹاسکس میں SOTA حاصل کیا اور کئی ملٹی موڈل استدلال بینچ مارکس پر دوسری پوزیشن یا SOTA کے قریب رہا؛ خاص طور پر بصری/ویڈیو جہتوں کے تقریباً ہر پیمانے پر اپنے پیش رو سے آگے رہا۔
  • ایجنٹک ٹول استعمال اور GUI گراؤنڈنگ: اسکرین بیسڈ آپریشن بینچ مارکس (ScreenSpot-Pro، GUI agenting) پر GUI گراؤنڈنگ کی دستاویزی سپورٹ، مضبوط گراؤنڈنگ اسکورز کے ساتھ (مثلاً Seed-1.5-VL پر ScreenSpot-Pro میں بہتری)۔
  • متوازی / مرحلہ وار استدلال: ٹیسٹ ٹائم کمپیوٹ میں اضافہ (parallel thinking) ریاضی، کوڈنگ، اور ملٹی موڈل استدلال بینچ مارکس پر قابلِ پیمائش بہتری لاتا ہے۔

Seed1.8 کی منتخب عوامی بینچ مارک نمایاں جھلکیاں

  • VCRBench (visual commonsense reasoning): Seed1.8 نے 59.8 اسکور کیا (Pass@1 ماڈل کارڈ ٹیبل میں رپورٹ کے مطابق)، جو Seed-1.5-VL پر بہتری ہے اور ٹاپ ماڈلز کے مقابلے میں مسابقتی ہے۔
  • VideoHolmes (video reasoning): Seed1.8 65.5، Seed-1.5-VL سے بہتر اور پرو گریڈ مدمقابل ماڈلز کے قریب۔
  • MMLB-NIAH (ملٹی موڈل طویل کانٹیکسٹ، 128k): Seed1.8 نے 128k کانٹیکسٹ پر 72.2 Pass@1 حاصل کیا، کچھ ہم عصر پرو ماڈلز سے آگے۔
  • Motion & Perception suite: 6 میں سے 5 زیرِ جائزہ ٹاسکس میں SOTA؛ مثالیں: TVBench، TempCompass اور TOMATO جہاں Seed1.8 نے زمانی ادراک میں نمایاں بہتری دکھائی۔
  • Agentic workflows: BrowseComp اور دیگر ایجنٹک سرچ/کوڈ بینچ مارکس پر Seed1.8 اکثر مقابل حریف پرو ماڈلز کے برابر یا ان سے اوپر رہا۔

Seed 1.8 بمقابلہ Gemini 3 Pro / GPT-5.x

  • Seed1.8 بمقابلہ Seed-1.5-VL / Seed-1.6: ملٹی موڈل ادراک، طویل ویڈیوز کے لیے ٹوکن مؤثریت، اور ایجنٹک اجرا میں واضح بہتری۔
  • Seed1.8 بمقابلہ Gemini 3 Pro / GPT-5.x: کئی ملٹی موڈل بینچ مارکس پر Seed1.8 نے Gemini 3 Pro کو یا تو میچ کیا یا پیچھے چھوڑا (متعدد VQA/موشن ٹاسکس پر SOTA؛ MMLB-NIAH 128k رن پر بہتر)۔ تاہم کارڈ یہ بھی دکھاتا ہے کہ بعض مضامینی علم کے ٹاسکس پر Gemini فیملی ماڈلز کو برتری حاصل رہتی ہے — لہٰذا نسبتی درجہ بندی بینچ مارک پر منحصر ہے۔
  • Seed-Code ویریئنٹ (Doubao-Seed-Code): پروگرامنگ/ایجنٹک کوڈ ٹاسکس کے لیے مخصوص (بڑے کانٹیکسٹ کے ساتھ کوڈ بیسز؛ مخصوص SWE بینچ مارکس)۔ Seed1.8 ایک جنرلِسٹ ایجنٹک ملٹی موڈل ماڈل ہے، جبکہ Seed-Code پروگرامنگ پر مرکوز ویریئنٹ ہے۔

CometAPI پر Seedream 4.5 API کے عملی استعمال

  • ملٹی موڈل ریسرچ اسسٹنٹس اور دستاویزی تجزیہ: طویل دستاویزات، سلائیڈ ڈیکس، اور کثیر صفحات پر مشتمل رپورٹس سے اخذ، خلاصہ اور بین المتنی استدلال۔
  • طویل ویڈیو تفہیم اور مانیٹرنگ: سکیورٹی/اسپورٹس براڈ کاسٹنگ اینالیٹکس، طویل میٹنگ خلاصہ، اور اسٹریمنگ تجزیہ جہاں ماڈل کی طویل ویڈیو ٹوکن مؤثریت اہمیت رکھتی ہے۔
  • ایجنٹک ورک فلو / آٹومیشن: کثیر مرحلہ ویب سرچ + کوڈ اجرا + ڈیٹا استخراج منظرنامے (مثلاً اندرونی بینچ مارکس میں دکھائے گئے خودکار مقابلتی تجزیے، ٹریول پلاننگ، ریسرچ پائپ لائنز)۔
  • ڈیویلپر ٹولنگ (Seed-Code استعمال کرنے کی صورت میں): بڑے کوڈ بیس کا تجزیہ، IDE اسسٹنٹس، اور ٹیسٹنگ و مرمت کے لیے ایجنٹک کوڈ اجرا (Seed-Code اس مقصد کے لیے تجویز کردہ مخصوص ویریئنٹ ہے)۔
  • GUI آٹومیشن اور RPA: اسکرین گراؤنڈنگ اور GUI ایجنٹ بینچ مارکس اشارہ دیتے ہیں کہ ماڈل ساختہ GUI ٹاسکس سابقہ Seed ریلیز کے مقابلے بہتر طور پر انجام دے سکتا ہے۔

CometAPI کے ذریعے doubao Seed 1.8 API کا استعمال کیسے کریں

Doubao seed1.8 اب CometAPI کے ذریعے کمرشل طور پر ایک hosted inference API کی صورت میں دستیاب ہے۔ یہ API ملٹی موڈل پیلوڈز (text + images + video fragments / timestamps) اور قابلِ ترتیب انفرنس موڈز کی حمایت کرتی ہے تاکہ لیٹنسی اور کمپیوٹ کو جواب کے معیار کے خلاف متوازن کیا جا سکے۔

کال پیٹرنز: API معیاری chat/completion طرز کی درخواستیں، اسٹریمنگ رسپانسز، اور ایجنٹک فلو کی حمایت کرتی ہے جہاں ماڈل ٹول کالز (search، code execution، GUI actions) جاری کرتا ہے اور اگلے کانٹیکسٹ میں ٹول آؤٹ پٹس کو انجیسٹ کرتا ہے۔

اسٹریمنگ اور طویل کانٹیکسٹ ہینڈلنگ: API اسٹریمنگ کی حمایت کرتی ہے اور طویل سیشنز کے لیے بلٹ اِن کانٹیکسٹ مینجمنٹ پرائمِٹوز رکھتی ہے (100K+ کانٹیکسٹس / کثیر مرحلہ ایجنٹ ٹریسز کو ممکن بنانے کے لیے)۔

مرحلہ 1: API Key کے لیے سائن اپ کریں

cometapi.com میں لاگ اِن کریں۔ اگر آپ ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI کنسول میں سائن اِن کریں۔ انٹرفیس کی رسائی کے لیے API key حاصل کریں۔ پرسنل سینٹر میں API token پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کریں۔

Flux.2 Flex API

مرحلہ 2: doubao Seed 1.8 API کو درخواست بھیجیں

“doubao-seed-1-8-251228 ” اینڈ پوائنٹ منتخب کریں تاکہ API درخواست بھیجی جا سکے اور request body سیٹ کریں۔ request method اور request body ہماری ویب سائٹ کے API ڈاک سے حاصل کیے جا سکتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ سے اصل CometAPI key سے بدلیں۔ Chat APIs کے ساتھ مطابقت۔

اپنا سوال یا درخواست content فیلڈ میں درج کریں — ماڈل اسی کا جواب دے گا۔ API رسپانس کو پروسیس کریں تاکہ جنریٹڈ جواب حاصل ہو سکے۔

مرحلہ 3: نتائج بازیافت کریں اور تصدیق کریں

API رسپانس کو پروسیس کریں تاکہ جنریٹڈ جواب حاصل ہو سکے۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔

اکثر پوچھے جانے والے سوالات

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Doubao-Seed-1.8 کے لیے خصوصیات

[ماڈل کا نام] کی اہم خصوصیات دریافت کریں، جو کارکردگی اور قابل استعمال کو بہتر بنانے کے لیے ڈیزائن کی گئی ہیں۔ جانیں کہ یہ صلاحیتیں آپ کے منصوبوں کو کیسے فائدہ پہنچا سکتی ہیں اور صارف کے تجربے کو بہتر بنا سکتی ہیں۔

Doubao-Seed-1.8 کی قیمتیں

[ماڈل کا نام] کے لیے مسابقتی قیمتوں کو دریافت کریں، جو مختلف بجٹ اور استعمال کی ضروریات کے مطابق ڈیزائن کیا گیا ہے۔ ہمارے لچکدار منصوبے اس بات کو یقینی بناتے ہیں کہ آپ صرف اسی کے لیے ادائیگی کریں جو آپ استعمال کرتے ہیں، جس سے آپ کی ضروریات بڑھنے کے ساتھ ساتھ اسکیل کرنا آسان ہو جاتا ہے۔ دریافت کریں کہ [ماڈل کا نام] کیسے آپ کے پروجیکٹس کو بہتر بنا سکتا ہے جبکہ اخراجات کو قابو میں رکھتا ہے۔
Comet قیمت (USD / M Tokens)سرکاری قیمت (USD / M Tokens)رعایت
ان پٹ:$0.2/M
آؤٹ پٹ:$1.6/M
ان پٹ:$0.25/M
آؤٹ پٹ:$2/M
-20%

Doubao-Seed-1.8 کے لیے نمونہ کوڈ اور API

اب Doubao seed1.8 کو CometAPI کے ذریعے بطور ہوسٹڈ انفیرنس API تجارتی طور پر دستیاب کر دیا گیا ہے۔ یہ API ملٹی موڈل پیلوڈز (متن + تصاویر + ویڈیو کے حصے / ٹائم اسٹیمپس) اور قابلِ ترتیب انفیرنس موڈز کی سپورٹ کرتی ہے تاکہ جواب کے معیار کے مقابل تاخیر اور کمپیوٹ کے درمیان توازن قائم کیا جا سکے۔
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

مزید ماڈلز