المواصفات التقنية لواجهة برمجة تطبيقات Seed 1.8
| البند | المواصفات / ملاحظة |
|---|---|
| اسم النموذج / العائلة | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| الوسائط المدعومة | نص، صور، فيديو (قدرات VLM متعددة الوسائط)، أدوات صوت ضمن المنظومة (نماذج منفصلة لتوليد الصوت/الفيديو). |
| نافذة السياق (نص) | 256K tokens |
| قدرات الفيديو/الرؤية | مصمم للاستدلال على الفيديوهات الطويلة، يدعم ترميزاً بصرياً فعالاً وأرصدة كبيرة من رموز الفيديو (تعرض بطاقة النموذج تجارب رموز الفيديو ومعايير الفيديو الطويل). |
| صيغ الإدخال | مطالبات نصية حرّة؛ تحميل صور (لقطات شاشة، مخططات، صور فوتوغرافية)؛ فيديو على شكل إطارات مُرمَّزة/أدوات فيديو لفحص المقاطع؛ تحميل ملفات (مستندات). |
| صيغ الإخراج | نص باللغة الطبيعية، مخرجات مُهيكلة (structured-output beta)، استدعاءات دوال/أدوات، كود، ومخرجات متعددة الوسائط عبر التنسيق. |
| أوضاع التفكير/الاستدلال | no_think, think-low, think-medium, think-high — مفاضلة بين الدقة والزمن/الكلفة. |
ما هو Doubao Seed 1.8؟
Doubao Seed 1.8 هو إصدار فريق Seed رقم 1.8: نموذج موحّد يجمع LLM+VLM يستهدف صراحةً «الوكالة المعمّمة في العالم الحقيقي» — أي الإدراك (صور/فيديو)، الاستدلال، تنسيق الأدوات (بحث، استدعاءات دوال، تنفيذ كود، إسناد GUI) واتخاذ القرارات متعدد الخطوات داخل نموذج واحد. يركز التصميم على «أوضاع تفكير» قابلة للضبط (مفاضلة بين الكمون والعمق)، ترميز بصري فعّال ودعم أصيل للسياقات الطويلة والمدخلات متعددة الوسائط بحيث يمكن للنموذج العمل كمساعد/وكيل مستقل في خطوط عمل الإنتاج.
الميزات الرئيسية لواجهة Seed 1.8 API
- نموذج متعدد الوسائط موحّد قائم على الوكلاء. يدمج الإدراك (صورة/فيديو)، الاستدلال (LLM)، والعمل (استدعاءات أدوات/GUI، تنفيذ كود) في نموذج واحد بدلاً من خط أنابيب منفصل. يتيح ذلك سير عمل وكيل مدمجاً ويقلل تعقيد التنسيق.
- سياق فائق الطول ومعالجة الفيديو الطويل. سياق طويل (دعم المنتج حتى 256k رمز) ومعايير محددة للفيديو الطويل (Seed1.8 يظهر كفاءة قوية في رموز الفيديو الطويل). يدعم النموذج أدوات فيديو انتقائية (VideoCut) لتركيز الاستدلال على الطوابع الزمنية.
- أتمتة GUI قائمة على الوكلاء واستخدام الأدوات. تُظهر المعايير والاختبارات الداخلية (OSWorld وAndroidWorld وLiveCodeBench ومعايير إسناد GUI) تحسينات في مهام وكلاء GUI والأتمتة متعددة الخطوات. يمكن للنموذج إخراج أوامر إسناد GUI والعمل ضمن سياقات نظام تشغيل/ويب/هواتف محمولة مُحاكاة.
- أوضاع تفكير قابلة للتهيئة للتحكم بالكمون/الكلفة. تتيح أربعة أوضاع استدلال للمطورين ضبط الحوسبة أثناء الاختبار لمهام تفاعلية مقابل مهام دفعيّة عالية الجودة. يفيد ذلك الأنظمة الإنتاجية ذات قيود الكمون الصارمة.
- كفاءة رموز محسّنة (متعددة الوسائط). يُظهر Seed 1.8 كفاءة أقوى في الرموز على معايير متعددة الوسائط مقارنة بسابقيه (Seed-1.5/1.6)، محققاً دقة عالية بميزانيات رمزية أصغر في عدة مهام فيديو طويلة.
- أوضاع تفكير قابلة للتهيئة: مفاضلة عمق الاستدلال مقابل الكمون/الكلفة عبر أوضاع مميزة (
no_think→think-high) للضبط من أجل الاستخدام الإنتاجي التفاعلي. - القدرات التقنية
- كفاءة الرموز: يُظهر Seed1.8 كفاءة ملحوظة في الرموز مقابل سابقيه (Seed-1.5/1.6)، مقدماً دقة أقوى عند ميزانيات رمزية أقل في مهام الفيديو الطويل (مثلاً تحقيق دقة تنافسية حتى عند 32K رموز فيديو). يمكّن ذلك من خفض كلفة الاستدلال للمدخلات الطويلة.
- الاستدلال متعدد الوسائط والإدراك: يصل النموذج إلى SOTA في عدة مهام VQA متعددة الصور ومهام الحركة/الإدراك ويحصل على المركز الثاني أو قريب من SOTA في كثير من معايير الاستدلال متعددة الوسائط؛ تحديداً يتفوّق على سابقه في كل بُعد بصري/فيديو تقريباً تم قياسه.
- استخدام الأدوات القائم على الوكلاء وإسناد GUI: دعم موثق لإسناد GUI ومعايير التشغيل القائمة على الشاشة (ScreenSpot-Pro ووكالة GUI) مع درجات إسناد قوية (مثلاً تحسينات على Seed-1.5-VL في ScreenSpot-Pro).
- استدلال متوازي/متدرّج: زيادة الحوسبة أثناء الاختبار (تفكير متوازي) تحقق مكاسب قابلة للقياس في معايير الرياضيات والبرمجة والاستدلال متعدد الوسائط
أبرز معايير الأداء العلنية المختارة لـ Seed1.8
- VCRBench (الاستدلال البديهي البصري): حقق Seed1.8 درجة 59.8 (Pass@1 كما ورد في جدول بطاقة النموذج)، وهو تحسّن عن Seed-1.5-VL ومنافس للنماذج الأعلى
- VideoHolmes (استدلال الفيديو): حقق Seed1.8 65.5، متفوقاً على Seed-1.5-VL ومقترباً من نماذج احترافية منافسة.
- MMLB-NIAH (سياق متعدد الوسائط طويل، 128k): حقق Seed1.8 72.2 Pass@1 عند سياق 128k في MMLB-NIAH، متفوقاً على بعض النماذج الاحترافية المعاصرة.
- مجموعة الحركة والإدراك: SOTA في 5 من 6 مهام مُقيمة؛ أمثلة تشمل TVBench وTempCompass وTOMATO حيث يُظهر Seed1.8 مكاسب كبيرة في الإدراك الزمني.
- سير عمل قائمة على الوكلاء: في BrowseComp وغيرها من معايير البحث/البرمجة القائمة على الوكلاء، غالباً ما يحتل Seed1.8 مراكز قريبة أو أعلى من نماذج احترافية منافسة
Seed 1.8 مقابل Gemini 3 Pro / GPT-5.x
- Seed1.8 مقابل Seed-1.5-VL / Seed-1.6: تحسينات واضحة في الإدراك متعدد الوسائط، وكفاءة الرموز للفيديوهات الطويلة، والتنفيذ القائم على الوكلاء.
- Seed1.8 مقابل Gemini 3 Pro / GPT-5.x: على كثير من معايير متعددة الوسائط، يُضاهي أو يتفوّق Seed1.8 على Gemini 3 Pro (SOTA في عدة مهام VQA/الحركة؛ أفضل في تشغيل MMLB-NIAH بسياق 128k). ومع ذلك تُظهر البطاقة أيضاً مجالات تحتفظ فيها عائلة Gemini بأفضلية في بعض مهام المعرفة التخصصية — لذا يعتمد الترتيب النسبي على المعيار.
- متغيّر Seed-Code (Doubao-Seed-Code): مُتخصص في مهام البرمجة/الوكالة في الكود (سياق كبير لأسس الشيفرة؛ معايير SWE متخصصة). Seed1.8 هو النموذج العام متعدد الوسائط القائم على الوكلاء، بينما Seed-Code هو المتغير المُركّز على البرمجة.
حالات استخدام عملية عبر Seedream 4.5 API على CometAPI
- مساعدو أبحاث متعددة الوسائط وتحليل المستندات: استخراج، تلخيص، والاستدلال عبر مستندات طويلة، عروض تقديمية، وتقارير متعددة الصفحات.
- فهم ومراقبة الفيديوهات الطويلة: تحليلات بثّ الأمن/الرياضة، تلخيص اجتماعات طويلة، وتحليل البث حيث تهم كفاءة رموز الفيديو الطويلة للنموذج.
- سير عمل قائم على الوكلاء/الأتمتة: سيناريوهات بحث ويب متعدد الخطوات + تنفيذ كود + استخراج بيانات (مثلاً تحليلات تنافسية مؤتمتة، تخطيط سفر، خطوط أبحاث موضحة في معايير داخلية).
- أدوات المطورين (عند استخدام Seed-Code): تحليل قواعد كود كبيرة، مساعدين داخل IDE، وتنفيذ كود وكيل للاختبار والإصلاح (Seed-Code هو المتغير المتخصص الموصى به).
- أتمتة GUI وRPA: تشير معايير إسناد الشاشة ووكلاء GUI إلى قدرة النموذج على أداء مهام GUI منظمة بشكل أفضل من إصدارات Seed السابقة.
كيفية استخدام doubao Seed 1.8 API عبر CometAPI
يُعرض Doubao seed1.8 تجارياً عبر CometAPI كواجهة استدلال مُستضافة حالياً. تدعم الواجهة حمولة متعددة الوسائط (نص + صور + مقاطع/طوابع زمنية للفيديو) وأوضاع استدلال قابلة للتهيئة للمفاضلة بين الكمون والحوسبة مقابل جودة الإجابة.
أنماط الاستدعاء: تدعم الواجهة طلبات على نمط الدردشة/الإكمال، الاستجابة المتدفقة، وتدفقات قائمة على الوكلاء حيث يُصدر النموذج استدعاءات أدوات (بحث، تنفيذ كود، إجراءات GUI) ويستوعب مخرجات الأدوات كسياق لاحق.
التدفق والتعامل مع السياق الطويل: تدعم الواجهة البث المتدفق وتملك بدائيات لإدارة السياق للجلسات الطويلة (لتمكين سياقات 100K+ / آثار وكلاء متعددة الخطوات).
الخطوة 1: التسجيل للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدماً لدينا بعد، يُرجى التسجيل أولاً. سجّل الدخول إلى CometAPI console. احصل على مفتاح اعتماد الوصول API. انقر “Add Token” ضمن رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

الخطوة 2: إرسال طلبات إلى doubao Seed 1.8 API
اختر نقطة النهاية “doubao-seed-1-8-251228 ” لإرسال طلب الواجهة واضبط جسم الطلب. تُستقى طريقة الطلب وجسمه من وثائق واجهة برمجة التطبيقات على موقعنا. يوفر موقعنا أيضاً اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. التوافق مع واجهات Chat APIs.
أدرج سؤالك أو طلبك في حقل المحتوى — هذا ما سيستجيب له النموذج. عالج استجابة الواجهة للحصول على الإجابة المُولّدة.
الخطوة 3: استرجاع النتائج والتحقق منها
عالج استجابة الواجهة للحصول على الإجابة المُولّدة. بعد المعالجة، تستجيب الواجهة بحالة المهمة وبيانات المخرجات.