المواصفات التقنية لواجهة برمجة تطبيقات Seed 1.8
| البند | المواصفة / الملاحظة |
|---|---|
| اسم النموذج / الفئة | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| الأنماط المدعومة | النصوص، الصور، الفيديو (قدرات VLM متعددة الوسائط)، وأدوات الصوت ضمن المنظومة (نماذج منفصلة لتوليد الصوت/الفيديو). |
| نافذة السياق (النص) | 256K tokens |
| سعة الفيديو / الرؤية | مصمم للاستدلال على الفيديو الطويل، ويدعم ترميزًا بصريًا فعالًا وميزانيات كبيرة لرموز الفيديو (تعرض بطاقة النموذج تجارب على رموز الفيديو ومعايير أداء للفيديو الطويل). |
| تنسيقات الإدخال | مطالبات نصية حرة؛ تحميل الصور (لقطات شاشة، مخططات، صور)؛ الفيديو على هيئة إطارات مُرمَّزة / أدوات فيديو لفحص المقاطع؛ تحميل الملفات (المستندات). |
| تنسيقات الإخراج | نص بلغة طبيعية، ومخرجات منظَّمة (structured-output beta)، واستدعاءات دوال / أدوات، وكود، ومخرجات متعددة الوسائط عبر التنسيق. |
| أوضاع التفكير / الاستدلال | no_think، think-low، think-medium، think-high — موازنة بين الدقة وزمن الاستجابة/التكلفة. |
ما هو Doubao Seed 1.8؟
Doubao Seed 1.8 هو إصدار 1.8 من فريق Seed: نموذج موحّد LLM+VLM يستهدف بشكل صريح القدرة العامة على العمل في العالم الحقيقي — أي الإدراك (الصور/الفيديو)، والاستدلال، وتنسيق الأدوات (البحث، واستدعاءات الدوال، وتنفيذ الكود، والتموضع داخل واجهات المستخدم الرسومية) واتخاذ القرار متعدد الخطوات داخل نموذج واحد. يركّز التصميم على “أوضاع تفكير” قابلة للضبط (مفاضلة بين زمن الاستجابة وعمق المعالجة)، وترميز بصري فعّال، ودعم أصيل للسياق الطويل والمدخلات متعددة الوسائط بحيث يمكن للنموذج العمل كمساعد/وكيل ذاتي في مسارات العمل الإنتاجية.
الميزات الرئيسية لواجهة برمجة تطبيقات Seed 1.8
- نموذج وكيل متعدد الوسائط موحّد. يدمج الإدراك (الصور/الفيديو)، والاستدلال (LLM)، والتنفيذ (استدعاءات الأدوات/وواجهات المستخدم الرسومية، وتنفيذ الكود) في نموذج واحد بدلًا من خط معالجة منفصل. يتيح ذلك مسارات عمل وكيلية أكثر إحكامًا وتعقيدًا أقل في التنسيق.
- سياق فائق الطول ومعالجة الفيديو الطويل. سياق طويل (دعم المنتج حتى 256k token) ومعايير خاصة بالفيديو الطويل (يُظهر Seed1.8 كفاءة قوية في استخدام رموز الفيديو الطويلة). يدعم النموذج أدوات فيديو انتقائية (VideoCut) لتركيز الاستدلال على الطوابع الزمنية.
- أتمتة واجهات المستخدم الرسومية واستخدام الأدوات بطابع وكيلي. تُظهر المعايير والاختبارات الداخلية (OSWorld وAndroidWorld وLiveCodeBench ومعايير التموضع في واجهات المستخدم الرسومية) تحسنًا في مهام الوكلاء الرسومية والأتمتة متعددة الخطوات. يمكن للنموذج إخراج أوامر التموضع في الواجهة والعمل داخل بيئات نظام/ويب/هواتف محمولة محاكاة.
- أوضاع تفكير قابلة للضبط للتحكم في زمن الاستجابة/التكلفة. تتيح أربعة أوضاع استدلال للمطورين ضبط الحوسبة وقت الاختبار للمهام التفاعلية مقابل المهام الدفعية عالية الجودة. يفيد ذلك أنظمة الإنتاج ذات ميزانيات زمن استجابة صارمة.
- تحسين كفاءة الرموز (متعدد الوسائط). يبرهن Seed 1.8 على كفاءة أعلى في استخدام الرموز في معايير متعددة الوسائط مقارنةً بأسلافه (سلسلة Seed-1.5/1.6)، محققًا دقة عالية بميزانيات رموز أصغر في عدة مهام فيديو طويلة.
- أوضاع تفكير قابلة للضبط: الموازنة بين عمق الاستدلال وزمن الاستجابة/التكلفة عبر أوضاع مميزة (
no_think→think-high) لضبطه للاستخدام الإنتاجي التفاعلي. - القدرات التقنية
- كفاءة الرموز: يُظهر Seed1.8 كفاءة واضحة في استخدام الرموز مقارنةً بالأسلاف (Seed-1.5/1.6)، مع تقديم دقة أقوى عند ميزانيات رموز أقل في مهام الفيديو الطويل (مثل تحقيق دقة تنافسية حتى عند 32K من رموز الفيديو). يتيح ذلك تكلفة استدلال أقل للمدخلات الطويلة.
- الاستدلال والإدراك متعدد الوسائط: يحقق النموذج مستوى SOTA في عدة مهام VQA متعددة الصور ومهام الحركة/الإدراك، ويحصل على المركز الثاني أو قريبًا من SOTA في كثير من معايير الاستدلال متعدد الوسائط؛ وعلى وجه التحديد يتفوق على سابقه في كل بُعد بصري/فيديو تقريبًا تم قياسه.
- استخدام الأدوات والتموضع في الواجهات بطابع وكيلي: دعم موثّق للتموضع في واجهات المستخدم والعمليات المعتمدة على الشاشة في المعايير (ScreenSpot-Pro، وعملاء GUI) مع درجات تموضع قوية (مثل التحسن مقارنةً بـ Seed-1.5-VL على ScreenSpot-Pro).
- الاستدلال المتوازي / المرحلي: تؤدي زيادة الحوسبة وقت الاختبار (التفكير المتوازي) إلى مكاسب قابلة للقياس في معايير الرياضيات والبرمجة والاستدلال متعدد الوسائط
أبرز النتائج العامة المختارة لـ Seed1.8
- VCRBench (الاستدلال البصري المنطقي العام): سجّل Seed1.8 59.8 (Pass@1 كما ورد في جدول بطاقة النموذج)، وهو تحسن مقارنةً بـ Seed-1.5-VL وتنافس مع أفضل النماذج
- VideoHolmes (استدلال الفيديو): حقق Seed1.8 65.5، متفوقًا على Seed-1.5-VL ومقتربًا من نماذج منافسة بمستوى احترافي.
- MMLB-NIAH (سياق طويل متعدد الوسائط، 128k): حقق Seed1.8 72.2 Pass@1 عند سياق 128k في MMLB-NIAH، متجاوزًا بعض النماذج الاحترافية المعاصرة.
- مجموعة الحركة والإدراك: حقق مستوى SOTA في 5 من أصل 6 مهام مُقيَّمة؛ ومن الأمثلة TVBench وTempCompass وTOMATO حيث يُظهر Seed1.8 مكاسب كبيرة في الإدراك الزمني.
- مسارات العمل الوكيلية: في BrowseComp وغيرها من معايير البحث/البرمجة الوكيلية، غالبًا ما يحتل Seed1.8 مرتبة قريبة من النماذج الاحترافية المنافسة أو أعلى منها
Seed 1.8 مقارنةً بـ Gemini 3 Pro / GPT-5.x
- Seed1.8 مقارنةً بـ Seed-1.5-VL / Seed-1.6: تحسينات واضحة في الإدراك متعدد الوسائط، وكفاءة الرموز للفيديوهات الطويلة، والتنفيذ الوكيلي.
- Seed1.8 مقارنةً بـ Gemini 3 Pro / GPT-5.x: في العديد من المعايير متعددة الوسائط، فإن Seed1.8 يعادل أو يتجاوز Gemini 3 Pro (مستوى SOTA في عدة مهام VQA / الحركة؛ وأفضل في تشغيل MMLB-NIAH 128k). ومع ذلك، تُظهر البطاقة أيضًا مجالات تحتفظ فيها نماذج عائلة Gemini بمزايا في بعض مهام المعرفة التخصصية — لذا فإن الترتيب النسبي يعتمد على المعيار.
- نسخة Seed-Code (Doubao-Seed-Code): متخصصة في مهام البرمجة/الكود ذات الطابع الوكيلي (سياق كبير لقواعد الشيفرة؛ ومعايير SWE متخصصة). يُعد Seed1.8 النموذج العام متعدد الوسائط ذي الطابع الوكيلي، بينما Seed-Code هو النسخة الموجهة للبرمجة.
حالات الاستخدام العملية لواجهة برمجة تطبيقات Seedream 4.5 على CometAPI
- مساعدو الأبحاث متعددة الوسائط وتحليل المستندات: استخراج المعلومات وتلخيصها والاستدلال عبر المستندات الطويلة والعروض التقديمية والتقارير متعددة الصفحات.
- فهم الفيديو الطويل والمراقبة: تحليلات البث الأمني/الرياضي، وتلخيص الاجتماعات الطويلة، وتحليل البث المباشر حيث تكون كفاءة رموز الفيديو الطويلة للنموذج مهمة.
- مسارات العمل الوكيلية / الأتمتة: سيناريوهات البحث على الويب متعدد الخطوات + تنفيذ الكود + استخراج البيانات (مثل التحليل التنافسي المؤتمت، وتخطيط السفر، ومسارات البحث المعروضة في المعايير الداخلية).
- أدوات المطورين (عند استخدام Seed-Code): تحليل قواعد الشيفرة الكبيرة، ومساعدو بيئات التطوير IDE، وتنفيذ الكود الوكيلي للاختبار والإصلاح (Seed-Code هو النسخة المتخصصة الموصى بها).
- أتمتة واجهات المستخدم الرسومية وRPA: تشير معايير التموضع على الشاشة ووكلاء GUI إلى أن النموذج يمكنه تنفيذ مهام GUI منظّمة بشكل أفضل من إصدارات Seed السابقة.
كيفية استخدام واجهة برمجة تطبيقات doubao Seed 1.8 عبر CometAPI
يتم إتاحة Doubao seed1.8 تجاريًا عبر CometAPI الآن كواجهة استدلال مستضافة. تدعم الواجهة حمولات متعددة الوسائط (نص + صور + مقاطع فيديو / طوابع زمنية) وأوضاع استدلال قابلة للضبط للموازنة بين زمن الاستجابة والموارد الحاسوبية وجودة الإجابة.
أنماط الاستدعاء: تدعم الواجهة طلبات بنمط الدردشة/الإكمال القياسي، والاستجابات المتدفقة، والتدفقات الوكيلية حيث يصدر النموذج استدعاءات أدوات (بحث، تنفيذ كود، إجراءات GUI) ويستوعب مخرجات الأدوات كسياق لاحق.
البث والتعامل مع السياق الطويل: تدعم الواجهة البث وتحتوي على بدائيات مدمجة لإدارة السياق للجلسات الطويلة (لتمكين سياقات 100K+ / آثار وكلاء متعددة الخطوات).
الخطوة 1: التسجيل للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولًا. سجّل الدخول إلى CometAPI console الخاصة بك. احصل على بيانات اعتماد الوصول، أي مفتاح API الخاص بالواجهة. انقر على “Add Token” في قسم API token داخل المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.
الخطوة 2: إرسال الطلبات إلى واجهة برمجة تطبيقات doubao Seed 1.8
اختر نقطة النهاية “doubao-seed-1-8-251228 ” لإرسال طلب API وتعيين نص الطلب. يتم الحصول على طريقة الطلب ونص الطلب من وثائق API على موقعنا. كما يوفّر موقعنا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. التوافق مع واجهات Chat API.
أدرج سؤالك أو طلبك في حقل content—وهذا ما سيستجيب له النموذج. عالج استجابة API للحصول على الإجابة المُولَّدة.
الخطوة 3: استرجاع النتائج والتحقق منها
عالج استجابة API للحصول على الإجابة المُولَّدة. بعد المعالجة، تستجيب API بحالة المهمة وبيانات الإخراج.
