Doubao Seed 1.8 — جزء من عائلة Doubao التابعة لـ ByteDance وخط أبحاث Seed — يجذب الانتباه لكونه مُصمَّمًا كنموذج متعدد الوسائط «وكيلي» مع قدرة كبيرة جدًا على التعامل مع السياق ودعم محسّن للأدوات/الوكلاء.
بالنسبة للمطورين والشركات، لم يعد السؤال الفوري هو "ما مدى ذكائه؟" بل "كيف نبني باستخدامه؟" سأتناول بالتعمق المواصفات التقنية وهياكل التسعير واستراتيجيات التنفيذ العملية لواجهة برمجة تطبيقات Doubao Seed 1.8 في هذه المقالة.
ما هو Doubao Seed 1.8؟
Doubao Seed 1.8 هو أحدث نموذج رائد في عائلة "Doubao" (المعروفة سابقًا باسم Skylark) التابعة لـ ByteDance. وعلى عكس أسلافه، الذين ركزوا أساسًا على الطلاقة الحوارية وتوليد المحتوى، تم تدريب Seed 1.8 بهدف محدد: التنفيذ الذاتي للمهام.
يقدم النموذج بنية موحدة تدمج بين الإدراك متعدد الوسائط (الرؤية، الصوت، الفيديو) وتنفيذ الإجراءات (استخدام الأدوات، التنقل عبر واجهات المستخدم الرسومية). وهذا يتيح للنموذج أن يعمل كعامل رقمي قادر على التنقل في أنظمة التشغيل، وتصفح الويب، وإدارة سير العمل المعقد دون إشراف بشري مستمر.
فلسفة "Seed"
يشير تصنيف "Seed" في اسم الإصدار إلى دوره كبذرة أساسية لتطبيقات الوكلاء. وهو مصمم لينمو إلى حالات استخدام محددة — سواء كان يعمل كمساعد برمجي يمكنه تصحيح بيئة تشغيل حية، أو كوكيل خدمة عملاء يمكنه التنقل داخل قاعدة بيانات CRM لمعالجة عمليات الاسترداد.
ما ميزات “تحسين جودة الحياة” وميزات المطورين المتاحة؟
- تخزين السياق مؤقتًا وprefill/continuation للحفاظ على سير العمل الأطول بتكلفة أقل وسرعة أعلى.
- إخراج متدفق للاستجابات التدريجية (مفيد لواجهات الدردشة أو تغذية راجعة الوكلاء في الوقت الفعلي).
- استدعاء الوكيل/الأداة: بدائيات أكثر غنى لاستدعاء الأدوات، والتفاعل مع واجهات المستخدم الرسومية، وتنسيق التدفقات متعددة الخطوات (بما في ذلك ربط السياق بأسلوب “previous_response_id”).
- التخطيط بعيد المدى: مضبوط للمهام التي تتطلب العديد من الخطوات المتسلسلة (مثل استخراج البيانات من مواقع متعددة ودمج النتائج)، مع تحسين الاستقرار ومسارات الاستدلال.
إحصاءات الإصدار الرئيسية (يناير 2026):
- تاريخ الإصدار: 18 ديسمبر 2025
- معرّف النموذج:
doubao-seed-1-8-251228 - البنية: Sparse Mixture-of-Experts (MoE) مع تحسين وكيلي أصيل
- الوصول: CometAPI
لماذا قامت ByteDance / Volcengine ببناء Seed1.8 وما الذي يجعله مختلفًا؟
ما المشكلة التي يحاول حلها؟
يستهدف Seed1.8 فجوة واقعية: النماذج التي يمكنها التصرف عبر وسائط وبيئات متعددة (صفحات الويب، الفيديوهات، واجهات المستخدم الرسومية، واجهات برمجة أدوات) بدلًا من مجرد الإجابة عن مطالبات معزولة. وأولويات التصميم التي أفاد بها الفريق هي: (1) إدراك متعدد الوسائط قوي، (2) استدعاء أدوات/وسائط موثوق، و(3) استدلال فعّال للمهام الطويلة متعددة الخطوات (مثل التخطيط، وتجميع البيانات من مواقع متعددة، أو التنقل عبر الواجهات الرسومية). يُكمل Seed1.8 مهام معقدة متعددة الخطوات تتطلب ربط الفهم البصري والبحث واستخدام الأدوات.
كيف يختلف هذا عن إصدارات Doubao/Seed السابقة؟
بدلًا من مجرد تحسين الحجم الخام للنموذج، يقدم Seed1.8 تغييرات معمارية ونظامية تحسن الأداء “الوكيل”: معالجة أفضل للسياق، وفهمًا محسّنًا للفيديو الطويل منخفض معدل الإطارات (مع دعم آفاق فيديو طويلة جدًا مع فحص عالي معدل الإطارات بمساعدة الأدوات)، وتحسينات تمنح قدرة استدلال مماثلة بعدد أقل من الرموز في بعض الفئات (وفقًا لكتابات مجتمعية مبكرة). تجعل هذه المقايضات النموذج أكثر فعالية من حيث التكلفة لأعباء عمل الوكلاء المستمرة.
3 ميزات رئيسية وقدرات متعددة الوسائط
يتميز Doubao Seed 1.8 بثلاث ركائز أساسية: التعددية الوسائطية الفائقة، والاستدلال الوكيلي، وإدارة السياق الأصلية.
1. فهم عالي الدقة للفيديو والمحتوى البصري
بينما تعاني العديد من النماذج من "نقاط عمياء" في تحليل الفيديو، يقدم Seed 1.8 اختراقًا في فهم الفيديو الطويل.
- تحليل 1280 إطارًا: يمكن للنموذج معالجة ما يصل إلى 1280 إطار فيديو في تمرير واحد، أي ضعف سعة نموذج الرؤية السابق V1.5. وهذا يسمح له "بمشاهدة" تسجيل اجتماع مدته 30 دقيقة أو بث أمني واستخراج تفاصيل محددة (مثل: "في أي طابع زمني انتقل المقدم إلى الشريحة المالية؟").
- منطق معدل الإطارات المنخفض: بالنسبة للفيديوهات الطويلة جدًا، يستخدم النموذج تقنية أخذ عينات متفرقة محسنة للحفاظ على السياق دون تضخم تكاليف الرموز.
2. وضع "التفكير" (الاستدلال العميق)
تماشيًا مع توجه الصناعة الذي أطلقته سلسلة o1/o3 من OpenAI، يتضمن Seed 1.8 "وضع التفكير" القابل للتهيئة.
عند تفعيله عبر واجهة البرمجة، ينخرط النموذج في عملية "سلسلة أفكار" قبل إخراج إجابة نهائية. ويكون هذا فعالًا بشكل خاص في:
- الرياضيات المعقدة: حل مسائل التفاضل أو الإحصاء متعددة الخطوات.
- هندسة البرمجيات: تخطيط بنية خدمات مصغرة قبل كتابة كود دوال محددة.
- الألغاز المنطقية: التعامل مع الاستفسارات التي تتطلب قيودًا متنوعة (مثل جدولة نوبات لـ 50 موظفًا مع تعارضات في التوفر).
3. UI-TARS والتفاعل مع واجهات المستخدم الرسومية
من الميزات الفريدة في Seed 1.8 تكامله الأصلي مع UI-TARS (نظام الاستدلال المعزز بالأدوات لواجهة المستخدم). وهذا يمنح النموذج "عينين" و"يدين" لواجهات الحاسوب.
- التموضع البصري: يمكن للنموذج النظر إلى لقطة شاشة لواجهة برمجية وتحديد إحداثيات الأزرار وحقول الإدخال والقوائم.
- توليد الإجراءات: يمكنه توليد أوامر محددة على مستوى نظام التشغيل (Click, Drag, Type) لتشغيل البرمجيات، مما يجعله المحرك وراء ميزات "التشغيل التلقائي" الجديدة لدى ByteDance في أدوات المؤسسات.
كيف يكون أداؤه في الاختبارات المعيارية؟
كان مجتمع الذكاء الاصطناعي صارمًا في اختبار Seed 1.8 منذ إطلاقه التجريبي. وترسم الاختبارات المبكرة صورة لنموذج يتفوق على فئته، خاصة في استخدام الأدوات والبرمجة.
الاختبارات الوكيلية
- BrowseComp-en: في هذا الاختبار، الذي يقيم قدرة الذكاء الاصطناعي على تصفح الويب وتوليف المعلومات، سجل Seed 1.8 نسبة 67.6%، ويُقال إنه تفوق على GPT-4o القياسي وتقدم قليلًا على Claude 3.5 Sonnet في كفاءة التنقل.
- SWE-bench (هندسة البرمجيات): أظهر Seed 1.8 معدل نجاح مرتفعًا في حل مشكلات GitHub. وتتيح له قدرته على "قراءة" بنية ملفات المستودع وفهم التبعيات اقتراح إصلاحات صحيحة نحويًا وصالحة سياقيًا.
تحليل مقارن
| المقياس | Doubao Seed 1.8 | Gemini 3 Flash | GPT-4o |
|---|---|---|---|
| نافذة السياق | 256k | 1M+ | 128k |
| فهم الفيديو | 1280 إطارًا | مرتفع | متوسط |
| الاستدلال (رياضيات/منطق) | مرتفع جدًا (وضع التفكير) | مرتفع | مرتفع جدًا |
| تشغيل GUI | أصيل (UI-TARS) | قائم على الأدوات | قائم على الأدوات |
| التسعير (الإدخال) | ~¥0.80 / 1M | منخفض | مرتفع |
ملاحظة: تستند درجات الاختبارات المعيارية إلى أرقام مُعلَن عنها من مؤتمر Force واختبارات مستقلة حتى يناير 2026.
يحقق Seed1.8 درجات رائدة على مستوى المجال في عدة اختبارات وكيلة وبحثية (مثل أعلى درجة GAIA في مقارنتهم؛ وأداء قوي في BrowseComp وWideSearch)، مما يبرهن على قدرة فعلية على اتخاذ القرار في العالم الحقيقي.

كيف يمكن للمطورين الوصول إلى واجهة البرمجة واستخدامها؟
الوصول إلى Doubao Seed 1.8 مباشر، ويتم أساسًا عبر منصة CometAPI.
فيما يلي دليل خطوة بخطوة لدمج واجهة البرمجة في سير عملك.
الخطوة 1: إنشاء حساب CometAPI
انتقل إلى موقع CometAPI وسجل حسابًا. تصف صفحة Seed 1.8 النموذج نفسه.
الخطوة 2: الوصول إلى وحدة تحكم CometAPI
في وحدة تحكم CometAPI، فعّل خدمة النموذج وأنشئ API Key / Access Key مع أذونات استدعاء النموذج. انتقل إلى API Key Management في وحدة التحكم وقم بإنشاء مفتاح جديد. احتفظ به بأمان؛ فهو يبدأ بـ sk-... (أو ما شابه).
الخطوة 3: اختيار النموذج وإنشاء نقطة نهاية
في شاشة اختيار النموذج:
- النموذج: اختر
Doubao-Seed-1.8(ابحث عن الوسمdoubao-seed-1-8-251228). - اسم نقطة النهاية: امنح نقطة النهاية اسمًا فريدًا (مثل
ep-20260112-xyz).
الخطوة 4: تنفيذ أول طلب لك
واجهة برمجة Doubao متوافقة بالكامل مع تنسيق OpenAI SDK، مما يجعل الترحيل سهلًا.
ما عليك سوى تغيير معاملي base_url وmodel.
مثال Python (باستخدام OpenAI SDK):
python
from openai import OpenAI
# [...](asc_slot://start-slot-53)Initialize client with Volcano Engine config
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.cometapi.com/v1"
)
# Call the model
response = client.chat.completions.create(
model="doubao-seed-1-8-251228",
messages=[
{
"role": "system",
"content": "You are Doubao Seed 1.8, an expert AI agent."
},
{
"role": "user",
"content": "Analyze the attached video context and explain the user's intent."
}
],
# Enable Thinking Mode (if available for your endpoint)
# extra_body={"thinking_mode": "enable"}
)
print(response.choices[0].message.content)
الاستخدام المتقدم: استدعاء الأدوات والتعددية الوسائطية
لاستخدام القدرات الوكيلية، تقوم بتعريف الأدوات ضمن مخطط JSON القياسي.
وبالنسبة إلى إدخال الصور/الفيديو، يمكنك تمرير سلاسل base64 مرمّزة أو عناوين URL ضمن قائمة content، بشكل مشابه لـ GPT-4 Vision.
python
# Multimodal Input Example
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What is happening in this image?"},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.jpg"
}
}
]
}
]
الخلاصة:
يوفر Seed 1.8 قدرات قوية فعلًا للتطبيقات الوكيلية ومتعددة الوسائط وطويلة السياق — وهو خيار قوي عندما يتطلب عبء العمل لديك إدراكًا وتخطيطًا وتنفيذًا متكاملًا عبر مستندات أو وسائط طويلة. ومع ذلك، تعتمد القيمة الهندسية الفعلية على أنماط الاستخدام: احتياجات زمن الاستجابة، وأحجام الرموز، والقدرة على تنسيق التخزين المؤقت والاسترجاع وسلاسل الأدوات بفعالية.
يُنصح المطورون بتسجيل الدخول إلى CometAPI اليوم، والحصول على الرموز المجانية، والبدء في زرع بذور الجيل التالي من تطبيقات الذكاء الاصطناعي.
يمكن للمطورين الوصول إلى نموذج Doubao seed 1.8 API عبر CometAPI. وللبدء، استكشف قدرات نماذج CometAPI في Playground وراجع دليل API للحصول على تعليمات مفصلة. قبل الوصول، يرجى التأكد من أنك سجلت الدخول إلى CometAPI وحصلت على مفتاح API. تقدم CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
هل أنت مستعد للانطلاق؟→ تجربة مجانية لـ Doubao seed 1.8!
