ข้อมูลจำเพาะทางเทคนิคของ Seed 1.8 API
| รายการ | สเปก / หมายเหตุ |
|---|---|
| ชื่อรุ่น / ตระกูล | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| โมดาลิตีที่รองรับ | ข้อความ, รูปภาพ, วิดีโอ (ความสามารถ VLM แบบหลายโมดาลิตี), เครื่องมือเสียงในระบบนิเวศ (มีโมเดลแยกสำหรับการสร้างเสียง/วิดีโอ) |
| หน้าต่างบริบท (ข้อความ) | 256K tokens |
| ขีดความสามารถด้านวิดีโอ/ภาพ | ออกแบบมาสำหรับการให้เหตุผลกับวิดีโอแบบยาว รองรับการเข้ารหัสภาพที่มีประสิทธิภาพและงบประมาณโทเค็นวิดีโอขนาดใหญ่ (การ์ดโมเดลรายงานการทดลองโทเค็นวิดีโอและชุดทดสอบวิดีโอแบบยาว) |
| รูปแบบอินพุต | พรอมต์แบบข้อความอิสระ; อัปโหลดภาพ (สกรีนช็อต, แผนภูมิ, รูปถ่าย); วิดีโอในรูปเฟรมที่ทำเป็นโทเค็น / เครื่องมือวิดีโอสำหรับตรวจสอบช่วงเวลา; อัปโหลดไฟล์ (เอกสาร) |
| รูปแบบเอาต์พุต | ข้อความภาษาธรรมชาติ, เอาต์พุตแบบมีโครงสร้าง (structured-output beta), การเรียกฟังก์ชัน/การเรียกเครื่องมือ, โค้ด และเอาต์พุตแบบหลายโมดาลิตีผ่านออร์เคสเตรชัน |
| โหมดการคิด/การอนุมาน | no_think, think-low, think-medium, think-high — ปรับสมดุลความแม่นยำเทียบกับเวลาแฝง/ต้นทุน |
Doubao Seed 1.8 คืออะไร?
Doubao Seed 1.8 คือรุ่น 1.8 จากทีม Seed: โมเดลแบบรวม LLM+VLM ที่มุ่งเป้าอย่างชัดเจนไปที่ ความเป็นเอเจนต์ในโลกจริงแบบทั่วไป ได้แก่ การรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล, การจัดออร์เคสเตรชันเครื่องมือ (ค้นหา, เรียกฟังก์ชัน, รันโค้ด, GUI grounding) และการตัดสินใจหลายขั้นตอนภายในโมเดลเดียว การออกแบบให้ความสำคัญกับ “โหมดการคิด” แบบปรับแต่งได้ (แลกเปลี่ยนระหว่างเวลาแฝงกับความลึก), การเข้ารหัสภาพที่มีประสิทธิภาพ และการรองรับบริบทยาวและอินพุตหลายโมดาลิตีแบบเนทีฟ เพื่อให้โมเดลทำงานเป็นผู้ช่วย/เอเจนต์อัตโนมัติในเวิร์กโฟลว์ระดับโปรดักชัน
คุณสมบัติหลักของ Seed 1.8 API
- ความเป็นโมเดลเอเจนต์แบบหลายโมดาลิตีที่รวมเป็นหนึ่งเดียว รวมการรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล (LLM) และการลงมือทำ (การเรียกเครื่องมือ/G U I, การรันโค้ด) ไว้ในโมเดลเดียว แทนการแยกเป็นหลายส่วน ช่วยให้เวิร์กโฟลว์เอเจนต์กะทัดรัดและลดความซับซ้อนของออร์เคสเตรชัน
- บริบทยาวพิเศษและการจัดการวิดีโอแบบยาว บริบทยาว (รองรับถึง 256k tokens) และชุดทดสอบเฉพาะสำหรับวิดีโอแบบยาว (Seed1.8 แสดงประสิทธิภาพโทเค็นวิดีโอที่แข็งแกร่ง) โมเดลรองรับเครื่องมือวิดีโอแบบเลือกใช้ (VideoCut) เพื่อโฟกัสการให้เหตุผลตามช่วงเวลา
- ระบบอัตโนมัติ GUI แบบเอเจนต์และการใช้เครื่องมือ ชุดทดสอบและการทดสอบภายใน (OSWorld, AndroidWorld, LiveCodeBench, ชุดทดสอบ GUI grounding) แสดงให้เห็นถึงการปรับปรุงในงานเอเจนต์ GUI และการทำงานอัตโนมัติหลายขั้นตอน โมเดลสามารถส่งคำสั่ง GUI grounding และทำงานในบริบท OS/เว็บ/มือถือที่จำลองได้
- โหมดการคิดที่ปรับแต่งได้เพื่อควบคุมเวลาแฝง/ต้นทุน มีโหมดการอนุมาน 4 ระดับ ให้ผู้พัฒนาปรับแต่งการคำนวณขณะทดสอบ สำหรับงานแบบอินเทอร์แอคทีฟเทียบกับงานแบตช์คุณภาพสูง เหมาะกับระบบโปรดักชันที่มีงบเวลาแฝงเข้มงวด
- ประสิทธิภาพโทเค็นที่ดีขึ้น (หลายโมดาลิตี) Seed 1.8 แสดงประสิทธิภาพโทเค็นที่แข็งแกร่งขึ้นในชุดทดสอบหลายโมดาลิตีเมื่อเทียบกับรุ่นก่อน (ซีรีส์ Seed-1.5/1.6) ทำความแม่นยำสูงด้วยงบโทเค็นที่เล็กลงในหลายงานวิดีโอแบบยาว
- โหมดการคิดที่ปรับแต่งได้: แลกความลึกของการอนุมานกับเวลาแฝง/ต้นทุนด้วยโหมดที่แตกต่าง (
no_think→think-high) เพื่อปรับใช้สำหรับงานโปรดักชันแบบอินเทอร์แอคทีฟ - ความสามารถทางเทคนิค
- ประสิทธิภาพโทเค็น: Seed1.8 แสดงประสิทธิภาพโทเค็นที่โดดเด่นเทียบกับรุ่นก่อน (Seed-1.5/1.6) ให้ความแม่นยำที่สูงขึ้นด้วยงบโทเค็นที่ต่ำลงในงานวิดีโอแบบยาว (เช่น ทำความแม่นยำแข่งได้แม้ที่ 32K video tokens) ช่วยลดต้นทุนอนุมานสำหรับอินพุตยาว
- การให้เหตุผลและการรับรู้แบบหลายโมดาลิตี: โมเดลทำได้ระดับ SOTA ในหลายงาน VQA หลายภาพและงานการเคลื่อนไหว/การรับรู้ และทำได้อันดับสองหรือใกล้ SOTA ในหลายชุดทดสอบการให้เหตุผลแบบหลายโมดาลิตี โดยเฉพาะเหนือกว่ารุ่นก่อนหน้าในเกือบทุกมิติด้านภาพ/วิดีโอที่วัดผล
- การใช้เครื่องมือแบบเอเจนต์และ GUI grounding: มีการบันทึกรองรับ GUI grounding และชุดทดสอบการทำงานบนหน้าจอ (ScreenSpot-Pro, GUI agenting) ด้วยคะแนน grounding ที่แข็งแกร่ง (เช่น ดีกว่า Seed-1.5-VL บน ScreenSpot-Pro)
- การให้เหตุผลแบบขนาน/แบบขั้นตอน: การเพิ่มการคำนวณขณะทดสอบ (parallel thinking) ให้ผลลัพธ์ดีขึ้นอย่างมีนัยสำคัญในงานคณิต, โค้ดดิ้ง และชุดทดสอบการให้เหตุผลแบบหลายโมดาลิตี
จุดเด่นในชุดทดสอบสาธารณะที่คัดเลือกของ Seed1.8
- VCRBench (visual commonsense reasoning): Seed1.8 ได้คะแนน 59.8 (Pass@1 ตามที่รายงานในตารางการ์ดโมเดล) ดีขึ้นจาก Seed-1.5-VL และแข่งขันกับโมเดลระดับท็อป
- VideoHolmes (video reasoning): Seed1.8 65.5 เหนือกว่า Seed-1.5-VL และเข้าใกล้โมเดลคู่แข่งระดับโปร
- MMLB-NIAH (multimodal long-context, 128k): Seed1.8 ทำได้ 72.2 Pass@1 ที่บริบท 128k แซงหน้าโมเดลโปรร่วมสมัยบางตัว
- ชุด Motion & Perception: SOTA ใน 5 จาก 6 งานที่ประเมิน; เช่น TVBench, TempCompass และ TOMATO ที่ Seed1.8 แสดงความสามารถด้านการรับรู้เชิงเวลาเพิ่มขึ้นมาก
- เวิร์กโฟลว์แบบเอเจนต์: บน BrowseComp และชุดทดสอบการค้นหา/โค้ดแบบเอเจนต์อื่น ๆ Seed1.8 มักอยู่ใกล้หรือเหนือกว่าคู่แข่งระดับโปร
Seed 1.8 เทียบกับ Gemini 3 Pro / GPT-5.x
- Seed1.8 เทียบกับ Seed-1.5-VL / Seed-1.6: เห็นความก้าวหน้าอย่างชัดเจนในด้านการรับรู้แบบหลายโมดาลิตี, ประสิทธิภาพโทเค็นสำหรับวิดีโอแบบยาว และการดำเนินการแบบเอเจนต์
- Seed1.8 เทียบกับ Gemini 3 Pro / GPT-5.x: ในหลายชุดทดสอบแบบหลายโมดาลิตี Seed1.8 ตรงกับหรือเหนือกว่า Gemini 3 Pro (SOTA ในหลายงาน VQA/การเคลื่อนไหว; ดีกว่าใน MMLB-NIAH รัน 128k) อย่างไรก็ตาม การ์ดโมเดลยังแสดงพื้นที่ที่ตระกูล Gemini ยังได้เปรียบในงานความรู้เฉพาะสาขาบางด้าน — ดังนั้นการจัดอันดับสัมพัทธ์ขึ้นอยู่กับชุดทดสอบ
- Seed-Code variant (Doubao-Seed-Code): เชี่ยวชาญด้านงานโปรแกรมมิ่ง/โค้ดแบบเอเจนต์ (บริบทใหญ่สำหรับโค้ดเบส; ชุดทดสอบ SWE เฉพาะทาง) Seed1.8 เป็นโมเดลมัลติโหมดสายทั่วไปแบบเอเจนต์ ส่วน Seed-Code เป็นเวอร์ชันที่โฟกัสงานโปรแกรมมิ่ง
กรณีใช้งานจริงผ่าน Seedream 4.5 API บน CometAPI
- ผู้ช่วยวิจัยแบบหลายโมดาลิตีและการวิเคราะห์เอกสาร: ดึงข้อมูล, สรุป และให้เหตุผลข้ามเอกสารยาว, สไลด์ และรายงานหลายหน้า
- ความเข้าใจและการมอนิเตอร์วิดีโอแบบยาว: การวิเคราะห์งานรักษาความปลอดภัย/ออกอากาศกีฬา, สรุปการประชุมยาว และการวิเคราะห์สตรีมมิงที่ประสิทธิภาพโทเค็นวิดีโอแบบยาวของโมเดลมีความสำคัญ
- เวิร์กโฟลว์แบบเอเจนต์/ระบบอัตโนมัติ: สถานการณ์ค้นเว็บหลายขั้น + รันโค้ด + ดึงข้อมูล (เช่น การวิเคราะห์คู่แข่งอัตโนมัติ, วางแผนการเดินทาง, ไปป์ไลน์วิจัยที่แสดงในชุดทดสอบภายใน)
- เครื่องมือสำหรับนักพัฒนา (เมื่อใช้ Seed-Code): การวิเคราะห์โค้ดเบสขนาดใหญ่, ผู้ช่วยใน IDE และการรันโค้ดแบบเอเจนต์เพื่อทดสอบและแก้ไข (Seed-Code เป็นเวอร์ชันเฉพาะทางที่แนะนำ)
- ระบบอัตโนมัติ GUI และ RPA: ชุดทดสอบการยึดโยงกับหน้าจอและเอเจนต์ GUI บ่งชี้ว่าโมเดลสามารถทำงาน GUI แบบมีโครงสร้างได้ดีกว่ารุ่น Seed ก่อนหน้า
วิธีใช้ doubao Seed 1.8 API ผ่าน CometAPI
Doubao seed1.8 ให้บริการเชิงพาณิชย์ผ่าน CometAPI ในรูปแบบ API ให้อนุมานแบบโฮสต์แล้ว API รองรับเพย์โหลดหลายโมดาลิตี (ข้อความ + รูปภาพ + เฟรม/ช่วงเวลาของวิดีโอ) และโหมดการอนุมานที่ปรับแต่งได้เพื่อแลกเวลาแฝงและการคำนวณกับคุณภาพคำตอบ
รูปแบบการเรียก: API รองรับคำขอแบบแชต/คอมพลีชันมาตรฐาน, การสตรีมผลลัพธ์ และโฟลว์แบบเอเจนต์ที่โมเดลออกคำสั่งเรียกเครื่องมือ (ค้นหา, รันโค้ด, การทำงานกับ GUI) และรับอินพุตผลลัพธ์ของเครื่องมือเข้ามาเป็นบริบทในขั้นตอนถัดไป
การสตรีมและการจัดการบริบทยาว: API รองรับการสตรีมและมีพริมิทีฟจัดการบริบทในตัวสำหรับเซสชันยาว (เพื่อให้ได้บริบท 100K+ / เทรซเอเจนต์หลายขั้นตอน)
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com. หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน เข้าสู่ CometAPI console. รับ API key สำหรับเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง doubao Seed 1.8 API
เลือกเอ็นด์พอยต์ “doubao-seed-1-8-251228” เพื่อส่งคำขอ API และตั้งค่าบอดี้ของคำขอ วิธีการและบอดี้ของคำขอหาได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมี Apifox สำหรับทดสอบเพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ เข้ากันได้กับ Chat APIs
แทรกคำถามหรือคำขอของคุณลงในฟิลด์ content — โมเดลจะตอบสนองต่อส่วนนี้ ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต