ข้อกำหนดทางเทคนิคของ Seed 1.8 API
| รายการ | ข้อกำหนด / หมายเหตุ |
|---|---|
| ชื่อรุ่น / ตระกูล | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| โมดาลิตีที่รองรับ | ข้อความ, รูปภาพ, วิดีโอ (ความสามารถ VLM แบบมัลติโหมด), เครื่องมือด้านเสียงในอีโคซิสเต็ม (มีโมเดลแยกสำหรับการสร้างเสียง/วิดีโอ) |
| หน้าต่างบริบท (ข้อความ) | 256K tokens |
| ความสามารถด้านวิดีโอ / ภาพ | ออกแบบมาสำหรับการให้เหตุผลกับวิดีโอความยาวมาก รองรับการเข้ารหัสภาพอย่างมีประสิทธิภาพและงบประมาณ video token ขนาดใหญ่ (model card รายงานการทดลอง video token และ benchmark สำหรับวิดีโอยาว) |
| รูปแบบอินพุต | พรอมต์ข้อความอิสระ; การอัปโหลดรูปภาพ (ภาพหน้าจอ, กราฟ, ภาพถ่าย); วิดีโอในรูปแบบเฟรมที่ถูกแปลงเป็นโทเคน / เครื่องมือวิดีโอสำหรับตรวจสอบตามช่วงเวลา; การอัปโหลดไฟล์ (เอกสาร) |
| รูปแบบเอาต์พุต | ข้อความภาษาธรรมชาติ, เอาต์พุตแบบมีโครงสร้าง (structured-output beta), function calls / tool calls, โค้ด และเอาต์พุตมัลติโหมดผ่าน orchestration |
| โหมดการคิด / การอนุมาน | no_think, think-low, think-medium, think-high — ปรับสมดุลความแม่นยำกับเวลาแฝง/ต้นทุน |
Doubao Seed 1.8 คืออะไร?
Doubao Seed 1.8 คือรุ่น 1.8 ของทีม Seed: LLM+VLM แบบรวมศูนย์ที่มุ่งเป้าไปที่ ความเป็นเอเจนต์ในโลกจริงแบบทั่วไป โดยชัดเจน — กล่าวคือ การรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล, การประสานงานเครื่องมือ (การค้นหา, function calls, การรันโค้ด, GUI grounding) และการตัดสินใจหลายขั้นตอนภายในโมเดลเดียว การออกแบบเน้น “โหมดการคิด” ที่ปรับได้ (แลกเปลี่ยนระหว่างเวลาแฝงกับความลึก), การเข้ารหัสภาพที่มีประสิทธิภาพ และการรองรับบริบทยาวและอินพุตมัลติโหมดโดยกำเนิด เพื่อให้โมเดลสามารถทำงานเป็นผู้ช่วย/เอเจนต์อัตโนมัติในเวิร์กโฟลว์การใช้งานจริงได้
คุณสมบัติหลักของ Seed 1.8 API
- โมเดลเอเจนต์มัลติโหมดแบบรวมศูนย์ รวมการรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล (LLM) และการลงมือทำ (tool/G U I calls, การรันโค้ด) ไว้ในโมเดลเดียว แทนที่จะเป็นไปป์ไลน์แยกส่วน สิ่งนี้ช่วยให้เวิร์กโฟลว์เอเจนต์กระชับขึ้นและลดความซับซ้อนของ orchestration
- บริบทยาวมากและการจัดการวิดีโอยาว บริบทยาว (รองรับผลิตภัณฑ์ถึง 256k tokens) และมี benchmark เฉพาะสำหรับวิดีโอยาว (Seed1.8 แสดงประสิทธิภาพด้าน video token สำหรับวิดีโอยาวได้ดี) โมเดลรองรับเครื่องมือวิดีโอแบบเลือกช่วง (VideoCut) เพื่อโฟกัสการให้เหตุผลตาม timestamp
- ระบบอัตโนมัติ GUI แบบเอเจนต์และการใช้เครื่องมือ Benchmark และการทดสอบภายใน (OSWorld, AndroidWorld, LiveCodeBench, benchmark ด้าน GUI grounding) แสดงการปรับปรุงในงาน GUI agent และระบบอัตโนมัติหลายขั้นตอน โมเดลสามารถส่งออกคำสั่ง GUI grounding และทำงานในบริบท OS/web/mobile จำลองได้
- โหมดการคิดที่ปรับได้เพื่อควบคุมเวลาแฝง/ต้นทุน โหมดการอนุมาน 4 แบบช่วยให้นักพัฒนาปรับการคำนวณขณะทดสอบได้สำหรับงานอินเทอร์แอคทีฟเทียบกับงานแบตช์คุณภาพสูง สิ่งนี้มีประโยชน์สำหรับระบบ production ที่มีข้อจำกัดด้านเวลาแฝงอย่างเข้มงวด
- ประสิทธิภาพด้านโทเคนที่ดีขึ้น (มัลติโหมด) Seed 1.8 แสดงให้เห็นถึงประสิทธิภาพด้านโทเคนที่ดีกว่ารุ่นก่อนหน้า (ซีรีส์ Seed-1.5/1.6) ใน benchmark มัลติโหมด โดยทำความแม่นยำสูงได้ด้วยงบประมาณโทเคนที่น้อยกว่าในหลายงานวิดีโอยาว
- โหมดการคิดที่ปรับได้: ปรับระดับความลึกของการอนุมานเทียบกับเวลาแฝง/ต้นทุนด้วยโหมดที่แยกชัดเจน (
no_think→think-high) เพื่อจูนให้เหมาะกับการใช้งาน production แบบอินเทอร์แอคทีฟ - ความสามารถทางเทคนิค
- ประสิทธิภาพด้านโทเคน: Seed1.8 แสดงประสิทธิภาพด้านโทเคนที่โดดเด่นเมื่อเทียบกับรุ่นก่อนหน้า (Seed-1.5/1.6) โดยให้ความแม่นยำที่ดีกว่าด้วยงบประมาณโทเคนที่ต่ำลงในงานวิดีโอยาว (เช่น ทำความแม่นยำที่แข่งขันได้แม้ใช้เพียง 32K video tokens) สิ่งนี้ช่วยลดต้นทุนการอนุมานสำหรับอินพุตที่ยาว
- การให้เหตุผลและการรับรู้แบบมัลติโหมด: โมเดลทำสถิติ SOTA ในหลายงาน multi-image VQA และงาน motion/perception และได้อันดับสองหรือใกล้เคียง SOTA ใน benchmark การให้เหตุผลมัลติโหมดหลายรายการ; โดยเฉพาะอย่างยิ่ง โมเดลทำได้ดีกว่ารุ่นก่อนหน้าในแทบทุกมิติด้านภาพ/วิดีโอที่มีการวัดผล
- การใช้เครื่องมือแบบเอเจนต์และ GUI grounding: มีการระบุการรองรับ GUI grounding และ benchmark การปฏิบัติงานจากหน้าจอ (ScreenSpot-Pro, GUI agenting) พร้อมคะแนน grounding ที่แข็งแกร่ง (เช่น ดีขึ้นจาก Seed-1.5-VL บน ScreenSpot-Pro)
- การให้เหตุผลแบบขนาน / เป็นขั้นตอน: การเพิ่มการคำนวณขณะทดสอบ (parallel thinking) ให้ผลการปรับปรุงที่วัดได้ใน benchmark ด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลแบบมัลติโหมด
ไฮไลต์ benchmark สาธารณะที่คัดเลือกมาของ Seed1.8
- VCRBench (การให้เหตุผลเชิงสามัญสำนึกจากภาพ): Seed1.8 ได้คะแนน 59.8 (รายงาน Pass@1 ในตาราง model card) ซึ่งดีกว่า Seed-1.5-VL และแข่งขันได้กับโมเดลชั้นนำ
- VideoHolmes (การให้เหตุผลกับวิดีโอ): Seed1.8 ได้ 65.5, เหนือกว่า Seed-1.5-VL และเข้าใกล้โมเดลคู่แข่งระดับโปร
- MMLB-NIAH (บริบทยาวแบบมัลติโหมด, 128k): Seed1.8 ทำได้ 72.2 Pass@1 ที่บริบท 128k ใน MMLB-NIAH เหนือกว่าโมเดลโปรร่วมสมัยบางรุ่น
- ชุด Motion & Perception: SOTA ใน 5 จาก 6 งานที่ประเมิน; ตัวอย่างได้แก่ TVBench, TempCompass และ TOMATO ซึ่ง Seed1.8 แสดงการปรับปรุงอย่างมากในด้านการรับรู้เชิงเวลา
- เวิร์กโฟลว์แบบเอเจนต์: ใน BrowseComp และ benchmark ด้านการค้นหา/โค้ดแบบเอเจนต์อื่น ๆ Seed1.8 มักอยู่อันดับใกล้เคียงหรือสูงกว่าโมเดลโปรคู่แข่ง
Seed 1.8 เทียบกับ Gemini 3 Pro / GPT-5.x
- Seed1.8 เทียบกับ Seed-1.5-VL / Seed-1.6: มีการปรับปรุงอย่างชัดเจนในด้านการรับรู้แบบมัลติโหมด, ประสิทธิภาพด้านโทเคนสำหรับวิดีโอยาว และการดำเนินการแบบเอเจนต์
- Seed1.8 เทียบกับ Gemini 3 Pro / GPT-5.x: ใน benchmark มัลติโหมดหลายรายการ Seed1.8 เทียบเท่าหรือเหนือกว่า Gemini 3 Pro (SOTA ในหลายงาน VQA / motion; ดีกว่าในการรัน MMLB-NIAH 128k) อย่างไรก็ตาม การ์ดยังแสดงให้เห็นว่ามีบางด้านที่โมเดลตระกูล Gemini ยังได้เปรียบในงานความรู้เฉพาะสาขาบางประเภท — ดังนั้นลำดับเปรียบเทียบขึ้นอยู่กับ benchmark
- รุ่น Seed-Code (Doubao-Seed-Code): ออกแบบเฉพาะสำหรับงานเขียนโปรแกรม/โค้ดแบบเอเจนต์ (บริบทยาวสำหรับ codebase; benchmark SWE เฉพาะทาง) Seed1.8 เป็นโมเดลมัลติโหมดแบบเอเจนต์อเนกประสงค์ ส่วน Seed-Code เป็นรุ่นที่เน้นงานเขียนโปรแกรม
กรณีการใช้งานจริงของ Seedream 4.5 API บน CometAPI
- ผู้ช่วยวิจัยมัลติโหมดและการวิเคราะห์เอกสาร: ดึงข้อมูล, สรุป และให้เหตุผลข้ามเอกสารยาว, ชุดสไลด์ และรายงานหลายหน้า
- ความเข้าใจและการมอนิเตอร์วิดีโอยาว: การวิเคราะห์ด้านความปลอดภัย/การถ่ายทอดกีฬา, การสรุปการประชุมยาว, และการวิเคราะห์สตรีมมิงที่ประสิทธิภาพด้าน video token ของโมเดลมีความสำคัญ
- เวิร์กโฟลว์แบบเอเจนต์ / ระบบอัตโนมัติ: สถานการณ์การค้นหาเว็บหลายขั้นตอน + การรันโค้ด + การดึงข้อมูล (เช่น การวิเคราะห์คู่แข่งแบบอัตโนมัติ, การวางแผนการเดินทาง, ไปป์ไลน์งานวิจัยที่แสดงใน benchmark ภายใน)
- เครื่องมือสำหรับนักพัฒนา (หากใช้ Seed-Code): การวิเคราะห์ codebase ขนาดใหญ่, ผู้ช่วยใน IDE และการรันโค้ดแบบเอเจนต์เพื่อการทดสอบและซ่อมแซม (Seed-Code เป็นรุ่นเฉพาะทางที่แนะนำ)
- ระบบอัตโนมัติ GUI และ RPA: benchmark ด้าน screen grounding และ GUI agent บ่งชี้ว่าโมเดลสามารถทำงาน GUI แบบมีโครงสร้างได้ดีกว่ารุ่น Seed ก่อนหน้า
วิธีใช้ doubao Seed 1.8 API ผ่าน CometAPI
ขณะนี้ Doubao seed1.8 เปิดให้ใช้งานเชิงพาณิชย์ผ่าน CometAPI ในรูปแบบ hosted inference API แล้ว API รองรับ payload แบบมัลติโหมด (ข้อความ + รูปภาพ + ชิ้นส่วนวิดีโอ / timestamp) และโหมดการอนุมานที่ปรับได้เพื่อแลกเปลี่ยนระหว่างเวลาแฝงและการคำนวณกับคุณภาพของคำตอบ
รูปแบบการเรียกใช้งาน: API รองรับคำขอแบบมาตรฐานสไตล์ chat/completion, การตอบกลับแบบสตรีมมิง และโฟลว์แบบเอเจนต์ที่โมเดลออก tool calls (ค้นหา, รันโค้ด, การกระทำบน GUI) และรับผลลัพธ์จากเครื่องมือเป็นบริบทถัดไป
การสตรีมมิงและการจัดการบริบทยาว: API รองรับการสตรีมมิงและมี primitive สำหรับจัดการบริบทในตัวสำหรับเซสชันที่ยาว (เพื่อรองรับบริบท 100K+ / agent traces หลายขั้นตอน)
ขั้นตอนที่ 1: สมัครเพื่อรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาสมัครก่อน จากนั้นลงชื่อเข้าใช้ CometAPI console รับ API key สำหรับเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งคำขอ
ขั้นตอนที่ 2: ส่งคำขอไปยัง doubao Seed 1.8 API
เลือก endpoint “doubao-seed-1-8-251228 ” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมี Apifox test เพื่อความสะดวกของคุณอีกด้วย แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ เข้ากันได้กับ API แบบ Chat
ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะใช้ตอบกลับ ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะของงานและข้อมูลเอาต์พุต
