What variants exist of Seed 1.8 and when to use each?

Seed1.8 เป็นเอเจนต์มัลติโหมดแบบอเนกประสงค์ทั่วไป รุ่นที่เกี่ยวข้องได้แก่: Seed-Code / Doubao-Seed-Code: เชี่ยวชาญสำหรับบริบทโค้ดขนาดใหญ่มาก (บาง SKU ระบุว่ารองรับบริบท 256K) และเวิร์กโฟลว์การเขียนโค้ด. Seedance / Seedream: รุ่นที่เชี่ยวชาญด้านสื่อ/การสร้าง (การสร้างวิดีโอ/ภาพ). เลือกใช้ Seed-Code สำหรับงานใน IDE/โค้ดเบส; เลือกใช้ Seed1.8 สำหรับงานเอเจนต์มัลติโหมดที่กว้างขึ้น. โปรดยืนยันหน้าต่างบริบทและความสามารถของ SKU ในเอกสารผลิตภัณฑ์.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 มุ่งเน้นการบูรณาการเชิงเอเจนต์ (การใช้เครื่องมือ การทำงานผ่าน GUI โดยเอเจนต์ เวิร์กโฟลว์หลายขั้นตอน), การจัดการบริบทยาวที่ดีขึ้น และการรับรู้วิดีโอยาว/การเคลื่อนไหวที่ดีขึ้นเมื่อเทียบกับรุ่น Seed 1.x ก่อนหน้า โดยวางตำแหน่งเป็นการอัปเกรดด้านมัลติโหมด/เอเจนต์ในสายผลิตภัณฑ์ Seed.

What input/output modalities does Seed1.8 support?

รองรับมัลติโหมดโดยกำเนิด: ข้อความ + รูปภาพ + วิดีโอ. ผลลัพธ์ประกอบด้วยคำตอบภาษาธรรมชาติ เอาต์พุตแบบมีโครงสร้าง (JSON/แผนปฏิบัติการ) โค้ด และการอ้างอิงถึงส่วนภาพ/ไทม์สแตมป์สำหรับเวิร์กโฟลว์แบบเอเจนต์. โมเดลถูกออกแบบมาโดยเฉพาะสำหรับการรับรู้แบบมัลติโหมด → การให้เหตุผล → การลงมือปฏิบัติ.

What are the “thinking” or inference modes of Seed1.8?

มีโหมด “thinking” ที่ปรับได้ — ออกแบบมาเพื่อแลกเปลี่ยนระหว่างความหน่วง/การคำนวณ กับความลึกของการให้เหตุผล (มีประโยชน์เมื่อคุณต้องสร้างสมดุลระหว่างความเป็นปฏิสัมพันธ์กับคุณภาพของคำตอบ). ใช้โหมดเหล่านี้เพื่อปรับให้เหมาะกับ UI แบบโต้ตอบ หรือการให้เหตุผลแบบแบตช์ที่ลึกยิ่งขึ้น.

API Doubao-Seed-1.8 ราคาประหยัด | text-to-text

ข้อกำหนดทางเทคนิคของ Seed 1.8 API

รายการ	ข้อกำหนด / หมายเหตุ
ชื่อรุ่น / ตระกูล	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
โมดาลิตีที่รองรับ	ข้อความ, รูปภาพ, วิดีโอ (ความสามารถ VLM แบบมัลติโหมด), เครื่องมือด้านเสียงในอีโคซิสเต็ม (มีโมเดลแยกสำหรับการสร้างเสียง/วิดีโอ)
หน้าต่างบริบท (ข้อความ)	256K tokens
ความสามารถด้านวิดีโอ / ภาพ	ออกแบบมาสำหรับการให้เหตุผลกับวิดีโอความยาวมาก รองรับการเข้ารหัสภาพอย่างมีประสิทธิภาพและงบประมาณ video token ขนาดใหญ่ (model card รายงานการทดลอง video token และ benchmark สำหรับวิดีโอยาว)
รูปแบบอินพุต	พรอมต์ข้อความอิสระ; การอัปโหลดรูปภาพ (ภาพหน้าจอ, กราฟ, ภาพถ่าย); วิดีโอในรูปแบบเฟรมที่ถูกแปลงเป็นโทเคน / เครื่องมือวิดีโอสำหรับตรวจสอบตามช่วงเวลา; การอัปโหลดไฟล์ (เอกสาร)
รูปแบบเอาต์พุต	ข้อความภาษาธรรมชาติ, เอาต์พุตแบบมีโครงสร้าง (structured-output beta), function calls / tool calls, โค้ด และเอาต์พุตมัลติโหมดผ่าน orchestration
โหมดการคิด / การอนุมาน	no_think, think-low, think-medium, think-high — ปรับสมดุลความแม่นยำกับเวลาแฝง/ต้นทุน

Doubao Seed 1.8 คืออะไร?

Doubao Seed 1.8 คือรุ่น 1.8 ของทีม Seed: LLM+VLM แบบรวมศูนย์ที่มุ่งเป้าไปที่ ความเป็นเอเจนต์ในโลกจริงแบบทั่วไป โดยชัดเจน — กล่าวคือ การรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล, การประสานงานเครื่องมือ (การค้นหา, function calls, การรันโค้ด, GUI grounding) และการตัดสินใจหลายขั้นตอนภายในโมเดลเดียว การออกแบบเน้น “โหมดการคิด” ที่ปรับได้ (แลกเปลี่ยนระหว่างเวลาแฝงกับความลึก), การเข้ารหัสภาพที่มีประสิทธิภาพ และการรองรับบริบทยาวและอินพุตมัลติโหมดโดยกำเนิด เพื่อให้โมเดลสามารถทำงานเป็นผู้ช่วย/เอเจนต์อัตโนมัติในเวิร์กโฟลว์การใช้งานจริงได้

คุณสมบัติหลักของ Seed 1.8 API

โมเดลเอเจนต์มัลติโหมดแบบรวมศูนย์ รวมการรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล (LLM) และการลงมือทำ (tool/G U I calls, การรันโค้ด) ไว้ในโมเดลเดียว แทนที่จะเป็นไปป์ไลน์แยกส่วน สิ่งนี้ช่วยให้เวิร์กโฟลว์เอเจนต์กระชับขึ้นและลดความซับซ้อนของ orchestration
บริบทยาวมากและการจัดการวิดีโอยาว บริบทยาว (รองรับผลิตภัณฑ์ถึง 256k tokens) และมี benchmark เฉพาะสำหรับวิดีโอยาว (Seed1.8 แสดงประสิทธิภาพด้าน video token สำหรับวิดีโอยาวได้ดี) โมเดลรองรับเครื่องมือวิดีโอแบบเลือกช่วง (VideoCut) เพื่อโฟกัสการให้เหตุผลตาม timestamp
ระบบอัตโนมัติ GUI แบบเอเจนต์และการใช้เครื่องมือ Benchmark และการทดสอบภายใน (OSWorld, AndroidWorld, LiveCodeBench, benchmark ด้าน GUI grounding) แสดงการปรับปรุงในงาน GUI agent และระบบอัตโนมัติหลายขั้นตอน โมเดลสามารถส่งออกคำสั่ง GUI grounding และทำงานในบริบท OS/web/mobile จำลองได้
โหมดการคิดที่ปรับได้เพื่อควบคุมเวลาแฝง/ต้นทุน โหมดการอนุมาน 4 แบบช่วยให้นักพัฒนาปรับการคำนวณขณะทดสอบได้สำหรับงานอินเทอร์แอคทีฟเทียบกับงานแบตช์คุณภาพสูง สิ่งนี้มีประโยชน์สำหรับระบบ production ที่มีข้อจำกัดด้านเวลาแฝงอย่างเข้มงวด
ประสิทธิภาพด้านโทเคนที่ดีขึ้น (มัลติโหมด) Seed 1.8 แสดงให้เห็นถึงประสิทธิภาพด้านโทเคนที่ดีกว่ารุ่นก่อนหน้า (ซีรีส์ Seed-1.5/1.6) ใน benchmark มัลติโหมด โดยทำความแม่นยำสูงได้ด้วยงบประมาณโทเคนที่น้อยกว่าในหลายงานวิดีโอยาว
โหมดการคิดที่ปรับได้: ปรับระดับความลึกของการอนุมานเทียบกับเวลาแฝง/ต้นทุนด้วยโหมดที่แยกชัดเจน (no_think → think-high) เพื่อจูนให้เหมาะกับการใช้งาน production แบบอินเทอร์แอคทีฟ
ความสามารถทางเทคนิค

ประสิทธิภาพด้านโทเคน: Seed1.8 แสดงประสิทธิภาพด้านโทเคนที่โดดเด่นเมื่อเทียบกับรุ่นก่อนหน้า (Seed-1.5/1.6) โดยให้ความแม่นยำที่ดีกว่าด้วยงบประมาณโทเคนที่ต่ำลงในงานวิดีโอยาว (เช่น ทำความแม่นยำที่แข่งขันได้แม้ใช้เพียง 32K video tokens) สิ่งนี้ช่วยลดต้นทุนการอนุมานสำหรับอินพุตที่ยาว
การให้เหตุผลและการรับรู้แบบมัลติโหมด: โมเดลทำสถิติ SOTA ในหลายงาน multi-image VQA และงาน motion/perception และได้อันดับสองหรือใกล้เคียง SOTA ใน benchmark การให้เหตุผลมัลติโหมดหลายรายการ; โดยเฉพาะอย่างยิ่ง โมเดลทำได้ดีกว่ารุ่นก่อนหน้าในแทบทุกมิติด้านภาพ/วิดีโอที่มีการวัดผล
การใช้เครื่องมือแบบเอเจนต์และ GUI grounding: มีการระบุการรองรับ GUI grounding และ benchmark การปฏิบัติงานจากหน้าจอ (ScreenSpot-Pro, GUI agenting) พร้อมคะแนน grounding ที่แข็งแกร่ง (เช่น ดีขึ้นจาก Seed-1.5-VL บน ScreenSpot-Pro)
การให้เหตุผลแบบขนาน / เป็นขั้นตอน: การเพิ่มการคำนวณขณะทดสอบ (parallel thinking) ให้ผลการปรับปรุงที่วัดได้ใน benchmark ด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลแบบมัลติโหมด

ไฮไลต์ benchmark สาธารณะที่คัดเลือกมาของ Seed1.8

VCRBench (การให้เหตุผลเชิงสามัญสำนึกจากภาพ): Seed1.8 ได้คะแนน 59.8 (รายงาน Pass@1 ในตาราง model card) ซึ่งดีกว่า Seed-1.5-VL และแข่งขันได้กับโมเดลชั้นนำ
VideoHolmes (การให้เหตุผลกับวิดีโอ): Seed1.8 ได้ 65.5, เหนือกว่า Seed-1.5-VL และเข้าใกล้โมเดลคู่แข่งระดับโปร
MMLB-NIAH (บริบทยาวแบบมัลติโหมด, 128k): Seed1.8 ทำได้ 72.2 Pass@1 ที่บริบท 128k ใน MMLB-NIAH เหนือกว่าโมเดลโปรร่วมสมัยบางรุ่น
ชุด Motion & Perception: SOTA ใน 5 จาก 6 งานที่ประเมิน; ตัวอย่างได้แก่ TVBench, TempCompass และ TOMATO ซึ่ง Seed1.8 แสดงการปรับปรุงอย่างมากในด้านการรับรู้เชิงเวลา
เวิร์กโฟลว์แบบเอเจนต์: ใน BrowseComp และ benchmark ด้านการค้นหา/โค้ดแบบเอเจนต์อื่น ๆ Seed1.8 มักอยู่อันดับใกล้เคียงหรือสูงกว่าโมเดลโปรคู่แข่ง

Seed 1.8 เทียบกับ Gemini 3 Pro / GPT-5.x

Seed1.8 เทียบกับ Seed-1.5-VL / Seed-1.6: มีการปรับปรุงอย่างชัดเจนในด้านการรับรู้แบบมัลติโหมด, ประสิทธิภาพด้านโทเคนสำหรับวิดีโอยาว และการดำเนินการแบบเอเจนต์
Seed1.8 เทียบกับ Gemini 3 Pro / GPT-5.x: ใน benchmark มัลติโหมดหลายรายการ Seed1.8 เทียบเท่าหรือเหนือกว่า Gemini 3 Pro (SOTA ในหลายงาน VQA / motion; ดีกว่าในการรัน MMLB-NIAH 128k) อย่างไรก็ตาม การ์ดยังแสดงให้เห็นว่ามีบางด้านที่โมเดลตระกูล Gemini ยังได้เปรียบในงานความรู้เฉพาะสาขาบางประเภท — ดังนั้นลำดับเปรียบเทียบขึ้นอยู่กับ benchmark
รุ่น Seed-Code (Doubao-Seed-Code): ออกแบบเฉพาะสำหรับงานเขียนโปรแกรม/โค้ดแบบเอเจนต์ (บริบทยาวสำหรับ codebase; benchmark SWE เฉพาะทาง) Seed1.8 เป็นโมเดลมัลติโหมดแบบเอเจนต์อเนกประสงค์ ส่วน Seed-Code เป็นรุ่นที่เน้นงานเขียนโปรแกรม

กรณีการใช้งานจริงของ Seedream 4.5 API บน CometAPI

ผู้ช่วยวิจัยมัลติโหมดและการวิเคราะห์เอกสาร: ดึงข้อมูล, สรุป และให้เหตุผลข้ามเอกสารยาว, ชุดสไลด์ และรายงานหลายหน้า
ความเข้าใจและการมอนิเตอร์วิดีโอยาว: การวิเคราะห์ด้านความปลอดภัย/การถ่ายทอดกีฬา, การสรุปการประชุมยาว, และการวิเคราะห์สตรีมมิงที่ประสิทธิภาพด้าน video token ของโมเดลมีความสำคัญ
เวิร์กโฟลว์แบบเอเจนต์ / ระบบอัตโนมัติ: สถานการณ์การค้นหาเว็บหลายขั้นตอน + การรันโค้ด + การดึงข้อมูล (เช่น การวิเคราะห์คู่แข่งแบบอัตโนมัติ, การวางแผนการเดินทาง, ไปป์ไลน์งานวิจัยที่แสดงใน benchmark ภายใน)
เครื่องมือสำหรับนักพัฒนา (หากใช้ Seed-Code): การวิเคราะห์ codebase ขนาดใหญ่, ผู้ช่วยใน IDE และการรันโค้ดแบบเอเจนต์เพื่อการทดสอบและซ่อมแซม (Seed-Code เป็นรุ่นเฉพาะทางที่แนะนำ)
ระบบอัตโนมัติ GUI และ RPA: benchmark ด้าน screen grounding และ GUI agent บ่งชี้ว่าโมเดลสามารถทำงาน GUI แบบมีโครงสร้างได้ดีกว่ารุ่น Seed ก่อนหน้า

วิธีใช้ doubao Seed 1.8 API ผ่าน CometAPI

ขณะนี้ Doubao seed1.8 เปิดให้ใช้งานเชิงพาณิชย์ผ่าน CometAPI ในรูปแบบ hosted inference API แล้ว API รองรับ payload แบบมัลติโหมด (ข้อความ + รูปภาพ + ชิ้นส่วนวิดีโอ / timestamp) และโหมดการอนุมานที่ปรับได้เพื่อแลกเปลี่ยนระหว่างเวลาแฝงและการคำนวณกับคุณภาพของคำตอบ

รูปแบบการเรียกใช้งาน: API รองรับคำขอแบบมาตรฐานสไตล์ chat/completion, การตอบกลับแบบสตรีมมิง และโฟลว์แบบเอเจนต์ที่โมเดลออก tool calls (ค้นหา, รันโค้ด, การกระทำบน GUI) และรับผลลัพธ์จากเครื่องมือเป็นบริบทถัดไป

การสตรีมมิงและการจัดการบริบทยาว: API รองรับการสตรีมมิงและมี primitive สำหรับจัดการบริบทในตัวสำหรับเซสชันที่ยาว (เพื่อรองรับบริบท 100K+ / agent traces หลายขั้นตอน)

ขั้นตอนที่ 1: สมัครเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาสมัครก่อน จากนั้นลงชื่อเข้าใช้ CometAPI console รับ API key สำหรับเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งคำขอ

ขั้นตอนที่ 2: ส่งคำขอไปยัง doubao Seed 1.8 API

เลือก endpoint “doubao-seed-1-8-251228 ” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมี Apifox test เพื่อความสะดวกของคุณอีกด้วย แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ เข้ากันได้กับ API แบบ Chat

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะใช้ตอบกลับ ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะของงานและข้อมูลเอาต์พุต

ราคา Comet (USD / M Tokens)	ราคาทางการ (USD / M Tokens)	ส่วนลด
อินพุต:$0.2/M เอาต์พุต:$1.6/M	อินพุต:$0.25/M เอาต์พุต:$2/M	-20%

ข้อกำหนดทางเทคนิคของ Seed 1.8 API

รายการ	ข้อกำหนด / หมายเหตุ
ชื่อรุ่น / ตระกูล	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
โมดาลิตีที่รองรับ	ข้อความ, รูปภาพ, วิดีโอ (ความสามารถ VLM แบบมัลติโหมด), เครื่องมือด้านเสียงในอีโคซิสเต็ม (มีโมเดลแยกสำหรับการสร้างเสียง/วิดีโอ)
หน้าต่างบริบท (ข้อความ)	256K tokens
ความสามารถด้านวิดีโอ / ภาพ	ออกแบบมาสำหรับการให้เหตุผลกับวิดีโอความยาวมาก รองรับการเข้ารหัสภาพอย่างมีประสิทธิภาพและงบประมาณ video token ขนาดใหญ่ (model card รายงานการทดลอง video token และ benchmark สำหรับวิดีโอยาว)
รูปแบบอินพุต	พรอมต์ข้อความอิสระ; การอัปโหลดรูปภาพ (ภาพหน้าจอ, กราฟ, ภาพถ่าย); วิดีโอในรูปแบบเฟรมที่ถูกแปลงเป็นโทเคน / เครื่องมือวิดีโอสำหรับตรวจสอบตามช่วงเวลา; การอัปโหลดไฟล์ (เอกสาร)
รูปแบบเอาต์พุต	ข้อความภาษาธรรมชาติ, เอาต์พุตแบบมีโครงสร้าง (structured-output beta), function calls / tool calls, โค้ด และเอาต์พุตมัลติโหมดผ่าน orchestration
โหมดการคิด / การอนุมาน	no_think, think-low, think-medium, think-high — ปรับสมดุลความแม่นยำกับเวลาแฝง/ต้นทุน

Doubao Seed 1.8 คืออะไร?

คุณสมบัติหลักของ Seed 1.8 API

โมเดลเอเจนต์มัลติโหมดแบบรวมศูนย์ รวมการรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล (LLM) และการลงมือทำ (tool/G U I calls, การรันโค้ด) ไว้ในโมเดลเดียว แทนที่จะเป็นไปป์ไลน์แยกส่วน สิ่งนี้ช่วยให้เวิร์กโฟลว์เอเจนต์กระชับขึ้นและลดความซับซ้อนของ orchestration
บริบทยาวมากและการจัดการวิดีโอยาว บริบทยาว (รองรับผลิตภัณฑ์ถึง 256k tokens) และมี benchmark เฉพาะสำหรับวิดีโอยาว (Seed1.8 แสดงประสิทธิภาพด้าน video token สำหรับวิดีโอยาวได้ดี) โมเดลรองรับเครื่องมือวิดีโอแบบเลือกช่วง (VideoCut) เพื่อโฟกัสการให้เหตุผลตาม timestamp
ระบบอัตโนมัติ GUI แบบเอเจนต์และการใช้เครื่องมือ Benchmark และการทดสอบภายใน (OSWorld, AndroidWorld, LiveCodeBench, benchmark ด้าน GUI grounding) แสดงการปรับปรุงในงาน GUI agent และระบบอัตโนมัติหลายขั้นตอน โมเดลสามารถส่งออกคำสั่ง GUI grounding และทำงานในบริบท OS/web/mobile จำลองได้
โหมดการคิดที่ปรับได้เพื่อควบคุมเวลาแฝง/ต้นทุน โหมดการอนุมาน 4 แบบช่วยให้นักพัฒนาปรับการคำนวณขณะทดสอบได้สำหรับงานอินเทอร์แอคทีฟเทียบกับงานแบตช์คุณภาพสูง สิ่งนี้มีประโยชน์สำหรับระบบ production ที่มีข้อจำกัดด้านเวลาแฝงอย่างเข้มงวด
ประสิทธิภาพด้านโทเคนที่ดีขึ้น (มัลติโหมด) Seed 1.8 แสดงให้เห็นถึงประสิทธิภาพด้านโทเคนที่ดีกว่ารุ่นก่อนหน้า (ซีรีส์ Seed-1.5/1.6) ใน benchmark มัลติโหมด โดยทำความแม่นยำสูงได้ด้วยงบประมาณโทเคนที่น้อยกว่าในหลายงานวิดีโอยาว
โหมดการคิดที่ปรับได้: ปรับระดับความลึกของการอนุมานเทียบกับเวลาแฝง/ต้นทุนด้วยโหมดที่แยกชัดเจน (no_think → think-high) เพื่อจูนให้เหมาะกับการใช้งาน production แบบอินเทอร์แอคทีฟ
ความสามารถทางเทคนิค

ประสิทธิภาพด้านโทเคน: Seed1.8 แสดงประสิทธิภาพด้านโทเคนที่โดดเด่นเมื่อเทียบกับรุ่นก่อนหน้า (Seed-1.5/1.6) โดยให้ความแม่นยำที่ดีกว่าด้วยงบประมาณโทเคนที่ต่ำลงในงานวิดีโอยาว (เช่น ทำความแม่นยำที่แข่งขันได้แม้ใช้เพียง 32K video tokens) สิ่งนี้ช่วยลดต้นทุนการอนุมานสำหรับอินพุตที่ยาว
การให้เหตุผลและการรับรู้แบบมัลติโหมด: โมเดลทำสถิติ SOTA ในหลายงาน multi-image VQA และงาน motion/perception และได้อันดับสองหรือใกล้เคียง SOTA ใน benchmark การให้เหตุผลมัลติโหมดหลายรายการ; โดยเฉพาะอย่างยิ่ง โมเดลทำได้ดีกว่ารุ่นก่อนหน้าในแทบทุกมิติด้านภาพ/วิดีโอที่มีการวัดผล
การใช้เครื่องมือแบบเอเจนต์และ GUI grounding: มีการระบุการรองรับ GUI grounding และ benchmark การปฏิบัติงานจากหน้าจอ (ScreenSpot-Pro, GUI agenting) พร้อมคะแนน grounding ที่แข็งแกร่ง (เช่น ดีขึ้นจาก Seed-1.5-VL บน ScreenSpot-Pro)
การให้เหตุผลแบบขนาน / เป็นขั้นตอน: การเพิ่มการคำนวณขณะทดสอบ (parallel thinking) ให้ผลการปรับปรุงที่วัดได้ใน benchmark ด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลแบบมัลติโหมด

ไฮไลต์ benchmark สาธารณะที่คัดเลือกมาของ Seed1.8

VCRBench (การให้เหตุผลเชิงสามัญสำนึกจากภาพ): Seed1.8 ได้คะแนน 59.8 (รายงาน Pass@1 ในตาราง model card) ซึ่งดีกว่า Seed-1.5-VL และแข่งขันได้กับโมเดลชั้นนำ
VideoHolmes (การให้เหตุผลกับวิดีโอ): Seed1.8 ได้ 65.5, เหนือกว่า Seed-1.5-VL และเข้าใกล้โมเดลคู่แข่งระดับโปร
MMLB-NIAH (บริบทยาวแบบมัลติโหมด, 128k): Seed1.8 ทำได้ 72.2 Pass@1 ที่บริบท 128k ใน MMLB-NIAH เหนือกว่าโมเดลโปรร่วมสมัยบางรุ่น
ชุด Motion & Perception: SOTA ใน 5 จาก 6 งานที่ประเมิน; ตัวอย่างได้แก่ TVBench, TempCompass และ TOMATO ซึ่ง Seed1.8 แสดงการปรับปรุงอย่างมากในด้านการรับรู้เชิงเวลา
เวิร์กโฟลว์แบบเอเจนต์: ใน BrowseComp และ benchmark ด้านการค้นหา/โค้ดแบบเอเจนต์อื่น ๆ Seed1.8 มักอยู่อันดับใกล้เคียงหรือสูงกว่าโมเดลโปรคู่แข่ง

Seed 1.8 เทียบกับ Gemini 3 Pro / GPT-5.x

Seed1.8 เทียบกับ Seed-1.5-VL / Seed-1.6: มีการปรับปรุงอย่างชัดเจนในด้านการรับรู้แบบมัลติโหมด, ประสิทธิภาพด้านโทเคนสำหรับวิดีโอยาว และการดำเนินการแบบเอเจนต์
Seed1.8 เทียบกับ Gemini 3 Pro / GPT-5.x: ใน benchmark มัลติโหมดหลายรายการ Seed1.8 เทียบเท่าหรือเหนือกว่า Gemini 3 Pro (SOTA ในหลายงาน VQA / motion; ดีกว่าในการรัน MMLB-NIAH 128k) อย่างไรก็ตาม การ์ดยังแสดงให้เห็นว่ามีบางด้านที่โมเดลตระกูล Gemini ยังได้เปรียบในงานความรู้เฉพาะสาขาบางประเภท — ดังนั้นลำดับเปรียบเทียบขึ้นอยู่กับ benchmark
รุ่น Seed-Code (Doubao-Seed-Code): ออกแบบเฉพาะสำหรับงานเขียนโปรแกรม/โค้ดแบบเอเจนต์ (บริบทยาวสำหรับ codebase; benchmark SWE เฉพาะทาง) Seed1.8 เป็นโมเดลมัลติโหมดแบบเอเจนต์อเนกประสงค์ ส่วน Seed-Code เป็นรุ่นที่เน้นงานเขียนโปรแกรม

กรณีการใช้งานจริงของ Seedream 4.5 API บน CometAPI

ผู้ช่วยวิจัยมัลติโหมดและการวิเคราะห์เอกสาร: ดึงข้อมูล, สรุป และให้เหตุผลข้ามเอกสารยาว, ชุดสไลด์ และรายงานหลายหน้า
ความเข้าใจและการมอนิเตอร์วิดีโอยาว: การวิเคราะห์ด้านความปลอดภัย/การถ่ายทอดกีฬา, การสรุปการประชุมยาว, และการวิเคราะห์สตรีมมิงที่ประสิทธิภาพด้าน video token ของโมเดลมีความสำคัญ
เวิร์กโฟลว์แบบเอเจนต์ / ระบบอัตโนมัติ: สถานการณ์การค้นหาเว็บหลายขั้นตอน + การรันโค้ด + การดึงข้อมูล (เช่น การวิเคราะห์คู่แข่งแบบอัตโนมัติ, การวางแผนการเดินทาง, ไปป์ไลน์งานวิจัยที่แสดงใน benchmark ภายใน)
เครื่องมือสำหรับนักพัฒนา (หากใช้ Seed-Code): การวิเคราะห์ codebase ขนาดใหญ่, ผู้ช่วยใน IDE และการรันโค้ดแบบเอเจนต์เพื่อการทดสอบและซ่อมแซม (Seed-Code เป็นรุ่นเฉพาะทางที่แนะนำ)
ระบบอัตโนมัติ GUI และ RPA: benchmark ด้าน screen grounding และ GUI agent บ่งชี้ว่าโมเดลสามารถทำงาน GUI แบบมีโครงสร้างได้ดีกว่ารุ่น Seed ก่อนหน้า

Doubao-Seed-1.8

โมเดลเพิ่มเติม

Claude Opus 4.6

Claude Sonnet 4.6

GPT-5.4 nano

GPT-5.4 mini

Claude Mythos Preview

Claude Mythos Preview

mimo-v2-pro

บล็อกที่เกี่ยวข้อง

วิธีใช้ Doubao Seed 1.8 API อย่างไร? คู่มือฉบับสมบูรณ์

Doubao-Seed-1.8

โมเดลเพิ่มเติม

Claude Opus 4.6

Claude Sonnet 4.6

GPT-5.4 nano

GPT-5.4 mini

Claude Mythos Preview

Claude Mythos Preview

mimo-v2-pro

บล็อกที่เกี่ยวข้อง

วิธีใช้ Doubao Seed 1.8 API อย่างไร? คู่มือฉบับสมบูรณ์