Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

อินพุต:$0.2/M
เอาต์พุต:$1.6/M
บริบท:256k
เอาต์พุตสูงสุด:224k
Doubao-Seed-1.8 ได้รับการปรับให้เหมาะสมสำหรับสถานการณ์ของเอเจนต์แบบมัลติโมดัล ในด้านความสามารถของเอเจนต์ การใช้เครื่องมือและความสามารถในการปฏิบัติตามคำสั่งที่ซับซ้อนได้รับการปรับปรุงอย่างมาก ในด้านความเข้าใจแบบมัลติโมดัล ความสามารถเชิงภาพพื้นฐานได้รับการปรับปรุงอย่างมาก ทำให้สามารถทำความเข้าใจวิดีโอที่ยาวมากได้แม้ที่อัตราเฟรมต่ำ ความเข้าใจการเคลื่อนไหวในวิดีโอ ความเข้าใจเชิงพื้นที่ที่ซับซ้อน และความสามารถในการแยกวิเคราะห์โครงสร้างเอกสารก็ได้รับการปรับให้เหมาะสมเพิ่มเติม และขณะนี้รองรับการจัดการบริบทแบบอัจฉริยะในตัว ทำให้ผู้ใช้สามารถกำหนดกลยุทธ์บริบทได้
ใหม่
ใช้งานเชิงพาณิชย์
Playground
ภาพรวม
คุณสมบัติ
ราคา
API

ข้อมูลจำเพาะทางเทคนิคของ Seed 1.8 API

รายการสเปก / หมายเหตุ
ชื่อรุ่น / ตระกูลDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
โมดาลิตีที่รองรับข้อความ, รูปภาพ, วิดีโอ (ความสามารถ VLM แบบหลายโมดาลิตี), เครื่องมือเสียงในระบบนิเวศ (มีโมเดลแยกสำหรับการสร้างเสียง/วิดีโอ)
หน้าต่างบริบท (ข้อความ)256K tokens
ขีดความสามารถด้านวิดีโอ/ภาพออกแบบมาสำหรับการให้เหตุผลกับวิดีโอแบบยาว รองรับการเข้ารหัสภาพที่มีประสิทธิภาพและงบประมาณโทเค็นวิดีโอขนาดใหญ่ (การ์ดโมเดลรายงานการทดลองโทเค็นวิดีโอและชุดทดสอบวิดีโอแบบยาว)
รูปแบบอินพุตพรอมต์แบบข้อความอิสระ; อัปโหลดภาพ (สกรีนช็อต, แผนภูมิ, รูปถ่าย); วิดีโอในรูปเฟรมที่ทำเป็นโทเค็น / เครื่องมือวิดีโอสำหรับตรวจสอบช่วงเวลา; อัปโหลดไฟล์ (เอกสาร)
รูปแบบเอาต์พุตข้อความภาษาธรรมชาติ, เอาต์พุตแบบมีโครงสร้าง (structured-output beta), การเรียกฟังก์ชัน/การเรียกเครื่องมือ, โค้ด และเอาต์พุตแบบหลายโมดาลิตีผ่านออร์เคสเตรชัน
โหมดการคิด/การอนุมานno_think, think-low, think-medium, think-high — ปรับสมดุลความแม่นยำเทียบกับเวลาแฝง/ต้นทุน

Doubao Seed 1.8 คืออะไร?

Doubao Seed 1.8 คือรุ่น 1.8 จากทีม Seed: โมเดลแบบรวม LLM+VLM ที่มุ่งเป้าอย่างชัดเจนไปที่ ความเป็นเอเจนต์ในโลกจริงแบบทั่วไป ได้แก่ การรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล, การจัดออร์เคสเตรชันเครื่องมือ (ค้นหา, เรียกฟังก์ชัน, รันโค้ด, GUI grounding) และการตัดสินใจหลายขั้นตอนภายในโมเดลเดียว การออกแบบให้ความสำคัญกับ “โหมดการคิด” แบบปรับแต่งได้ (แลกเปลี่ยนระหว่างเวลาแฝงกับความลึก), การเข้ารหัสภาพที่มีประสิทธิภาพ และการรองรับบริบทยาวและอินพุตหลายโมดาลิตีแบบเนทีฟ เพื่อให้โมเดลทำงานเป็นผู้ช่วย/เอเจนต์อัตโนมัติในเวิร์กโฟลว์ระดับโปรดักชัน

คุณสมบัติหลักของ Seed 1.8 API

  1. ความเป็นโมเดลเอเจนต์แบบหลายโมดาลิตีที่รวมเป็นหนึ่งเดียว รวมการรับรู้ (ภาพ/วิดีโอ), การให้เหตุผล (LLM) และการลงมือทำ (การเรียกเครื่องมือ/G U I, การรันโค้ด) ไว้ในโมเดลเดียว แทนการแยกเป็นหลายส่วน ช่วยให้เวิร์กโฟลว์เอเจนต์กะทัดรัดและลดความซับซ้อนของออร์เคสเตรชัน
  2. บริบทยาวพิเศษและการจัดการวิดีโอแบบยาว บริบทยาว (รองรับถึง 256k tokens) และชุดทดสอบเฉพาะสำหรับวิดีโอแบบยาว (Seed1.8 แสดงประสิทธิภาพโทเค็นวิดีโอที่แข็งแกร่ง) โมเดลรองรับเครื่องมือวิดีโอแบบเลือกใช้ (VideoCut) เพื่อโฟกัสการให้เหตุผลตามช่วงเวลา
  3. ระบบอัตโนมัติ GUI แบบเอเจนต์และการใช้เครื่องมือ ชุดทดสอบและการทดสอบภายใน (OSWorld, AndroidWorld, LiveCodeBench, ชุดทดสอบ GUI grounding) แสดงให้เห็นถึงการปรับปรุงในงานเอเจนต์ GUI และการทำงานอัตโนมัติหลายขั้นตอน โมเดลสามารถส่งคำสั่ง GUI grounding และทำงานในบริบท OS/เว็บ/มือถือที่จำลองได้
  4. โหมดการคิดที่ปรับแต่งได้เพื่อควบคุมเวลาแฝง/ต้นทุน มีโหมดการอนุมาน 4 ระดับ ให้ผู้พัฒนาปรับแต่งการคำนวณขณะทดสอบ สำหรับงานแบบอินเทอร์แอคทีฟเทียบกับงานแบตช์คุณภาพสูง เหมาะกับระบบโปรดักชันที่มีงบเวลาแฝงเข้มงวด
  5. ประสิทธิภาพโทเค็นที่ดีขึ้น (หลายโมดาลิตี) Seed 1.8 แสดงประสิทธิภาพโทเค็นที่แข็งแกร่งขึ้นในชุดทดสอบหลายโมดาลิตีเมื่อเทียบกับรุ่นก่อน (ซีรีส์ Seed-1.5/1.6) ทำความแม่นยำสูงด้วยงบโทเค็นที่เล็กลงในหลายงานวิดีโอแบบยาว
  6. โหมดการคิดที่ปรับแต่งได้: แลกความลึกของการอนุมานกับเวลาแฝง/ต้นทุนด้วยโหมดที่แตกต่าง (no_think → think-high) เพื่อปรับใช้สำหรับงานโปรดักชันแบบอินเทอร์แอคทีฟ
  7. ความสามารถทางเทคนิค
  • ประสิทธิภาพโทเค็น: Seed1.8 แสดงประสิทธิภาพโทเค็นที่โดดเด่นเทียบกับรุ่นก่อน (Seed-1.5/1.6) ให้ความแม่นยำที่สูงขึ้นด้วยงบโทเค็นที่ต่ำลงในงานวิดีโอแบบยาว (เช่น ทำความแม่นยำแข่งได้แม้ที่ 32K video tokens) ช่วยลดต้นทุนอนุมานสำหรับอินพุตยาว
  • การให้เหตุผลและการรับรู้แบบหลายโมดาลิตี: โมเดลทำได้ระดับ SOTA ในหลายงาน VQA หลายภาพและงานการเคลื่อนไหว/การรับรู้ และทำได้อันดับสองหรือใกล้ SOTA ในหลายชุดทดสอบการให้เหตุผลแบบหลายโมดาลิตี โดยเฉพาะเหนือกว่ารุ่นก่อนหน้าในเกือบทุกมิติด้านภาพ/วิดีโอที่วัดผล
  • การใช้เครื่องมือแบบเอเจนต์และ GUI grounding: มีการบันทึกรองรับ GUI grounding และชุดทดสอบการทำงานบนหน้าจอ (ScreenSpot-Pro, GUI agenting) ด้วยคะแนน grounding ที่แข็งแกร่ง (เช่น ดีกว่า Seed-1.5-VL บน ScreenSpot-Pro)
  • การให้เหตุผลแบบขนาน/แบบขั้นตอน: การเพิ่มการคำนวณขณะทดสอบ (parallel thinking) ให้ผลลัพธ์ดีขึ้นอย่างมีนัยสำคัญในงานคณิต, โค้ดดิ้ง และชุดทดสอบการให้เหตุผลแบบหลายโมดาลิตี

จุดเด่นในชุดทดสอบสาธารณะที่คัดเลือกของ Seed1.8

  • VCRBench (visual commonsense reasoning): Seed1.8 ได้คะแนน 59.8 (Pass@1 ตามที่รายงานในตารางการ์ดโมเดล) ดีขึ้นจาก Seed-1.5-VL และแข่งขันกับโมเดลระดับท็อป
  • VideoHolmes (video reasoning): Seed1.8 65.5 เหนือกว่า Seed-1.5-VL และเข้าใกล้โมเดลคู่แข่งระดับโปร
  • MMLB-NIAH (multimodal long-context, 128k): Seed1.8 ทำได้ 72.2 Pass@1 ที่บริบท 128k แซงหน้าโมเดลโปรร่วมสมัยบางตัว
  • ชุด Motion & Perception: SOTA ใน 5 จาก 6 งานที่ประเมิน; เช่น TVBench, TempCompass และ TOMATO ที่ Seed1.8 แสดงความสามารถด้านการรับรู้เชิงเวลาเพิ่มขึ้นมาก
  • เวิร์กโฟลว์แบบเอเจนต์: บน BrowseComp และชุดทดสอบการค้นหา/โค้ดแบบเอเจนต์อื่น ๆ Seed1.8 มักอยู่ใกล้หรือเหนือกว่าคู่แข่งระดับโปร

Seed 1.8 เทียบกับ Gemini 3 Pro / GPT-5.x

  • Seed1.8 เทียบกับ Seed-1.5-VL / Seed-1.6: เห็นความก้าวหน้าอย่างชัดเจนในด้านการรับรู้แบบหลายโมดาลิตี, ประสิทธิภาพโทเค็นสำหรับวิดีโอแบบยาว และการดำเนินการแบบเอเจนต์
  • Seed1.8 เทียบกับ Gemini 3 Pro / GPT-5.x: ในหลายชุดทดสอบแบบหลายโมดาลิตี Seed1.8 ตรงกับหรือเหนือกว่า Gemini 3 Pro (SOTA ในหลายงาน VQA/การเคลื่อนไหว; ดีกว่าใน MMLB-NIAH รัน 128k) อย่างไรก็ตาม การ์ดโมเดลยังแสดงพื้นที่ที่ตระกูล Gemini ยังได้เปรียบในงานความรู้เฉพาะสาขาบางด้าน — ดังนั้นการจัดอันดับสัมพัทธ์ขึ้นอยู่กับชุดทดสอบ
  • Seed-Code variant (Doubao-Seed-Code): เชี่ยวชาญด้านงานโปรแกรมมิ่ง/โค้ดแบบเอเจนต์ (บริบทใหญ่สำหรับโค้ดเบส; ชุดทดสอบ SWE เฉพาะทาง) Seed1.8 เป็นโมเดลมัลติโหมดสายทั่วไปแบบเอเจนต์ ส่วน Seed-Code เป็นเวอร์ชันที่โฟกัสงานโปรแกรมมิ่ง

กรณีใช้งานจริงผ่าน Seedream 4.5 API บน CometAPI

  • ผู้ช่วยวิจัยแบบหลายโมดาลิตีและการวิเคราะห์เอกสาร: ดึงข้อมูล, สรุป และให้เหตุผลข้ามเอกสารยาว, สไลด์ และรายงานหลายหน้า
  • ความเข้าใจและการมอนิเตอร์วิดีโอแบบยาว: การวิเคราะห์งานรักษาความปลอดภัย/ออกอากาศกีฬา, สรุปการประชุมยาว และการวิเคราะห์สตรีมมิงที่ประสิทธิภาพโทเค็นวิดีโอแบบยาวของโมเดลมีความสำคัญ
  • เวิร์กโฟลว์แบบเอเจนต์/ระบบอัตโนมัติ: สถานการณ์ค้นเว็บหลายขั้น + รันโค้ด + ดึงข้อมูล (เช่น การวิเคราะห์คู่แข่งอัตโนมัติ, วางแผนการเดินทาง, ไปป์ไลน์วิจัยที่แสดงในชุดทดสอบภายใน)
  • เครื่องมือสำหรับนักพัฒนา (เมื่อใช้ Seed-Code): การวิเคราะห์โค้ดเบสขนาดใหญ่, ผู้ช่วยใน IDE และการรันโค้ดแบบเอเจนต์เพื่อทดสอบและแก้ไข (Seed-Code เป็นเวอร์ชันเฉพาะทางที่แนะนำ)
  • ระบบอัตโนมัติ GUI และ RPA: ชุดทดสอบการยึดโยงกับหน้าจอและเอเจนต์ GUI บ่งชี้ว่าโมเดลสามารถทำงาน GUI แบบมีโครงสร้างได้ดีกว่ารุ่น Seed ก่อนหน้า

วิธีใช้ doubao Seed 1.8 API ผ่าน CometAPI

Doubao seed1.8 ให้บริการเชิงพาณิชย์ผ่าน CometAPI ในรูปแบบ API ให้อนุมานแบบโฮสต์แล้ว API รองรับเพย์โหลดหลายโมดาลิตี (ข้อความ + รูปภาพ + เฟรม/ช่วงเวลาของวิดีโอ) และโหมดการอนุมานที่ปรับแต่งได้เพื่อแลกเวลาแฝงและการคำนวณกับคุณภาพคำตอบ

รูปแบบการเรียก: API รองรับคำขอแบบแชต/คอมพลีชันมาตรฐาน, การสตรีมผลลัพธ์ และโฟลว์แบบเอเจนต์ที่โมเดลออกคำสั่งเรียกเครื่องมือ (ค้นหา, รันโค้ด, การทำงานกับ GUI) และรับอินพุตผลลัพธ์ของเครื่องมือเข้ามาเป็นบริบทในขั้นตอนถัดไป

การสตรีมและการจัดการบริบทยาว: API รองรับการสตรีมและมีพริมิทีฟจัดการบริบทในตัวสำหรับเซสชันยาว (เพื่อให้ได้บริบท 100K+ / เทรซเอเจนต์หลายขั้นตอน)

ขั้นตอนที่ 1: สมัครรับ API Key

เข้าสู่ระบบที่ cometapi.com. หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน เข้าสู่ CometAPI console. รับ API key สำหรับเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่ง

Flux.2 Flex API

ขั้นตอนที่ 2: ส่งคำขอไปยัง doubao Seed 1.8 API

เลือกเอ็นด์พอยต์ “doubao-seed-1-8-251228” เพื่อส่งคำขอ API และตั้งค่าบอดี้ของคำขอ วิธีการและบอดี้ของคำขอหาได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมี Apifox สำหรับทดสอบเพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ เข้ากันได้กับ Chat APIs

แทรกคำถามหรือคำขอของคุณลงในฟิลด์ content — โมเดลจะตอบสนองต่อส่วนนี้ ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต

คำถามที่พบบ่อย

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

คุณสมบัติสำหรับ Doubao-Seed-1.8

สำรวจคุณสมบัติหลักของ Doubao-Seed-1.8 ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ Doubao-Seed-1.8

สำรวจราคาที่แข่งขันได้สำหรับ Doubao-Seed-1.8 ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า Doubao-Seed-1.8 สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$0.2/M
เอาต์พุต:$1.6/M
อินพุต:$0.25/M
เอาต์พุต:$2/M
-20%

โค้ดตัวอย่างและ API สำหรับ Doubao-Seed-1.8

ขณะนี้ Doubao seed1.8 เปิดให้ใช้งานเชิงพาณิชย์ผ่าน CometAPI ในรูปแบบ API สำหรับการอนุมานแบบโฮสต์แล้ว. API นี้รองรับเพย์โหลดแบบหลายรูปแบบ (ข้อความ + รูปภาพ + ส่วนย่อยของวิดีโอ / การประทับเวลา) และมีโหมดการอนุมานที่ปรับตั้งค่าได้เพื่อปรับสมดุลระหว่างความหน่วงและกำลังประมวลผลกับคุณภาพของคำตอบ.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

โมเดลเพิ่มเติม