Thông số kỹ thuật của Seed 1.8 API
| Hạng mục | Thông số / ghi chú |
|---|---|
| Tên mô hình / dòng | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Phương thức hỗ trợ | Văn bản, hình ảnh, video (khả năng VLM đa phương thức), công cụ âm thanh trong hệ sinh thái (mô hình riêng cho tạo âm thanh/video). |
| Cửa sổ ngữ cảnh (văn bản) | 256K tokens |
| Khả năng video / thị giác | Được thiết kế cho lập luận video dài, hỗ trợ mã hóa thị giác hiệu quả và ngân sách token video lớn (thẻ mô hình báo cáo các thí nghiệm token video và benchmark video dài). |
| Định dạng đầu vào | Prompt văn bản tự do; tải lên hình ảnh (ảnh chụp màn hình, biểu đồ, ảnh); video dưới dạng khung đã token hóa / công cụ video để kiểm tra phân đoạn; tải lên tệp (tài liệu). |
| Định dạng đầu ra | Văn bản ngôn ngữ tự nhiên, đầu ra có cấu trúc (structured-output beta), lời gọi hàm / lời gọi công cụ, mã, và đầu ra đa phương thức thông qua điều phối. |
| Chế độ suy nghĩ / suy luận | no_think, think-low, think-medium, think-high — đánh đổi độ chính xác với độ trễ/chi phí. |
Doubao Seed 1.8 là gì?
Doubao Seed 1.8 là bản phát hành 1.8 của đội Seed: một mô hình hợp nhất LLM+VLM hướng tới năng lực tác tử tổng quát trong thế giới thực — tức là nhận thức (hình ảnh/video), suy luận, điều phối công cụ (tìm kiếm, lời gọi hàm, thực thi mã, GUI grounding) và ra quyết định nhiều bước trong một mô hình duy nhất. Thiết kế nhấn mạnh các “chế độ suy nghĩ” có thể cấu hình (đánh đổi giữa độ trễ và chiều sâu), mã hóa thị giác hiệu quả và hỗ trợ gốc cho ngữ cảnh dài và đầu vào đa phương thức để mô hình có thể hoạt động như một trợ lý/tác tử tự động trong các quy trình sản xuất.
Tính năng chính của Seed 1.8 API
- Mô hình tác tử đa phương thức hợp nhất. Tích hợp nhận thức (hình ảnh/video), suy luận (LLM), và hành động (lời gọi tool/G U I, thực thi mã) trong một mô hình thay vì pipeline tách rời. Điều này cho phép quy trình tác tử gọn nhẹ và giảm độ phức tạp điều phối.
- Ngữ cảnh siêu dài & xử lý video dài. Ngữ cảnh dài (hỗ trợ sản phẩm tới 256k tokens) và các benchmark video dài chuyên biệt (Seed1.8 cho thấy hiệu quả token video mạnh). Mô hình hỗ trợ công cụ video chọn lọc (VideoCut) để tập trung suy luận vào mốc thời gian.
- Tự động hóa GUI theo hướng tác tử & sử dụng công cụ. Benchmark và kiểm thử nội bộ (OSWorld, AndroidWorld, LiveCodeBench, các benchmark GUI grounding) cho thấy cải thiện trong nhiệm vụ tác tử GUI và tự động hóa nhiều bước. Mô hình có thể xuất lệnh grounding GUI và vận hành trong ngữ cảnh OS/web/mobile mô phỏng.
- Chế độ suy nghĩ cấu hình được để kiểm soát độ trễ/chi phí. Bốn chế độ suy luận cho phép nhà phát triển tinh chỉnh compute tại thời điểm kiểm thử cho tác vụ tương tác vs. lô chất lượng cao. Hữu ích cho hệ thống sản xuất với ngân sách độ trễ nghiêm ngặt.
- Hiệu quả token được cải thiện (đa phương thức). Seed 1.8 thể hiện hiệu quả token mạnh hơn trên các benchmark đa phương thức so với các phiên bản trước (Seed-1.5/1.6), đạt độ chính xác cao với ngân sách token nhỏ hơn trong nhiều tác vụ video dài.
- Chế độ suy nghĩ cấu hình: điều chỉnh độ sâu suy luận so với độ trễ/chi phí với các chế độ riêng biệt (
no_think→think-high) để tối ưu cho sử dụng sản xuất tương tác. - Khả năng kỹ thuật
- Hiệu quả token: Seed1.8 cho thấy hiệu quả token đáng kể so với tiền nhiệm (Seed-1.5/1.6), mang lại độ chính xác mạnh hơn ở ngân sách token thấp hơn trong các tác vụ video dài (ví dụ, đạt độ chính xác cạnh tranh ngay cả ở 32K token video). Điều này giúp giảm chi phí suy luận cho đầu vào dài.
- Suy luận & nhận thức đa phương thức: Mô hình đạt SOTA trên nhiều tác vụ VQA đa ảnh và chuyển động/nhận thức, và đứng thứ hai hoặc gần SOTA trên nhiều benchmark suy luận đa phương thức; cụ thể là vượt tiền nhiệm trên hầu như mọi chiều thị giác/video được đo.
- Sử dụng công cụ hướng tác tử & GUI grounding: Hỗ trợ được ghi nhận cho grounding GUI và các benchmark vận hành dựa trên màn hình (ScreenSpot-Pro, tác tử GUI) với điểm grounding mạnh (ví dụ, cải thiện so với Seed-1.5-VL trên ScreenSpot-Pro).
- Suy luận song song / theo bước: Tăng compute tại thời điểm kiểm thử (suy nghĩ song song) đem lại tiến bộ đo được trên benchmark toán, lập trình, và suy luận đa phương thức.
Các điểm nổi bật từ benchmark công khai được chọn của Seed1.8
- VCRBench (visual commonsense reasoning): Seed1.8 đạt 59.8 (Pass@1 được báo cáo trong bảng thẻ mô hình), cải thiện so với Seed-1.5-VL và cạnh tranh với các mô hình hàng đầu
- VideoHolmes (suy luận video): Seed1.8 65.5, vượt Seed-1.5-VL và tiệm cận các mô hình đối thủ cấp pro.
- MMLB-NIAH (đa phương thức ngữ cảnh dài, 128k): Seed1.8 đạt 72.2 Pass@1 ở ngữ cảnh 128k trong MMLB-NIAH, vượt một số mô hình pro đương đại.
- Bộ Motion & Perception: SOTA ở 5/6 tác vụ được đánh giá; ví dụ bao gồm TVBench, TempCompass và TOMATO nơi Seed1.8 thể hiện tiến bộ đáng kể về nhận thức thời gian.
- Quy trình tác tử: Trên BrowseComp và các benchmark tác tử tìm kiếm/mã khác, Seed1.8 thường đứng gần hoặc trên các mô hình pro cạnh tranh.
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Cải thiện rõ rệt về nhận thức đa phương thức, hiệu quả token cho video dài, và khả năng thực thi tác tử.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: Trên nhiều benchmark đa phương thức Seed1.8 tương đương hoặc vượt Gemini 3 Pro (SOTA trên một số tác vụ VQA / chuyển động; tốt hơn trên MMLB-NIAH chạy 128k). Tuy nhiên, thẻ mô hình cũng cho thấy các lĩnh vực nơi họ Gemini vẫn có lợi thế trên một số tác vụ kiến thức chuyên ngành — do đó thứ hạng tương đối phụ thuộc vào benchmark.
- Biến thể Seed-Code (Doubao-Seed-Code): chuyên cho tác vụ lập trình/tác tử mã (ngữ cảnh lớn cho codebase; benchmark SWE chuyên biệt). Seed1.8 là mô hình đa năng tác tử đa phương thức, trong khi Seed-Code là biến thể tập trung lập trình.
Các trường hợp sử dụng thực tế bởi Seedream 4.5 API trên CometAPI
- Trợ lý nghiên cứu đa phương thức & phân tích tài liệu: trích xuất, tóm tắt, và suy luận xuyên suốt tài liệu dài, slide deck và báo cáo nhiều trang.
- Hiểu video dài & giám sát: phân tích phát sóng an ninh/thể thao, tóm tắt cuộc họp dài, và phân tích streaming nơi hiệu quả token video dài của mô hình quan trọng.
- Quy trình tác tử / tự động hóa: kịch bản tìm kiếm web nhiều bước + thực thi mã + trích xuất dữ liệu (ví dụ, phân tích cạnh tranh tự động, lập kế hoạch du lịch, pipeline nghiên cứu được chứng minh trong benchmark nội bộ).
- Công cụ cho nhà phát triển (nếu dùng Seed-Code): phân tích codebase lớn, trợ lý IDE, và thực thi mã theo hướng tác tử cho kiểm thử & sửa lỗi (Seed-Code là biến thể chuyên dụng khuyến nghị).
- Tự động hóa GUI & RPA: các benchmark grounding màn hình và tác tử GUI cho thấy mô hình có thể thực hiện nhiệm vụ GUI có cấu trúc tốt hơn các bản phát hành Seed trước.
Cách sử dụng doubao Seed 1.8 API qua CometAPI
Doubao seed1.8 hiện được cung cấp thương mại qua CometAPI dưới dạng API suy luận được lưu trữ. API hỗ trợ payload đa phương thức (văn bản + hình ảnh + phân đoạn/timestamp video) và các chế độ suy luận có thể cấu hình để đánh đổi độ trễ và compute với chất lượng câu trả lời.
Mẫu gọi: API hỗ trợ yêu cầu kiểu chat/completion tiêu chuẩn, phản hồi streaming, và luồng tác tử nơi mô hình phát hành lời gọi công cụ (tìm kiếm, thực thi mã, hành động GUI) và nạp đầu ra công cụ làm ngữ cảnh tiếp theo.
Streaming & xử lý ngữ cảnh dài: API hỗ trợ streaming và có primitive quản lý ngữ cảnh tích hợp cho phiên dài (để cho phép ngữ cảnh 100K+ / dấu vết tác tử nhiều bước).
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào Bảng điều khiển CometAPI. Lấy API key thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại token API trong trung tâm cá nhân, nhận khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới doubao Seed 1.8 API
Chọn endpoint “doubao-seed-1-8-251228” để gửi yêu cầu API và thiết lập body của yêu cầu. Phương thức yêu cầu và body yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp kiểm thử Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Tương thích với API Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là phần mô hình sẽ phản hồi . Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và dữ liệu đầu ra.