Thông số kỹ thuật của API Seed 1.8
| Mục | Thông số kỹ thuật / ghi chú |
|---|---|
| Tên model / họ model | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Phương thức hỗ trợ | Văn bản, hình ảnh, video (khả năng VLM đa phương thức), công cụ âm thanh trong hệ sinh thái (các model riêng cho tạo âm thanh/video). |
| Cửa sổ ngữ cảnh (văn bản) | 256K token |
| Năng lực video / thị giác | Được thiết kế cho suy luận video dài, hỗ trợ mã hóa thị giác hiệu quả và ngân sách token video lớn (thẻ model báo cáo các thử nghiệm token video và benchmark video dài). |
| Định dạng đầu vào | Prompt văn bản tự do; tải lên hình ảnh (ảnh chụp màn hình, biểu đồ, ảnh chụp); video dưới dạng khung hình được token hóa / công cụ video để kiểm tra phân đoạn; tải tệp lên (tài liệu). |
| Định dạng đầu ra | Văn bản ngôn ngữ tự nhiên, đầu ra có cấu trúc (structured-output beta), lệnh gọi hàm / lệnh gọi công cụ, mã, và đầu ra đa phương thức thông qua điều phối. |
| Chế độ suy nghĩ / suy luận | no_think, think-low, think-medium, think-high — đánh đổi giữa độ chính xác và độ trễ/chi phí. |
Doubao Seed 1.8 là gì?
Doubao Seed 1.8 là bản phát hành 1.8 của nhóm Seed: một LLM+VLM hợp nhất, nhắm rõ ràng đến năng lực tác tử tổng quát trong thế giới thực — tức là cảm nhận (hình ảnh/video), suy luận, điều phối công cụ (tìm kiếm, gọi hàm, thực thi mã, định vị GUI) và ra quyết định nhiều bước bên trong một model duy nhất. Thiết kế này nhấn mạnh các “chế độ suy nghĩ” có thể cấu hình (đánh đổi giữa độ trễ và độ sâu), mã hóa thị giác hiệu quả và hỗ trợ gốc cho ngữ cảnh dài cùng đầu vào đa phương thức để model có thể hoạt động như một trợ lý/tác tử tự động trong các quy trình làm việc sản xuất.
Các tính năng chính của API Seed 1.8
- Model tác tử đa phương thức hợp nhất. Tích hợp cảm nhận (hình ảnh/video), suy luận (LLM) và hành động (gọi công cụ/G U I, thực thi mã) trong một model duy nhất thay vì một pipeline tách rời. Điều này cho phép quy trình tác tử gọn hơn và giảm độ phức tạp điều phối.
- Ngữ cảnh siêu dài & xử lý video dài. Ngữ cảnh dài (sản phẩm hỗ trợ đến 256k token) và các benchmark video dài chuyên biệt (Seed1.8 cho thấy hiệu quả token video dài mạnh mẽ). Model hỗ trợ các công cụ video chọn lọc (VideoCut) để tập trung suy luận vào các mốc thời gian.
- Tự động hóa GUI dạng tác tử & sử dụng công cụ. Các benchmark và thử nghiệm nội bộ (OSWorld, AndroidWorld, LiveCodeBench, benchmark định vị GUI) cho thấy sự cải thiện trong các tác vụ tác tử GUI và tự động hóa nhiều bước. Model có thể xuất lệnh định vị GUI và hoạt động trong các ngữ cảnh OS/web/di động mô phỏng.
- Các chế độ suy nghĩ có thể cấu hình để kiểm soát độ trễ/chi phí. Bốn chế độ suy luận cho phép nhà phát triển điều chỉnh mức tính toán tại thời điểm kiểm thử cho các tác vụ tương tác so với các tác vụ batch chất lượng cao. Điều này hữu ích cho các hệ thống sản xuất có ngân sách độ trễ nghiêm ngặt.
- Cải thiện hiệu quả token (đa phương thức). Seed 1.8 thể hiện hiệu quả token mạnh hơn trên các benchmark đa phương thức so với các phiên bản trước (dòng Seed-1.5/1.6), đạt độ chính xác cao với ngân sách token nhỏ hơn trong một số tác vụ video dài.
- Các chế độ suy nghĩ có thể cấu hình: đánh đổi độ sâu suy luận với độ trễ/chi phí bằng các chế độ riêng biệt (
no_think→think-high) để điều chỉnh cho sử dụng sản xuất tương tác. - Năng lực kỹ thuật
- Hiệu quả token: Seed1.8 cho thấy hiệu quả token nổi bật so với các phiên bản trước (Seed-1.5/1.6), mang lại độ chính xác mạnh hơn với ngân sách token thấp hơn trong các tác vụ video dài (ví dụ: đạt độ chính xác cạnh tranh ngay cả ở mức 32K token video). Điều này giúp giảm chi phí suy luận cho đầu vào dài.
- Suy luận & cảm nhận đa phương thức: Model đạt SOTA trên một số tác vụ VQA đa ảnh và các tác vụ chuyển động/cảm nhận, đồng thời đạt vị trí thứ hai hoặc gần SOTA trên nhiều benchmark suy luận đa phương thức; cụ thể, model vượt trội hơn phiên bản tiền nhiệm ở gần như mọi khía cạnh thị giác/video được đo lường.
- Sử dụng công cụ dạng tác tử & định vị GUI: Hỗ trợ được ghi nhận cho định vị GUI và các benchmark vận hành dựa trên màn hình (ScreenSpot-Pro, GUI agenting) với điểm định vị mạnh (ví dụ: cải thiện so với Seed-1.5-VL trên ScreenSpot-Pro).
- Suy luận song song / theo bước: Tăng mức tính toán tại thời điểm kiểm thử (parallel thinking) mang lại các cải thiện đo được trên các benchmark toán học, lập trình và suy luận đa phương thức
Một số benchmark công khai nổi bật của Seed1.8
- VCRBench (suy luận thường thức thị giác): Seed1.8 đạt 59.8 (Pass@1 được báo cáo trong bảng thẻ model), cải thiện so với Seed-1.5-VL và cạnh tranh với các model hàng đầu
- VideoHolmes (suy luận video): Seed1.8 đạt 65.5, vượt Seed-1.5-VL và tiến gần các model đối thủ cấp chuyên nghiệp.
- MMLB-NIAH (ngữ cảnh dài đa phương thức, 128k): Seed1.8 đạt 72.2 Pass@1 ở ngữ cảnh 128k trong MMLB-NIAH, vượt qua một số model chuyên nghiệp đương thời.
- Bộ chuyển động & cảm nhận: SOTA trong 5 trên 6 tác vụ được đánh giá; ví dụ gồm TVBench, TempCompass và TOMATO, nơi Seed1.8 cho thấy cải thiện đáng kể về cảm nhận theo thời gian.
- Quy trình tác tử: Trên BrowseComp và các benchmark tìm kiếm/mã dạng tác tử khác, Seed1.8 thường xếp hạng gần hoặc cao hơn các model chuyên nghiệp cạnh tranh
Seed 1.8 so với Gemini 3 Pro / GPT-5.x
- Seed1.8 so với Seed-1.5-VL / Seed-1.6: Cải thiện rõ rệt về cảm nhận đa phương thức, hiệu quả token cho video dài và thực thi dạng tác tử.
- Seed1.8 so với Gemini 3 Pro / GPT-5.x: Trên nhiều benchmark đa phương thức, Seed1.8 ngang bằng hoặc vượt Gemini 3 Pro (SOTA trên một số tác vụ VQA / chuyển động; tốt hơn ở lần chạy MMLB-NIAH 128k). Tuy nhiên, thẻ model cũng cho thấy những lĩnh vực mà họ model Gemini vẫn giữ lợi thế trong một số tác vụ kiến thức chuyên ngành — vì vậy thứ hạng tương đối phụ thuộc vào benchmark.
- Biến thể Seed-Code (Doubao-Seed-Code): chuyên biệt cho các tác vụ lập trình/mã dạng tác tử (ngữ cảnh lớn cho codebase; các benchmark SWE chuyên biệt). Seed1.8 là model đa phương thức dạng tác tử tổng quát, trong khi Seed-Code là biến thể tập trung vào lập trình.
Các trường hợp sử dụng thực tế của API Seedream 4.5 trên CometAPI
- Trợ lý nghiên cứu đa phương thức & phân tích tài liệu: trích xuất, tóm tắt và suy luận trên các tài liệu dài, bộ slide và báo cáo nhiều trang.
- Hiểu & giám sát video dài: phân tích phát sóng an ninh/thể thao, tóm tắt cuộc họp dài và phân tích luồng nơi hiệu quả token video dài của model là quan trọng.
- Quy trình tác tử / tự động hóa: các tình huống tìm kiếm web nhiều bước + thực thi mã + trích xuất dữ liệu (ví dụ: phân tích cạnh tranh tự động, lập kế hoạch du lịch, pipeline nghiên cứu được trình diễn trong các benchmark nội bộ).
- Công cụ cho nhà phát triển (nếu dùng Seed-Code): phân tích codebase lớn, trợ lý IDE và thực thi mã dạng tác tử để kiểm thử & sửa lỗi (Seed-Code là biến thể chuyên biệt được khuyến nghị).
- Tự động hóa GUI & RPA: các benchmark định vị màn hình và tác tử GUI cho thấy model có thể thực hiện các tác vụ GUI có cấu trúc tốt hơn các bản phát hành Seed trước đó.
Cách sử dụng API doubao Seed 1.8 qua CometAPI
Doubao seed1.8 hiện được cung cấp thương mại qua CometAPI dưới dạng API suy luận được lưu trữ. API hỗ trợ payload đa phương thức (văn bản + hình ảnh + mảnh video / mốc thời gian) và các chế độ suy luận có thể cấu hình để đánh đổi giữa độ trễ và mức tính toán so với chất lượng câu trả lời.
Mẫu gọi: API hỗ trợ các yêu cầu kiểu chat/completion tiêu chuẩn, phản hồi streaming và các luồng tác tử nơi model phát ra lệnh gọi công cụ (tìm kiếm, thực thi mã, hành động GUI) và nhận đầu ra công cụ làm ngữ cảnh tiếp theo.
Streaming & xử lý ngữ cảnh dài: API hỗ trợ streaming và có các primitive quản lý ngữ cảnh tích hợp cho các phiên dài (để hỗ trợ ngữ cảnh 100K+ / dấu vết tác tử nhiều bước).
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy thông tin xác thực truy cập API key của giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu đến API doubao Seed 1.8
Chọn endpoint “doubao-seed-1-8-251228 ” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bản kiểm thử Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế của bạn từ tài khoản. Tương thích với các API Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà model sẽ phản hồi . Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và dữ liệu đầu ra.
