Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Đầu vào:$0.2/M
Đầu ra:$1.6/M
Bối cảnh:256k
Đầu ra tối đa:224k
Doubao-Seed-1.8 được tối ưu cho các kịch bản tác nhân đa phương thức. Về năng lực tác nhân, khả năng sử dụng công cụ và tuân thủ các lệnh phức tạp đã được nâng cấp đáng kể. Về khả năng hiểu đa phương thức, các năng lực thị giác cơ bản đã được cải thiện đáng kể, cho phép hiểu các video cực dài ở tốc độ khung hình thấp. Khả năng hiểu chuyển động trong video, hiểu không gian phức tạp và phân tích cấu trúc tài liệu cũng đã được tối ưu hóa, và quản lý ngữ cảnh thông minh hiện được hỗ trợ ở cấp độ nền tảng, cho phép người dùng cấu hình các chiến lược ngữ cảnh.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API

Thông số kỹ thuật của API Seed 1.8

MụcThông số kỹ thuật / ghi chú
Tên model / họ modelDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Phương thức hỗ trợVăn bản, hình ảnh, video (khả năng VLM đa phương thức), công cụ âm thanh trong hệ sinh thái (các model riêng cho tạo âm thanh/video).
Cửa sổ ngữ cảnh (văn bản)256K token
Năng lực video / thị giácĐược thiết kế cho suy luận video dài, hỗ trợ mã hóa thị giác hiệu quả và ngân sách token video lớn (thẻ model báo cáo các thử nghiệm token video và benchmark video dài).
Định dạng đầu vàoPrompt văn bản tự do; tải lên hình ảnh (ảnh chụp màn hình, biểu đồ, ảnh chụp); video dưới dạng khung hình được token hóa / công cụ video để kiểm tra phân đoạn; tải tệp lên (tài liệu).
Định dạng đầu raVăn bản ngôn ngữ tự nhiên, đầu ra có cấu trúc (structured-output beta), lệnh gọi hàm / lệnh gọi công cụ, mã, và đầu ra đa phương thức thông qua điều phối.
Chế độ suy nghĩ / suy luậnno_think, think-low, think-medium, think-high — đánh đổi giữa độ chính xác và độ trễ/chi phí.

Doubao Seed 1.8 là gì?

Doubao Seed 1.8 là bản phát hành 1.8 của nhóm Seed: một LLM+VLM hợp nhất, nhắm rõ ràng đến năng lực tác tử tổng quát trong thế giới thực — tức là cảm nhận (hình ảnh/video), suy luận, điều phối công cụ (tìm kiếm, gọi hàm, thực thi mã, định vị GUI) và ra quyết định nhiều bước bên trong một model duy nhất. Thiết kế này nhấn mạnh các “chế độ suy nghĩ” có thể cấu hình (đánh đổi giữa độ trễ và độ sâu), mã hóa thị giác hiệu quả và hỗ trợ gốc cho ngữ cảnh dài cùng đầu vào đa phương thức để model có thể hoạt động như một trợ lý/tác tử tự động trong các quy trình làm việc sản xuất.

Các tính năng chính của API Seed 1.8

  1. Model tác tử đa phương thức hợp nhất. Tích hợp cảm nhận (hình ảnh/video), suy luận (LLM) và hành động (gọi công cụ/G U I, thực thi mã) trong một model duy nhất thay vì một pipeline tách rời. Điều này cho phép quy trình tác tử gọn hơn và giảm độ phức tạp điều phối.
  2. Ngữ cảnh siêu dài & xử lý video dài. Ngữ cảnh dài (sản phẩm hỗ trợ đến 256k token) và các benchmark video dài chuyên biệt (Seed1.8 cho thấy hiệu quả token video dài mạnh mẽ). Model hỗ trợ các công cụ video chọn lọc (VideoCut) để tập trung suy luận vào các mốc thời gian.
  3. Tự động hóa GUI dạng tác tử & sử dụng công cụ. Các benchmark và thử nghiệm nội bộ (OSWorld, AndroidWorld, LiveCodeBench, benchmark định vị GUI) cho thấy sự cải thiện trong các tác vụ tác tử GUI và tự động hóa nhiều bước. Model có thể xuất lệnh định vị GUI và hoạt động trong các ngữ cảnh OS/web/di động mô phỏng.
  4. Các chế độ suy nghĩ có thể cấu hình để kiểm soát độ trễ/chi phí. Bốn chế độ suy luận cho phép nhà phát triển điều chỉnh mức tính toán tại thời điểm kiểm thử cho các tác vụ tương tác so với các tác vụ batch chất lượng cao. Điều này hữu ích cho các hệ thống sản xuất có ngân sách độ trễ nghiêm ngặt.
  5. Cải thiện hiệu quả token (đa phương thức). Seed 1.8 thể hiện hiệu quả token mạnh hơn trên các benchmark đa phương thức so với các phiên bản trước (dòng Seed-1.5/1.6), đạt độ chính xác cao với ngân sách token nhỏ hơn trong một số tác vụ video dài.
  6. Các chế độ suy nghĩ có thể cấu hình: đánh đổi độ sâu suy luận với độ trễ/chi phí bằng các chế độ riêng biệt (no_think → think-high) để điều chỉnh cho sử dụng sản xuất tương tác.
  7. Năng lực kỹ thuật
  • Hiệu quả token: Seed1.8 cho thấy hiệu quả token nổi bật so với các phiên bản trước (Seed-1.5/1.6), mang lại độ chính xác mạnh hơn với ngân sách token thấp hơn trong các tác vụ video dài (ví dụ: đạt độ chính xác cạnh tranh ngay cả ở mức 32K token video). Điều này giúp giảm chi phí suy luận cho đầu vào dài.
  • Suy luận & cảm nhận đa phương thức: Model đạt SOTA trên một số tác vụ VQA đa ảnh và các tác vụ chuyển động/cảm nhận, đồng thời đạt vị trí thứ hai hoặc gần SOTA trên nhiều benchmark suy luận đa phương thức; cụ thể, model vượt trội hơn phiên bản tiền nhiệm ở gần như mọi khía cạnh thị giác/video được đo lường.
  • Sử dụng công cụ dạng tác tử & định vị GUI: Hỗ trợ được ghi nhận cho định vị GUI và các benchmark vận hành dựa trên màn hình (ScreenSpot-Pro, GUI agenting) với điểm định vị mạnh (ví dụ: cải thiện so với Seed-1.5-VL trên ScreenSpot-Pro).
  • Suy luận song song / theo bước: Tăng mức tính toán tại thời điểm kiểm thử (parallel thinking) mang lại các cải thiện đo được trên các benchmark toán học, lập trình và suy luận đa phương thức

Một số benchmark công khai nổi bật của Seed1.8

  • VCRBench (suy luận thường thức thị giác): Seed1.8 đạt 59.8 (Pass@1 được báo cáo trong bảng thẻ model), cải thiện so với Seed-1.5-VL và cạnh tranh với các model hàng đầu
  • VideoHolmes (suy luận video): Seed1.8 đạt 65.5, vượt Seed-1.5-VL và tiến gần các model đối thủ cấp chuyên nghiệp.
  • MMLB-NIAH (ngữ cảnh dài đa phương thức, 128k): Seed1.8 đạt 72.2 Pass@1 ở ngữ cảnh 128k trong MMLB-NIAH, vượt qua một số model chuyên nghiệp đương thời.
  • Bộ chuyển động & cảm nhận: SOTA trong 5 trên 6 tác vụ được đánh giá; ví dụ gồm TVBench, TempCompass và TOMATO, nơi Seed1.8 cho thấy cải thiện đáng kể về cảm nhận theo thời gian.
  • Quy trình tác tử: Trên BrowseComp và các benchmark tìm kiếm/mã dạng tác tử khác, Seed1.8 thường xếp hạng gần hoặc cao hơn các model chuyên nghiệp cạnh tranh

Seed 1.8 so với Gemini 3 Pro / GPT-5.x

  • Seed1.8 so với Seed-1.5-VL / Seed-1.6: Cải thiện rõ rệt về cảm nhận đa phương thức, hiệu quả token cho video dài và thực thi dạng tác tử.
  • Seed1.8 so với Gemini 3 Pro / GPT-5.x: Trên nhiều benchmark đa phương thức, Seed1.8 ngang bằng hoặc vượt Gemini 3 Pro (SOTA trên một số tác vụ VQA / chuyển động; tốt hơn ở lần chạy MMLB-NIAH 128k). Tuy nhiên, thẻ model cũng cho thấy những lĩnh vực mà họ model Gemini vẫn giữ lợi thế trong một số tác vụ kiến thức chuyên ngành — vì vậy thứ hạng tương đối phụ thuộc vào benchmark.
  • Biến thể Seed-Code (Doubao-Seed-Code): chuyên biệt cho các tác vụ lập trình/mã dạng tác tử (ngữ cảnh lớn cho codebase; các benchmark SWE chuyên biệt). Seed1.8 là model đa phương thức dạng tác tử tổng quát, trong khi Seed-Code là biến thể tập trung vào lập trình.

Các trường hợp sử dụng thực tế của API Seedream 4.5 trên CometAPI

  • Trợ lý nghiên cứu đa phương thức & phân tích tài liệu: trích xuất, tóm tắt và suy luận trên các tài liệu dài, bộ slide và báo cáo nhiều trang.
  • Hiểu & giám sát video dài: phân tích phát sóng an ninh/thể thao, tóm tắt cuộc họp dài và phân tích luồng nơi hiệu quả token video dài của model là quan trọng.
  • Quy trình tác tử / tự động hóa: các tình huống tìm kiếm web nhiều bước + thực thi mã + trích xuất dữ liệu (ví dụ: phân tích cạnh tranh tự động, lập kế hoạch du lịch, pipeline nghiên cứu được trình diễn trong các benchmark nội bộ).
  • Công cụ cho nhà phát triển (nếu dùng Seed-Code): phân tích codebase lớn, trợ lý IDE và thực thi mã dạng tác tử để kiểm thử & sửa lỗi (Seed-Code là biến thể chuyên biệt được khuyến nghị).
  • Tự động hóa GUI & RPA: các benchmark định vị màn hình và tác tử GUI cho thấy model có thể thực hiện các tác vụ GUI có cấu trúc tốt hơn các bản phát hành Seed trước đó.

Cách sử dụng API doubao Seed 1.8 qua CometAPI

Doubao seed1.8 hiện được cung cấp thương mại qua CometAPI dưới dạng API suy luận được lưu trữ. API hỗ trợ payload đa phương thức (văn bản + hình ảnh + mảnh video / mốc thời gian) và các chế độ suy luận có thể cấu hình để đánh đổi giữa độ trễ và mức tính toán so với chất lượng câu trả lời.

Mẫu gọi: API hỗ trợ các yêu cầu kiểu chat/completion tiêu chuẩn, phản hồi streaming và các luồng tác tử nơi model phát ra lệnh gọi công cụ (tìm kiếm, thực thi mã, hành động GUI) và nhận đầu ra công cụ làm ngữ cảnh tiếp theo.

Streaming & xử lý ngữ cảnh dài: API hỗ trợ streaming và có các primitive quản lý ngữ cảnh tích hợp cho các phiên dài (để hỗ trợ ngữ cảnh 100K+ / dấu vết tác tử nhiều bước).

Bước 1: Đăng ký API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy thông tin xác thực truy cập API key của giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu đến API doubao Seed 1.8

Chọn endpoint “doubao-seed-1-8-251228 ” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bản kiểm thử Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế của bạn từ tài khoản. Tương thích với các API Chat.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà model sẽ phản hồi . Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và dữ liệu đầu ra.

Câu hỏi thường gặp

What variants exist of Seed 1.8 and when to use each?

Seed1.8 là tác tử đa phương thức tổng quát. Các biến thể liên quan bao gồm: Seed-Code / Doubao-Seed-Code: chuyên cho ngữ cảnh mã rất lớn (một số SKU tuyên bố hỗ trợ ngữ cảnh 256K) và quy trình lập trình. Seedance / Seedream: biến thể chuyên về media/tạo sinh (tạo video/hình ảnh). Chọn Seed-Code cho các tác vụ trên IDE/mã nguồn; chọn Seed1.8 cho các tác vụ tác tử đa phương thức tổng quát. Hãy xác nhận cửa sổ ngữ cảnh và khả năng của SKU trong tài liệu sản phẩm.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 nhấn mạnh tích hợp tác tử (sử dụng công cụ, tác tử GUI, quy trình nhiều bước), cải thiện xử lý ngữ cảnh dài và khả năng nhận thức video dài/chuyển động tốt hơn so với các mẫu Seed 1.x trước đó. Được định vị như bản nâng cấp đa phương thức/tác tử trong dòng Seed.

What input/output modalities does Seed1.8 support?

Hỗ trợ đa phương thức gốc: văn bản + hình ảnh + video. Đầu ra bao gồm câu trả lời ngôn ngữ tự nhiên, đầu ra có cấu trúc (JSON/kế hoạch hành động), mã, và tham chiếu tới các phân đoạn hình ảnh/dấu thời gian cho các quy trình tác tử. Mô hình được thiết kế rõ ràng cho chuỗi nhận thức đa phương thức → suy luận → hành động.

What are the “thinking” or inference modes of Seed1.8?

Có các chế độ “suy nghĩ” có thể điều chỉnh — được thiết kế để đánh đổi giữa độ trễ/tài nguyên tính toán và độ sâu suy luận (hữu ích khi bạn cần cân bằng giữa tính tương tác và chất lượng lời giải). Hãy dùng các chế độ này để tinh chỉnh cho giao diện tương tác hoặc lập luận sâu hơn ở chế độ xử lý hàng loạt.

Tính năng cho Doubao-Seed-1.8

Khám phá các tính năng chính của Doubao-Seed-1.8, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Doubao-Seed-1.8

Khám phá mức giá cạnh tranh cho Doubao-Seed-1.8, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Doubao-Seed-1.8 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$0.2/M
Đầu ra:$1.6/M
Đầu vào:$0.25/M
Đầu ra:$2/M
-20%

Mã mẫu và API cho Doubao-Seed-1.8

Hiện nay, Doubao seed1.8 được cung cấp thương mại thông qua CometAPI dưới dạng API suy luận được lưu trữ. API hỗ trợ dữ liệu đa phương thức (văn bản + hình ảnh + các đoạn video / mốc thời gian) và các chế độ suy luận có thể cấu hình để đánh đổi giữa độ trễ và tài nguyên tính toán với chất lượng câu trả lời.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Thêm mô hình

A

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
A

Claude Mythos Preview

A

Claude Mythos Preview

Sắp ra mắt
Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.
X

mimo-v2-pro

Đầu vào:$0.8/M
Đầu ra:$2.4/M
MiMo-V2-Pro là mô hình nền tảng chủ lực của Xiaomi, sở hữu hơn 1T tham số tổng và độ dài ngữ cảnh 1M, được tối ưu sâu cho các kịch bản tác tử. Nó thích ứng cao với các khung tác tử tổng quát như OpenClaw. Trên các benchmark chuẩn PinchBench và ClawBench, mô hình này nằm trong nhóm hàng đầu toàn cầu, với hiệu năng cảm nhận tiệm cận Opus 4.6. MiMo-V2-Pro được thiết kế để đóng vai trò bộ não của các hệ thống tác tử, điều phối các quy trình công việc phức tạp, thực thi các tác vụ kỹ thuật trong môi trường sản xuất và cung cấp kết quả một cách đáng tin cậy.

Blog liên quan

Cách sử dụng API Doubao Seed 1.8? Hướng dẫn toàn diện
Jan 12, 2026

Cách sử dụng API Doubao Seed 1.8? Hướng dẫn toàn diện

Doubao Seed 1.8 — thuộc dòng Doubao của ByteDance và dòng nghiên cứu Seed — đang thu hút sự chú ý vì được thiết kế như một mô hình đa phương thức “agentic” với khả năng xử lý ngữ cảnh rất lớn và hỗ trợ công cụ/tác tử được cải thiện.