模型支援企業部落格
500+ AI 模型 API,全部整合在一個 API 中。就在 CometAPI
模型 API
開發者
快速入門說明文件API 儀表板
資源
AI模型部落格企業更新日誌關於
2025 CometAPI. 保留所有權利。隱私政策服務條款
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

輸入:$0.2/M
輸出:$1.6/M
上下文:256k
最大輸出:224k
Doubao-Seed-1.8 針對多模態智能體場景進行了優化。在智能體能力方面,工具使用與複雜指令遵循性已顯著增強。關於多模態理解,基礎視覺能力大幅提升,能以低幀率理解超長影片。影片動作理解、複雜空間理解與文件結構解析能力也已優化,並原生支援智慧上下文管理,允許使用者設定上下文策略。
新
商業用途
Playground
概覽
功能
定價
API

Seed 1.8 API 的技術規格

項目規格/說明
模型名稱/家族Doubao-Seed-1.8(Seed1.8)— ByteDance Seed / Volcano Engine
支援的模態文字、圖片、影片(多模態 VLM 能力)、生態中的音訊工具(音訊/影片生成使用獨立模型)。
上下文視窗(文字)256K tokens
影片/視覺能力專為長影片推理而設計,支援高效視覺編碼與大型影片 token 預算(模型卡報告了影片 token 實驗與長影片基準測試)。
輸入格式自由文字提示;圖片上傳(螢幕截圖、圖表、照片);以 token 化影格形式輸入的影片/用於片段檢查的影片工具;檔案上傳(文件)。
輸出格式自然語言文字、結構化輸出(structured-output beta)、函式呼叫/工具呼叫、程式碼,以及透過編排產生的多模態輸出。
思考/推理模式no_think、think-low、think-medium、think-high — 在準確性與延遲/成本之間進行權衡。

什麼是 Doubao Seed 1.8?

Doubao Seed 1.8 是 Seed 團隊的 1.8 版本:一個統一的 LLM+VLM,明確以泛化的真實世界代理能力為目標——也就是感知(圖片/影片)、推理、工具編排(搜尋、函式呼叫、程式碼執行、GUI 定位)以及在單一模型內進行多步決策。其設計強調可配置的「思考模式」(在延遲與深度之間取捨)、高效視覺編碼,以及對長上下文與多模態輸入的原生支援,使模型能夠在生產工作流程中作為自主助理/代理運作。

Seed 1.8 API 的主要功能

  1. 統一的多模態代理模型。 在單一模型中整合感知(圖片/影片)、推理(LLM)與行動(工具/G U I 呼叫、程式碼執行),而非拆分式流程。這可實現更精簡的代理工作流與更低的編排複雜度。
  2. 超長上下文與長影片處理。 支援長上下文(產品支援最高 256k tokens),並在特定長影片基準上表現突出(Seed1.8 展現出很強的長影片 token 效率)。模型支援選擇性影片工具(VideoCut),可將推理聚焦於特定時間戳。
  3. 代理式 GUI 自動化與工具使用。 基準與內部測試(OSWorld、AndroidWorld、LiveCodeBench、GUI 定位基準)顯示其在 GUI 代理任務與多步自動化上有所提升。模型可輸出 GUI 定位指令,並可在模擬的 OS/Web/行動環境中運作。
  4. 可配置的思考模式,用於延遲/成本控制。 四種推理模式讓開發者可以在測試時調整運算量,以適應互動式任務與高品質批次任務。這對具有嚴格延遲預算的生產系統非常實用。
  5. 改進的 token 效率(多模態)。 與前代(Seed-1.5/1.6 系列)相比,Seed 1.8 在多模態基準上展現出更強的 token 效率,能在多個長影片任務中以更小的 token 預算獲得高準確率。
  6. 可配置的思考模式: 透過不同模式(no_think → think-high)在推理深度與延遲/成本之間取捨,以適配互動式生產使用。
  7. 技術能力
  • Token 效率: 與前代(Seed-1.5/1.6)相比,Seed1.8 顯著提升了 token 效率,在長影片任務中以更低 token 預算提供更高準確率(例如即使在 32K 影片 tokens 下也能達到具競爭力的準確率)。這使長輸入的推理成本更低。
  • 多模態推理與感知: 該模型在多個多圖像 VQA 與動作/感知任務上達到 SOTA,並在許多多模態推理基準上取得第二名或接近 SOTA 的成績;具體而言,在幾乎所有被衡量的視覺/影片維度上都優於其前代。
  • 代理式工具使用與 GUI 定位: 文件記載其支援 GUI 定位與基於螢幕操作的基準(ScreenSpot-Pro、GUI agenting),並具備很強的定位分數(例如相較於 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升)。
  • 平行/分步推理: 增加測試時計算量(平行思考)可在數學、程式設計與多模態推理基準上帶來可觀收益

Seed1.8 的部分公開基準亮點

  • VCRBench(視覺常識推理): Seed1.8 得分 59.8(模型卡表格中報告的 Pass@1),相比 Seed-1.5-VL 有提升,並且與頂級模型具競爭力
  • VideoHolmes(影片推理): Seed1.8 65.5,優於 Seed-1.5-VL,並接近專業級競品模型。
  • MMLB-NIAH(多模態長上下文,128k): Seed1.8 在 MMLB-NIAH 的 128k 上下文中取得 72.2 Pass@1,超越部分同時代專業模型。
  • 動作與感知套件: 在 6 項評估任務中有 5 項達到 SOTA;例如 TVBench、TempCompass 與 TOMATO,Seed1.8 在時間感知方面展現出顯著提升。
  • 代理式工作流: 在 BrowseComp 及其他代理式搜尋/程式碼基準上,Seed1.8 通常排名接近或高於競爭的專業模型

Seed 1.8 與 Gemini 3 Pro / GPT-5.x 的比較

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模態感知、長影片 token 效率與代理式執行方面都有明顯提升。
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在許多多模態基準上,Seed1.8 可與 Gemini 3 Pro 持平甚至超越(在多項 VQA/動作任務上達到 SOTA;在 MMLB-NIAH 128k 測試中表現更佳)。但模型卡也顯示,Gemini 系列在某些學科知識任務上仍具優勢——因此相對排序取決於具體基準。
  • Seed-Code 變體(Doubao-Seed-Code): 專為程式設計/代理式程式碼任務而優化(支援大型程式碼庫上下文;針對 SWE 基準進行專門優化)。Seed1.8 是通用型代理式多模態模型,而 Seed-Code 則是專注於程式設計的變體。

CometAPI 上 Seedream 4.5 API 的實際使用案例

  • 多模態研究助理與文件分析: 跨長文件、簡報與多頁報告進行擷取、摘要與推理。
  • 長影片理解與監控: 安防/體育轉播分析、長會議摘要與串流分析,適用於模型長影片 token 效率具有優勢的場景。
  • 代理式工作流/自動化: 多步網頁搜尋 + 程式碼執行 + 資料擷取場景(例如自動化競品分析、旅行規劃、內部基準中展示的研究流程)。
  • 開發者工具(若使用 Seed-Code): 大型程式碼庫分析、IDE 助理,以及用於測試與修復的代理式程式碼執行(Seed-Code 是推薦的專用變體)。
  • GUI 自動化與 RPA: 螢幕定位與 GUI 代理基準表明,該模型在結構化 GUI 任務上的表現優於先前的 Seed 版本。

如何透過 CometAPI 使用 doubao Seed 1.8 API

Doubao seed1.8 現已透過 CometAPI 以託管推理 API 的形式提供商業化服務。該 API 支援多模態負載(文字 + 圖片 + 影片片段/時間戳),並提供可配置的推理模式,以在延遲與運算成本之間換取更好的答案品質。

呼叫模式:該 API 支援標準 chat/completion 風格的請求、串流回應,以及模型發出工具呼叫(搜尋、程式碼執行、GUI 動作)並將工具輸出作為後續上下文輸入的代理式流程。

串流與長上下文處理:該 API 支援串流,並內建長會話的上下文管理原語(以支援 100K+ 上下文/多步代理追蹤)。

步驟 1:註冊 API Key

登入 cometapi.com。如果您尚未成為我們的使用者,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 中點擊「Add Token」,取得 token key:sk-xxxxx,然後提交。

步驟 2:向 doubao Seed 1.8 API 發送請求

選擇「doubao-seed-1-8-251228」端點來發送 API 請求,並設定請求主體。請求方法與請求主體可從我們網站的 API 文件中取得。我們的網站也提供 Apifox 測試以方便您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。相容於 Chat APIs。

將您的問題或請求插入 content 欄位——模型將對其作出回應。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題

What variants exist of Seed 1.8 and when to use each?

Seed1.8 是通用型多模態代理。相關變體包括:Seed-Code / Doubao-Seed-Code:專為超大型程式碼上下文(部分 SKU 聲稱支援 256K 上下文)和編碼工作流程而設。Seedance / Seedream:專門用於媒體/生成的變體(影片/圖像生成)。對於 IDE/程式碼庫任務,請選擇 Seed-Code;對於廣泛的多模態代理任務,請選擇 Seed1.8。請在產品文件中確認 SKU 的上下文視窗和功能。

How does Seed1.8 differ from prior Seed versions?

相較於較早的 Seed 1.x 模型,Seed1.8 更強調代理式整合(工具使用、GUI 代理、多步驟工作流程)、更佳的長上下文處理能力,以及更好的長影片/動作感知。它被定位為 Seed 產品線中的多模態/代理升級版本。

What input/output modalities does Seed1.8 support?

原生支援多模態:文字 + 圖像 + 影片。輸出包括自然語言回答、結構化輸出(JSON/行動計畫)、程式碼,以及用於代理式工作流程的視覺片段/時間戳記參照。該模型明確設計用於多模態感知 → 推理 → 行動。

What are the “thinking” or inference modes of Seed1.8?

提供可調整的「思考」模式——旨在於延遲/算力與推理深度之間進行權衡(當你必須平衡互動性與解決方案品質時非常有用)。可使用這些模式來針對互動式 UI 或更深入的批次推理進行調整。

Doubao-Seed-1.8 的功能

探索 Doubao-Seed-1.8 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

Doubao-Seed-1.8 的定價

探索 Doubao-Seed-1.8 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 Doubao-Seed-1.8 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$0.2/M
輸出:$1.6/M
輸入:$0.25/M
輸出:$2/M
-20%

Doubao-Seed-1.8 的範例程式碼和 API

Doubao seed1.8 現已透過 CometAPI 以託管推理 API 的形式商用開放。該 API 支援多模態輸入(文字 + 圖像 + 影片片段 / 時間戳記),並提供可設定的推理模式,以在延遲、運算資源與答案品質之間作取捨。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

更多模型

A

Claude Opus 4.6

輸入:$4/M
輸出:$20/M
Claude Opus 4.6 是 Anthropic 的「Opus」級大型語言模型,於 2026 年 2 月發布。它被定位為知識工作與研究工作流程的主力,著重提升長上下文推理、多步規劃、工具使用(包括代理型軟體工作流程),以及電腦操作任務,例如自動化製作投影片與試算表。
A

Claude Sonnet 4.6

輸入:$2.4/M
輸出:$12/M
Claude Sonnet 4.6 是我們迄今為止最強大的 Sonnet 模型。它對模型在程式設計、電腦操作、長上下文推理、代理規劃、知識工作與設計等方面的能力進行了全面升級。Sonnet 4.6 亦提供 1M 詞元的上下文視窗,目前處於 Beta 階段。
O

GPT-5.4 nano

輸入:$0.16/M
輸出:$1/M
GPT-5.4 nano 專為速度與成本最為關鍵的任務而設計,例如分類、資料擷取、排序與子智能體。
O

GPT-5.4 mini

輸入:$0.6/M
輸出:$3.6/M
GPT-5.4 mini 將 GPT-5.4 的優勢帶入一個更快速、更高效、專為大量工作負載設計的模型。
A

Claude Mythos Preview

A

Claude Mythos Preview

即將推出
輸入:$60/M
輸出:$240/M
Claude Mythos Preview 是我們迄今最強大的前沿模型,與我們先前的前沿模型 Claude Opus 4.6 相比,在多項評測基準上的分數呈現出 顯著躍升。
X

mimo-v2-pro

輸入:$0.8/M
輸出:$2.4/M
MiMo-V2-Pro 是 Xiaomi 的旗艦級基礎模型,具備超過 1T 的總參數與 1M 的上下文長度,並針對 Agent 化場景進行了深度優化。它可高度適配 OpenClaw 等通用 Agent 框架。在標準的 PinchBench 與 ClawBench 基準測試中名列全球頂尖,其感知表現接近 Opus 4.6。MiMo-V2-Pro 旨在作為 Agent 系統的大腦,編排複雜工作流程、推動生產級工程任務,並可靠地交付結果。

相關部落格

如何使用 Doubao Seed 1.8 API?  全面指南
Jan 12, 2026

如何使用 Doubao Seed 1.8 API? 全面指南

Doubao Seed 1.8——作為 ByteDance 的 Doubao 模型家族與 Seed 研究線的一部分——因其被工程化為具備「agentic」特性的多模態模型,擁有超大上下文處理能力並改進了工具/代理支援而備受關注。