Seed 1.8 API 的技術規格
| 項目 | 規格/說明 |
|---|---|
| 模型名稱/系列 | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 支援模態 | 文字、影像、影片(多模態 VLM 能力),生態系中的音訊工具(音訊/影片生成由獨立模型提供)。 |
| 上下文視窗(文字) | 256K tokens |
| 影片/視覺能力 | 為長影片推理而設計,支援高效視覺編碼與大型影片 token 配額(模型卡提供影片 token 實驗與長影片基準測試)。 |
| 輸入格式 | 自由文字提示;影像上傳(螢幕截圖、圖表、照片);影片作為權杖化影格/使用影片工具進行片段檢視;檔案上傳(文件)。 |
| 輸出格式 | 自然語言文字、結構化輸出(structured-output beta)、函式呼叫/工具呼叫、程式碼,以及透過編排的多模態輸出。 |
| 思考/推理模式 | no_think, think-low, think-medium, think-high — 在準確度與延遲/成本之間取捨。 |
什麼是 Doubao Seed 1.8?
Doubao Seed 1.8 是 Seed 團隊的 1.8 版本:一個統一的 LLM+VLM,明確瞄準「泛化的真實世界代理能力」——亦即在單一模型內同時涵蓋感知(影像/影片)、推理、工具編排(搜尋、函式呼叫、程式碼執行、GUI 定位)與多步決策。其設計強調可配置的「思考模式」(在延遲與深度間取捨)、高效的視覺編碼,以及對長上下文與多模態輸入的原生支援,使模型能在生產工作流程中作為自主助理/代理運作。
Seed 1.8 API 的主要功能
- 統一的多模態代理模型。 將感知(影像/影片)、推理(LLM)與行動(工具/G U I 呼叫、程式碼執行)整合於單一模型,而非分離式流程。這可簡化代理工作流程並降低編排複雜度。
- 超長上下文與長影片處理。 長上下文(產品支援至 256k tokens),並提供特定的長影片基準(Seed1.8 在長影片 token 效率上表現強勁)。模型支援選擇性影片工具(VideoCut),可將推理聚焦於時間戳。
- 代理式 GUI 自動化與工具使用。 基準與內部測試(OSWorld、AndroidWorld、LiveCodeBench、GUI 定位基準)顯示在 GUI 代理任務與多步自動化方面有改進。模型可輸出 GUI 定位指令,並在模擬 OS/網頁/行動端情境中操作。
- 可配置思考模式以控管延遲/成本。 四種推理模式讓開發者能在測試時調整運算量,以兼顧即時互動與高品質批次任務。這對具有嚴格延遲預算的生產系統特別實用。
- 改進的 Token 效率(多模態)。 Seed 1.8 在多模態基準上較前代(Seed-1.5/1.6 系列)展現更強的 token 效率,在多個長影片任務中以較小的 token 預算達成高準確率。
- 可配置思考模式: 透過區別模式(
no_think→think-high)在推理深度與延遲/成本之間取捨,利於互動式生產使用情境調校。 - 技術能力
- Token 效率: 與前代(Seed-1.5/1.6)相比,Seed1.8 在長影片任務上以更低的 token 預算達到更高準確率(例如即便在 32K 影片 tokens 下也能取得具競爭力的準確率),可降低長輸入的推理成本。
- 多模態推理與感知: 在多張影像 VQA 與動作/感知任務上達到 SOTA,並在多數多模態推理基準中取得第二名或接近 SOTA;特別是在幾乎所有視覺/影片面向都優於前代。
- 代理式工具使用與 GUI 定位: 對 GUI 定位與基於螢幕的操作基準(ScreenSpot-Pro、GUI agenting)具有已記錄的支援,定位分數表現強勁(例如在 ScreenSpot-Pro 上優於 Seed-1.5-VL)。
- 平行/分步推理: 提升測試時的運算量(平行思考)可在數學、程式設計與多模態推理基準上帶來可量化的增益。
Seed1.8 精選公開基準測試亮點
- VCRBench(視覺常識推理): Seed1.8 得分 59.8(模型卡表格報告的 Pass@1),相較 Seed-1.5-VL 有所提升,並具備與頂尖模型競爭的水準
- VideoHolmes(影片推理): Seed1.8 65.5,優於 Seed-1.5-VL,接近專業級競品
- MMLB-NIAH(多模態長上下文,128k): Seed1.8 在 128k 上下文中達成 72.2 Pass@1,超越部分同代專業模型
- Motion & Perception 套件: 在 6 項任務中的 5 項達到 SOTA;例如 TVBench、TempCompass 與 TOMATO,Seed1.8 在時間感知方面有顯著提升
- 代理式工作流程: 在 BrowseComp 與其他代理式搜尋/程式設計基準中,Seed1.8 經常名列前茅,甚至超過部分專業競品
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模態感知、長影片的 token 效率,以及代理式執行方面有明顯改進。
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在多項多模態基準中,Seed1.8 匹敵或超越 Gemini 3 Pro(在多個 VQA/動作任務達到 SOTA;在 MMLB-NIAH 128k 測試中表現更佳)。但在某些學科知識任務上,Gemini 系列仍具優勢——因此相對排序依基準而定。
- Seed-Code 變體(Doubao-Seed-Code): 針對程式設計/代理式程式任務(支援大型程式碼庫上下文;專注 SWE 基準)。Seed1.8 為通才型代理式多模態模型,Seed-Code 則為程式領域的專用變體。
Seedream 4.5 API(於 CometAPI)之實際應用場景
- 多模態研究助理與文件分析: 跨長文件、簡報與多頁報告進行抽取、摘要與推理。
- 長影片理解與監控: 安防/體育轉播分析、長會議摘要與串流分析,模型的長影片 token 效率尤為關鍵。
- 代理式工作流程/自動化: 多步網路搜尋+程式碼執行+資料抽取情境(例如內部基準展示的自動化競品分析、旅遊規劃、研究流程)。
- 開發者工具(若使用 Seed-Code): 大型程式碼庫分析、IDE 助理,以及用於測試與修復的代理式程式碼執行(建議使用專用的 Seed-Code 變體)。
- GUI 自動化與 RPA: 螢幕定位與 GUI 代理基準顯示,該模型相較先前的 Seed 版本可更好地執行結構化 GUI 任務。
如何透過 CometAPI 使用 doubao Seed 1.8 API
Doubao seed1.8 現已透過 CometAPI 以代管推理 API 商用提供。該 API 支援多模態酬載(文字+影像+影片片段/時間戳),並可配置推理模式,在延遲與運算量與答案品質之間取捨。
呼叫模式:API 支援標準聊天/完成式請求、串流回應,以及代理式流程,模型可發出工具呼叫(搜尋、程式碼執行、GUI 操作),並將工具輸出作為後續上下文輸入。
串流與長上下文處理:API 支援串流,並內建長工作階段的上下文管理機制(可支援 100K+ 上下文/多步代理追蹤)。
步驟 1:註冊取得 API Key
登入 cometapi.com。如果你尚未成為使用者,請先註冊。登入你的 CometAPI console。取得該介面的存取憑證 API key。在個人中心的 API token 處點擊 “Add Token”,取得 token key:sk-xxxxx 並提交。

步驟 2:向 doubao Seed 1.8 API 發送請求
選擇 “doubao-seed-1-8-251228 ” endpoint 來發送 API 請求,並設定請求主體。請求方法與請求主體可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試以利使用。將 <YOUR_API_KEY> 替換為你帳號中的實際 CometAPI key。與 Chat APIs 相容。
將你的問題或請求放入 content 欄位——模型將回應該內容。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理後,API 會回傳任務狀態與輸出資料。