Seed 1.8 API 的技術規格

項目	規格／說明
模型名稱／系列	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
支援模態	文字、影像、影片（多模態 VLM 能力），生態系中的音訊工具（音訊／影片生成由獨立模型提供）。
上下文視窗（文字）	256K tokens
影片／視覺能力	為長影片推理而設計，支援高效視覺編碼與大型影片 token 配額（模型卡提供影片 token 實驗與長影片基準測試）。
輸入格式	自由文字提示；影像上傳（螢幕截圖、圖表、照片）；影片作為權杖化影格／使用影片工具進行片段檢視；檔案上傳（文件）。
輸出格式	自然語言文字、結構化輸出（structured-output beta）、函式呼叫／工具呼叫、程式碼，以及透過編排的多模態輸出。
思考／推理模式	no_think, think-low, think-medium, think-high — 在準確度與延遲／成本之間取捨。

什麼是 Doubao Seed 1.8？

Doubao Seed 1.8 是 Seed 團隊的 1.8 版本：一個統一的 LLM+VLM，明確瞄準「泛化的真實世界代理能力」——亦即在單一模型內同時涵蓋感知（影像／影片）、推理、工具編排（搜尋、函式呼叫、程式碼執行、GUI 定位）與多步決策。其設計強調可配置的「思考模式」（在延遲與深度間取捨）、高效的視覺編碼，以及對長上下文與多模態輸入的原生支援，使模型能在生產工作流程中作為自主助理／代理運作。

Seed 1.8 API 的主要功能

統一的多模態代理模型。 將感知（影像／影片）、推理（LLM）與行動（工具／G U I 呼叫、程式碼執行）整合於單一模型，而非分離式流程。這可簡化代理工作流程並降低編排複雜度。
超長上下文與長影片處理。 長上下文（產品支援至 256k tokens），並提供特定的長影片基準（Seed1.8 在長影片 token 效率上表現強勁）。模型支援選擇性影片工具（VideoCut），可將推理聚焦於時間戳。
代理式 GUI 自動化與工具使用。 基準與內部測試（OSWorld、AndroidWorld、LiveCodeBench、GUI 定位基準）顯示在 GUI 代理任務與多步自動化方面有改進。模型可輸出 GUI 定位指令，並在模擬 OS／網頁／行動端情境中操作。
可配置思考模式以控管延遲／成本。 四種推理模式讓開發者能在測試時調整運算量，以兼顧即時互動與高品質批次任務。這對具有嚴格延遲預算的生產系統特別實用。
改進的 Token 效率（多模態）。 Seed 1.8 在多模態基準上較前代（Seed-1.5/1.6 系列）展現更強的 token 效率，在多個長影片任務中以較小的 token 預算達成高準確率。
可配置思考模式： 透過區別模式（no_think → think-high）在推理深度與延遲／成本之間取捨，利於互動式生產使用情境調校。
技術能力

Token 效率： 與前代（Seed-1.5/1.6）相比，Seed1.8 在長影片任務上以更低的 token 預算達到更高準確率（例如即便在 32K 影片 tokens 下也能取得具競爭力的準確率），可降低長輸入的推理成本。
多模態推理與感知： 在多張影像 VQA 與動作／感知任務上達到 SOTA，並在多數多模態推理基準中取得第二名或接近 SOTA；特別是在幾乎所有視覺／影片面向都優於前代。
代理式工具使用與 GUI 定位： 對 GUI 定位與基於螢幕的操作基準（ScreenSpot-Pro、GUI agenting）具有已記錄的支援，定位分數表現強勁（例如在 ScreenSpot-Pro 上優於 Seed-1.5-VL）。
平行／分步推理： 提升測試時的運算量（平行思考）可在數學、程式設計與多模態推理基準上帶來可量化的增益。

Seed1.8 精選公開基準測試亮點

VCRBench（視覺常識推理）： Seed1.8 得分 59.8（模型卡表格報告的 Pass@1），相較 Seed-1.5-VL 有所提升，並具備與頂尖模型競爭的水準
VideoHolmes（影片推理）： Seed1.8 65.5，優於 Seed-1.5-VL，接近專業級競品
MMLB-NIAH（多模態長上下文，128k）： Seed1.8 在 128k 上下文中達成 72.2 Pass@1，超越部分同代專業模型
Motion & Perception 套件： 在 6 項任務中的 5 項達到 SOTA；例如 TVBench、TempCompass 與 TOMATO，Seed1.8 在時間感知方面有顯著提升
代理式工作流程： 在 BrowseComp 與其他代理式搜尋／程式設計基準中，Seed1.8 經常名列前茅，甚至超過部分專業競品

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

Seed1.8 vs Seed-1.5-VL / Seed-1.6： 在多模態感知、長影片的 token 效率，以及代理式執行方面有明顯改進。
Seed1.8 vs Gemini 3 Pro / GPT-5.x： 在多項多模態基準中，Seed1.8 匹敵或超越 Gemini 3 Pro（在多個 VQA／動作任務達到 SOTA；在 MMLB-NIAH 128k 測試中表現更佳）。但在某些學科知識任務上，Gemini 系列仍具優勢——因此相對排序依基準而定。
Seed-Code 變體（Doubao-Seed-Code）： 針對程式設計／代理式程式任務（支援大型程式碼庫上下文；專注 SWE 基準）。Seed1.8 為通才型代理式多模態模型，Seed-Code 則為程式領域的專用變體。

Seedream 4.5 API（於 CometAPI）之實際應用場景

多模態研究助理與文件分析： 跨長文件、簡報與多頁報告進行抽取、摘要與推理。
長影片理解與監控： 安防／體育轉播分析、長會議摘要與串流分析，模型的長影片 token 效率尤為關鍵。
代理式工作流程／自動化： 多步網路搜尋＋程式碼執行＋資料抽取情境（例如內部基準展示的自動化競品分析、旅遊規劃、研究流程）。
開發者工具（若使用 Seed-Code）： 大型程式碼庫分析、IDE 助理，以及用於測試與修復的代理式程式碼執行（建議使用專用的 Seed-Code 變體）。
GUI 自動化與 RPA： 螢幕定位與 GUI 代理基準顯示，該模型相較先前的 Seed 版本可更好地執行結構化 GUI 任務。

如何透過 CometAPI 使用 doubao Seed 1.8 API

Doubao seed1.8 現已透過 CometAPI 以代管推理 API 商用提供。該 API 支援多模態酬載（文字＋影像＋影片片段／時間戳），並可配置推理模式，在延遲與運算量與答案品質之間取捨。

呼叫模式：API 支援標準聊天／完成式請求、串流回應，以及代理式流程，模型可發出工具呼叫（搜尋、程式碼執行、GUI 操作），並將工具輸出作為後續上下文輸入。

串流與長上下文處理：API 支援串流，並內建長工作階段的上下文管理機制（可支援 100K+ 上下文／多步代理追蹤）。

步驟 1：註冊取得 API Key

登入 cometapi.com。如果你尚未成為使用者，請先註冊。登入你的 CometAPI console。取得該介面的存取憑證 API key。在個人中心的 API token 處點擊 “Add Token”，取得 token key：sk-xxxxx 並提交。

Flux.2 Flex API

步驟 2：向 doubao Seed 1.8 API 發送請求

選擇 “doubao-seed-1-8-251228 ” endpoint 來發送 API 請求，並設定請求主體。請求方法與請求主體可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試以利使用。將 <YOUR_API_KEY> 替換為你帳號中的實際 CometAPI key。與 Chat APIs 相容。

將你的問題或請求放入 content 欄位——模型將回應該內容。處理 API 回應以取得生成的答案。

步驟 3：擷取並驗證結果

處理 API 回應以取得生成的答案。處理後，API 會回傳任務狀態與輸出資料。

Doubao-Seed-1.8

Seed 1.8 API 的技術規格

什麼是 Doubao Seed 1.8？

Seed 1.8 API 的主要功能

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

Seedream 4.5 API（於 CometAPI）之實際應用場景

如何透過 CometAPI 使用 doubao Seed 1.8 API

步驟 1：註冊取得 API Key

步驟 2：向 doubao Seed 1.8 API 發送請求

步驟 3：擷取並驗證結果

常見問題

What variants exist of Seed 1.8 and when to use each?

How does Seed1.8 differ from prior Seed versions?

What input/output modalities does Seed1.8 support?

What are the “thinking” or inference modes of Seed1.8?

Doubao-Seed-1.8 的功能

Doubao-Seed-1.8 的定價

Doubao-Seed-1.8 的範例程式碼和 API

更多模型