Seed 1.8 API 的技術規格
| 項目 | 規格/說明 |
|---|---|
| 模型名稱/家族 | Doubao-Seed-1.8(Seed1.8)— ByteDance Seed / Volcano Engine |
| 支援的模態 | 文字、圖片、影片(多模態 VLM 能力)、生態中的音訊工具(音訊/影片生成使用獨立模型)。 |
| 上下文視窗(文字) | 256K tokens |
| 影片/視覺能力 | 專為長影片推理而設計,支援高效視覺編碼與大型影片 token 預算(模型卡報告了影片 token 實驗與長影片基準測試)。 |
| 輸入格式 | 自由文字提示;圖片上傳(螢幕截圖、圖表、照片);以 token 化影格形式輸入的影片/用於片段檢查的影片工具;檔案上傳(文件)。 |
| 輸出格式 | 自然語言文字、結構化輸出(structured-output beta)、函式呼叫/工具呼叫、程式碼,以及透過編排產生的多模態輸出。 |
| 思考/推理模式 | no_think、think-low、think-medium、think-high — 在準確性與延遲/成本之間進行權衡。 |
什麼是 Doubao Seed 1.8?
Doubao Seed 1.8 是 Seed 團隊的 1.8 版本:一個統一的 LLM+VLM,明確以泛化的真實世界代理能力為目標——也就是感知(圖片/影片)、推理、工具編排(搜尋、函式呼叫、程式碼執行、GUI 定位)以及在單一模型內進行多步決策。其設計強調可配置的「思考模式」(在延遲與深度之間取捨)、高效視覺編碼,以及對長上下文與多模態輸入的原生支援,使模型能夠在生產工作流程中作為自主助理/代理運作。
Seed 1.8 API 的主要功能
- 統一的多模態代理模型。 在單一模型中整合感知(圖片/影片)、推理(LLM)與行動(工具/G U I 呼叫、程式碼執行),而非拆分式流程。這可實現更精簡的代理工作流與更低的編排複雜度。
- 超長上下文與長影片處理。 支援長上下文(產品支援最高 256k tokens),並在特定長影片基準上表現突出(Seed1.8 展現出很強的長影片 token 效率)。模型支援選擇性影片工具(VideoCut),可將推理聚焦於特定時間戳。
- 代理式 GUI 自動化與工具使用。 基準與內部測試(OSWorld、AndroidWorld、LiveCodeBench、GUI 定位基準)顯示其在 GUI 代理任務與多步自動化上有所提升。模型可輸出 GUI 定位指令,並可在模擬的 OS/Web/行動環境中運作。
- 可配置的思考模式,用於延遲/成本控制。 四種推理模式讓開發者可以在測試時調整運算量,以適應互動式任務與高品質批次任務。這對具有嚴格延遲預算的生產系統非常實用。
- 改進的 token 效率(多模態)。 與前代(Seed-1.5/1.6 系列)相比,Seed 1.8 在多模態基準上展現出更強的 token 效率,能在多個長影片任務中以更小的 token 預算獲得高準確率。
- 可配置的思考模式: 透過不同模式(
no_think→think-high)在推理深度與延遲/成本之間取捨,以適配互動式生產使用。 - 技術能力
- Token 效率: 與前代(Seed-1.5/1.6)相比,Seed1.8 顯著提升了 token 效率,在長影片任務中以更低 token 預算提供更高準確率(例如即使在 32K 影片 tokens 下也能達到具競爭力的準確率)。這使長輸入的推理成本更低。
- 多模態推理與感知: 該模型在多個多圖像 VQA 與動作/感知任務上達到 SOTA,並在許多多模態推理基準上取得第二名或接近 SOTA 的成績;具體而言,在幾乎所有被衡量的視覺/影片維度上都優於其前代。
- 代理式工具使用與 GUI 定位: 文件記載其支援 GUI 定位與基於螢幕操作的基準(ScreenSpot-Pro、GUI agenting),並具備很強的定位分數(例如相較於 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升)。
- 平行/分步推理: 增加測試時計算量(平行思考)可在數學、程式設計與多模態推理基準上帶來可觀收益
Seed1.8 的部分公開基準亮點
- VCRBench(視覺常識推理): Seed1.8 得分 59.8(模型卡表格中報告的 Pass@1),相比 Seed-1.5-VL 有提升,並且與頂級模型具競爭力
- VideoHolmes(影片推理): Seed1.8 65.5,優於 Seed-1.5-VL,並接近專業級競品模型。
- MMLB-NIAH(多模態長上下文,128k): Seed1.8 在 MMLB-NIAH 的 128k 上下文中取得 72.2 Pass@1,超越部分同時代專業模型。
- 動作與感知套件: 在 6 項評估任務中有 5 項達到 SOTA;例如 TVBench、TempCompass 與 TOMATO,Seed1.8 在時間感知方面展現出顯著提升。
- 代理式工作流: 在 BrowseComp 及其他代理式搜尋/程式碼基準上,Seed1.8 通常排名接近或高於競爭的專業模型
Seed 1.8 與 Gemini 3 Pro / GPT-5.x 的比較
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模態感知、長影片 token 效率與代理式執行方面都有明顯提升。
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在許多多模態基準上,Seed1.8 可與 Gemini 3 Pro 持平甚至超越(在多項 VQA/動作任務上達到 SOTA;在 MMLB-NIAH 128k 測試中表現更佳)。但模型卡也顯示,Gemini 系列在某些學科知識任務上仍具優勢——因此相對排序取決於具體基準。
- Seed-Code 變體(Doubao-Seed-Code): 專為程式設計/代理式程式碼任務而優化(支援大型程式碼庫上下文;針對 SWE 基準進行專門優化)。Seed1.8 是通用型代理式多模態模型,而 Seed-Code 則是專注於程式設計的變體。
CometAPI 上 Seedream 4.5 API 的實際使用案例
- 多模態研究助理與文件分析: 跨長文件、簡報與多頁報告進行擷取、摘要與推理。
- 長影片理解與監控: 安防/體育轉播分析、長會議摘要與串流分析,適用於模型長影片 token 效率具有優勢的場景。
- 代理式工作流/自動化: 多步網頁搜尋 + 程式碼執行 + 資料擷取場景(例如自動化競品分析、旅行規劃、內部基準中展示的研究流程)。
- 開發者工具(若使用 Seed-Code): 大型程式碼庫分析、IDE 助理,以及用於測試與修復的代理式程式碼執行(Seed-Code 是推薦的專用變體)。
- GUI 自動化與 RPA: 螢幕定位與 GUI 代理基準表明,該模型在結構化 GUI 任務上的表現優於先前的 Seed 版本。
如何透過 CometAPI 使用 doubao Seed 1.8 API
Doubao seed1.8 現已透過 CometAPI 以託管推理 API 的形式提供商業化服務。該 API 支援多模態負載(文字 + 圖片 + 影片片段/時間戳),並提供可配置的推理模式,以在延遲與運算成本之間換取更好的答案品質。
呼叫模式:該 API 支援標準 chat/completion 風格的請求、串流回應,以及模型發出工具呼叫(搜尋、程式碼執行、GUI 動作)並將工具輸出作為後續上下文輸入的代理式流程。
串流與長上下文處理:該 API 支援串流,並內建長會話的上下文管理原語(以支援 100K+ 上下文/多步代理追蹤)。
步驟 1:註冊 API Key
登入 cometapi.com。如果您尚未成為我們的使用者,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 中點擊「Add Token」,取得 token key:sk-xxxxx,然後提交。
步驟 2:向 doubao Seed 1.8 API 發送請求
選擇「doubao-seed-1-8-251228」端點來發送 API 請求,並設定請求主體。請求方法與請求主體可從我們網站的 API 文件中取得。我們的網站也提供 Apifox 測試以方便您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。相容於 Chat APIs。
將您的問題或請求插入 content 欄位——模型將對其作出回應。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。
