What variants exist of Seed 1.8 and when to use each?

Seed1.8 是通用型多模態代理。相關變體包括：Seed-Code / Doubao-Seed-Code：專為超大型程式碼上下文（部分 SKU 聲稱支援 256K 上下文）和編碼工作流程而設。Seedance / Seedream：專門用於媒體／生成的變體（影片／圖像生成）。對於 IDE／程式碼庫任務，請選擇 Seed-Code；對於廣泛的多模態代理任務，請選擇 Seed1.8。請在產品文件中確認 SKU 的上下文視窗和功能。

How does Seed1.8 differ from prior Seed versions?

相較於較早的 Seed 1.x 模型，Seed1.8 更強調代理式整合（工具使用、GUI 代理、多步驟工作流程）、更佳的長上下文處理能力，以及更好的長影片／動作感知。它被定位為 Seed 產品線中的多模態／代理升級版本。

What input/output modalities does Seed1.8 support?

原生支援多模態：文字 + 圖像 + 影片。輸出包括自然語言回答、結構化輸出（JSON／行動計畫）、程式碼，以及用於代理式工作流程的視覺片段／時間戳記參照。該模型明確設計用於多模態感知 → 推理 → 行動。

What are the “thinking” or inference modes of Seed1.8?

提供可調整的「思考」模式——旨在於延遲／算力與推理深度之間進行權衡（當你必須平衡互動性與解決方案品質時非常有用）。可使用這些模式來針對互動式 UI 或更深入的批次推理進行調整。

實惠的 Doubao-Seed-1.8 API | text-to-text

Seed 1.8 API 的技術規格

項目	規格／說明
模型名稱／家族	Doubao-Seed-1.8（Seed1.8）— ByteDance Seed / Volcano Engine
支援的模態	文字、圖片、影片（多模態 VLM 能力）、生態中的音訊工具（音訊／影片生成使用獨立模型）。
上下文視窗（文字）	256K tokens
影片／視覺能力	專為長影片推理而設計，支援高效視覺編碼與大型影片 token 預算（模型卡報告了影片 token 實驗與長影片基準測試）。
輸入格式	自由文字提示；圖片上傳（螢幕截圖、圖表、照片）；以 token 化影格形式輸入的影片／用於片段檢查的影片工具；檔案上傳（文件）。
輸出格式	自然語言文字、結構化輸出（structured-output beta）、函式呼叫／工具呼叫、程式碼，以及透過編排產生的多模態輸出。
思考／推理模式	no_think、think-low、think-medium、think-high — 在準確性與延遲／成本之間進行權衡。

什麼是 Doubao Seed 1.8？

Doubao Seed 1.8 是 Seed 團隊的 1.8 版本：一個統一的 LLM+VLM，明確以泛化的真實世界代理能力為目標——也就是感知（圖片／影片）、推理、工具編排（搜尋、函式呼叫、程式碼執行、GUI 定位）以及在單一模型內進行多步決策。其設計強調可配置的「思考模式」（在延遲與深度之間取捨）、高效視覺編碼，以及對長上下文與多模態輸入的原生支援，使模型能夠在生產工作流程中作為自主助理／代理運作。

Seed 1.8 API 的主要功能

統一的多模態代理模型。 在單一模型中整合感知（圖片／影片）、推理（LLM）與行動（工具／G U I 呼叫、程式碼執行），而非拆分式流程。這可實現更精簡的代理工作流與更低的編排複雜度。
超長上下文與長影片處理。 支援長上下文（產品支援最高 256k tokens），並在特定長影片基準上表現突出（Seed1.8 展現出很強的長影片 token 效率）。模型支援選擇性影片工具（VideoCut），可將推理聚焦於特定時間戳。
代理式 GUI 自動化與工具使用。 基準與內部測試（OSWorld、AndroidWorld、LiveCodeBench、GUI 定位基準）顯示其在 GUI 代理任務與多步自動化上有所提升。模型可輸出 GUI 定位指令，並可在模擬的 OS／Web／行動環境中運作。
可配置的思考模式，用於延遲／成本控制。 四種推理模式讓開發者可以在測試時調整運算量，以適應互動式任務與高品質批次任務。這對具有嚴格延遲預算的生產系統非常實用。
改進的 token 效率（多模態）。 與前代（Seed-1.5／1.6 系列）相比，Seed 1.8 在多模態基準上展現出更強的 token 效率，能在多個長影片任務中以更小的 token 預算獲得高準確率。
可配置的思考模式： 透過不同模式（no_think → think-high）在推理深度與延遲／成本之間取捨，以適配互動式生產使用。
技術能力

Token 效率： 與前代（Seed-1.5／1.6）相比，Seed1.8 顯著提升了 token 效率，在長影片任務中以更低 token 預算提供更高準確率（例如即使在 32K 影片 tokens 下也能達到具競爭力的準確率）。這使長輸入的推理成本更低。
多模態推理與感知： 該模型在多個多圖像 VQA 與動作／感知任務上達到 SOTA，並在許多多模態推理基準上取得第二名或接近 SOTA 的成績；具體而言，在幾乎所有被衡量的視覺／影片維度上都優於其前代。
代理式工具使用與 GUI 定位： 文件記載其支援 GUI 定位與基於螢幕操作的基準（ScreenSpot-Pro、GUI agenting），並具備很強的定位分數（例如相較於 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升）。
平行／分步推理： 增加測試時計算量（平行思考）可在數學、程式設計與多模態推理基準上帶來可觀收益

Seed1.8 的部分公開基準亮點

VCRBench（視覺常識推理）： Seed1.8 得分 59.8（模型卡表格中報告的 Pass@1），相比 Seed-1.5-VL 有提升，並且與頂級模型具競爭力
VideoHolmes（影片推理）： Seed1.8 65.5，優於 Seed-1.5-VL，並接近專業級競品模型。
MMLB-NIAH（多模態長上下文，128k）： Seed1.8 在 MMLB-NIAH 的 128k 上下文中取得 72.2 Pass@1，超越部分同時代專業模型。
動作與感知套件： 在 6 項評估任務中有 5 項達到 SOTA；例如 TVBench、TempCompass 與 TOMATO，Seed1.8 在時間感知方面展現出顯著提升。
代理式工作流： 在 BrowseComp 及其他代理式搜尋／程式碼基準上，Seed1.8 通常排名接近或高於競爭的專業模型

Seed 1.8 與 Gemini 3 Pro / GPT-5.x 的比較

Seed1.8 vs Seed-1.5-VL / Seed-1.6： 在多模態感知、長影片 token 效率與代理式執行方面都有明顯提升。
Seed1.8 vs Gemini 3 Pro / GPT-5.x： 在許多多模態基準上，Seed1.8 可與 Gemini 3 Pro 持平甚至超越（在多項 VQA／動作任務上達到 SOTA；在 MMLB-NIAH 128k 測試中表現更佳）。但模型卡也顯示，Gemini 系列在某些學科知識任務上仍具優勢——因此相對排序取決於具體基準。
Seed-Code 變體（Doubao-Seed-Code）： 專為程式設計／代理式程式碼任務而優化（支援大型程式碼庫上下文；針對 SWE 基準進行專門優化）。Seed1.8 是通用型代理式多模態模型，而 Seed-Code 則是專注於程式設計的變體。

CometAPI 上 Seedream 4.5 API 的實際使用案例

多模態研究助理與文件分析： 跨長文件、簡報與多頁報告進行擷取、摘要與推理。
長影片理解與監控： 安防／體育轉播分析、長會議摘要與串流分析，適用於模型長影片 token 效率具有優勢的場景。
代理式工作流／自動化： 多步網頁搜尋 + 程式碼執行 + 資料擷取場景（例如自動化競品分析、旅行規劃、內部基準中展示的研究流程）。
開發者工具（若使用 Seed-Code）： 大型程式碼庫分析、IDE 助理，以及用於測試與修復的代理式程式碼執行（Seed-Code 是推薦的專用變體）。
GUI 自動化與 RPA： 螢幕定位與 GUI 代理基準表明，該模型在結構化 GUI 任務上的表現優於先前的 Seed 版本。

如何透過 CometAPI 使用 doubao Seed 1.8 API

Doubao seed1.8 現已透過 CometAPI 以託管推理 API 的形式提供商業化服務。該 API 支援多模態負載（文字 + 圖片 + 影片片段／時間戳），並提供可配置的推理模式，以在延遲與運算成本之間換取更好的答案品質。

呼叫模式：該 API 支援標準 chat/completion 風格的請求、串流回應，以及模型發出工具呼叫（搜尋、程式碼執行、GUI 動作）並將工具輸出作為後續上下文輸入的代理式流程。

串流與長上下文處理：該 API 支援串流，並內建長會話的上下文管理原語（以支援 100K+ 上下文／多步代理追蹤）。

步驟 1：註冊 API Key

登入 cometapi.com。如果您尚未成為我們的使用者，請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 中點擊「Add Token」，取得 token key：sk-xxxxx，然後提交。

步驟 2：向 doubao Seed 1.8 API 發送請求

選擇「doubao-seed-1-8-251228」端點來發送 API 請求，並設定請求主體。請求方法與請求主體可從我們網站的 API 文件中取得。我們的網站也提供 Apifox 測試以方便您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。相容於 Chat APIs。

將您的問題或請求插入 content 欄位——模型將對其作出回應。處理 API 回應以取得生成的答案。

步驟 3：擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後，API 會回傳任務狀態與輸出資料。

彗星價格 (USD / M Tokens)	官方價格 (USD / M Tokens)	折扣
輸入:$0.2/M 輸出:$1.6/M	輸入:$0.25/M 輸出:$2/M	-20%

Seed 1.8 API 的技術規格

項目	規格／說明
模型名稱／家族	Doubao-Seed-1.8（Seed1.8）— ByteDance Seed / Volcano Engine
支援的模態	文字、圖片、影片（多模態 VLM 能力）、生態中的音訊工具（音訊／影片生成使用獨立模型）。
上下文視窗（文字）	256K tokens
影片／視覺能力	專為長影片推理而設計，支援高效視覺編碼與大型影片 token 預算（模型卡報告了影片 token 實驗與長影片基準測試）。
輸入格式	自由文字提示；圖片上傳（螢幕截圖、圖表、照片）；以 token 化影格形式輸入的影片／用於片段檢查的影片工具；檔案上傳（文件）。
輸出格式	自然語言文字、結構化輸出（structured-output beta）、函式呼叫／工具呼叫、程式碼，以及透過編排產生的多模態輸出。
思考／推理模式	no_think、think-low、think-medium、think-high — 在準確性與延遲／成本之間進行權衡。

什麼是 Doubao Seed 1.8？

Seed 1.8 API 的主要功能

統一的多模態代理模型。 在單一模型中整合感知（圖片／影片）、推理（LLM）與行動（工具／G U I 呼叫、程式碼執行），而非拆分式流程。這可實現更精簡的代理工作流與更低的編排複雜度。
超長上下文與長影片處理。 支援長上下文（產品支援最高 256k tokens），並在特定長影片基準上表現突出（Seed1.8 展現出很強的長影片 token 效率）。模型支援選擇性影片工具（VideoCut），可將推理聚焦於特定時間戳。
代理式 GUI 自動化與工具使用。 基準與內部測試（OSWorld、AndroidWorld、LiveCodeBench、GUI 定位基準）顯示其在 GUI 代理任務與多步自動化上有所提升。模型可輸出 GUI 定位指令，並可在模擬的 OS／Web／行動環境中運作。
可配置的思考模式，用於延遲／成本控制。 四種推理模式讓開發者可以在測試時調整運算量，以適應互動式任務與高品質批次任務。這對具有嚴格延遲預算的生產系統非常實用。
改進的 token 效率（多模態）。 與前代（Seed-1.5／1.6 系列）相比，Seed 1.8 在多模態基準上展現出更強的 token 效率，能在多個長影片任務中以更小的 token 預算獲得高準確率。
可配置的思考模式： 透過不同模式（no_think → think-high）在推理深度與延遲／成本之間取捨，以適配互動式生產使用。
技術能力

Token 效率： 與前代（Seed-1.5／1.6）相比，Seed1.8 顯著提升了 token 效率，在長影片任務中以更低 token 預算提供更高準確率（例如即使在 32K 影片 tokens 下也能達到具競爭力的準確率）。這使長輸入的推理成本更低。
多模態推理與感知： 該模型在多個多圖像 VQA 與動作／感知任務上達到 SOTA，並在許多多模態推理基準上取得第二名或接近 SOTA 的成績；具體而言，在幾乎所有被衡量的視覺／影片維度上都優於其前代。
代理式工具使用與 GUI 定位： 文件記載其支援 GUI 定位與基於螢幕操作的基準（ScreenSpot-Pro、GUI agenting），並具備很強的定位分數（例如相較於 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升）。
平行／分步推理： 增加測試時計算量（平行思考）可在數學、程式設計與多模態推理基準上帶來可觀收益

Seed1.8 的部分公開基準亮點

VCRBench（視覺常識推理）： Seed1.8 得分 59.8（模型卡表格中報告的 Pass@1），相比 Seed-1.5-VL 有提升，並且與頂級模型具競爭力
VideoHolmes（影片推理）： Seed1.8 65.5，優於 Seed-1.5-VL，並接近專業級競品模型。
MMLB-NIAH（多模態長上下文，128k）： Seed1.8 在 MMLB-NIAH 的 128k 上下文中取得 72.2 Pass@1，超越部分同時代專業模型。
動作與感知套件： 在 6 項評估任務中有 5 項達到 SOTA；例如 TVBench、TempCompass 與 TOMATO，Seed1.8 在時間感知方面展現出顯著提升。
代理式工作流： 在 BrowseComp 及其他代理式搜尋／程式碼基準上，Seed1.8 通常排名接近或高於競爭的專業模型

Seed 1.8 與 Gemini 3 Pro / GPT-5.x 的比較

Seed1.8 vs Seed-1.5-VL / Seed-1.6： 在多模態感知、長影片 token 效率與代理式執行方面都有明顯提升。
Seed1.8 vs Gemini 3 Pro / GPT-5.x： 在許多多模態基準上，Seed1.8 可與 Gemini 3 Pro 持平甚至超越（在多項 VQA／動作任務上達到 SOTA；在 MMLB-NIAH 128k 測試中表現更佳）。但模型卡也顯示，Gemini 系列在某些學科知識任務上仍具優勢——因此相對排序取決於具體基準。
Seed-Code 變體（Doubao-Seed-Code）： 專為程式設計／代理式程式碼任務而優化（支援大型程式碼庫上下文；針對 SWE 基準進行專門優化）。Seed1.8 是通用型代理式多模態模型，而 Seed-Code 則是專注於程式設計的變體。

CometAPI 上 Seedream 4.5 API 的實際使用案例

多模態研究助理與文件分析： 跨長文件、簡報與多頁報告進行擷取、摘要與推理。
長影片理解與監控： 安防／體育轉播分析、長會議摘要與串流分析，適用於模型長影片 token 效率具有優勢的場景。
代理式工作流／自動化： 多步網頁搜尋 + 程式碼執行 + 資料擷取場景（例如自動化競品分析、旅行規劃、內部基準中展示的研究流程）。
開發者工具（若使用 Seed-Code）： 大型程式碼庫分析、IDE 助理，以及用於測試與修復的代理式程式碼執行（Seed-Code 是推薦的專用變體）。
GUI 自動化與 RPA： 螢幕定位與 GUI 代理基準表明，該模型在結構化 GUI 任務上的表現優於先前的 Seed 版本。

如何透過 CometAPI 使用 doubao Seed 1.8 API

串流與長上下文處理：該 API 支援串流，並內建長會話的上下文管理原語（以支援 100K+ 上下文／多步代理追蹤）。

步驟 1：註冊 API Key

步驟 2：向 doubao Seed 1.8 API 發送請求

將您的問題或請求插入 content 欄位——模型將對其作出回應。處理 API 回應以取得生成的答案。

步驟 3：擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後，API 會回傳任務狀態與輸出資料。

Doubao-Seed-1.8

更多模型

Claude Opus 4.6

Claude Sonnet 4.6

GPT-5.4 nano

GPT-5.4 mini

Claude Mythos Preview

Claude Mythos Preview

mimo-v2-pro

相關部落格

如何使用 Doubao Seed 1.8 API？ 全面指南

Doubao-Seed-1.8

更多模型

Claude Opus 4.6

Claude Sonnet 4.6

GPT-5.4 nano

GPT-5.4 mini

Claude Mythos Preview

Claude Mythos Preview

mimo-v2-pro

相關部落格

如何使用 Doubao Seed 1.8 API？ 全面指南

如何使用 Doubao Seed 1.8 API？全面指南

如何使用 Doubao Seed 1.8 API？全面指南