Seed 1.8 API 的技术规格

项目	规格 / 说明
模型名称 / 系列	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
支持的模态	文本、图像、视频（多模态 VLM 能力），生态中的音频工具（音频/视频生成由独立模型提供）。
上下文窗口（文本）	256K tokens
视频 / 视觉能力	面向长视频推理设计，支持高效视觉编码与大规模视频 token 配额（模型卡报告了视频 token 实验和长视频基准）。
输入格式	自由文本提示；图像上传（截图、图表、照片）；视频以标记化帧/使用视频工具进行片段检查；文件上传（文档）。
输出格式	自然语言文本、结构化输出（structured-output beta）、函数调用/工具调用、代码，以及通过编排实现的多模态输出。
思考 / 推理模式	no_think, think-low, think-medium, think-high — 在准确性与延迟/成本之间权衡。

什么是 Doubao Seed 1.8？

Doubao Seed 1.8 是 Seed 团队的 1.8 版本：一个统一的 LLM+VLM，明确面向“广义的真实世界代理能力”——即在单一模型中实现感知（图像/视频）、推理、工具编排（搜索、函数调用、代码执行、GUI grounding）与多步决策。其设计强调可配置的“思考模式”（在延迟与深度之间权衡）、高效的视觉编码以及对长上下文与多模态输入的原生支持，使模型能够在生产工作流中作为自主助手/代理运行。

Seed 1.8 API 的主要特性

统一的多模态智能体模型。 不再采用分裂式流水线，而是在单一模型内集成感知（图像/视频）、推理（LLM）与行动（工具/G U I 调用、代码执行）。这使智能体工作流更紧凑、编排复杂度更低。
超长上下文与长视频处理。 长上下文（产品支持至 256k tokens）与针对长视频的特定基准（Seed1.8 在长视频 token 效率上表现出色）。模型支持选择性视频工具（VideoCut）以在时间戳上聚焦推理。
面向 GUI 的自动化与工具使用。 基准与内部测试（OSWorld、AndroidWorld、LiveCodeBench、GUI grounding 基准）显示在 GUI 智能体任务与多步自动化上有改进。模型可输出 GUI grounding 命令，并在模拟的 OS/网页/移动端环境中操作。
可配置思考模式以控制延迟/成本。 四种推理模式允许开发者在测试时调节计算量，以满足交互式与高质量批处理任务的不同需求。这对具有严格延迟预算的生产系统尤为有用。
改进的 token 效率（多模态）。 Seed 1.8 在多模态基准上相较其前代（Seed-1.5/1.6 系列）展现出更强的 token 效率，在多个长视频任务中以更小的 token 预算达成更高准确率。
可配置思考模式： 通过不同模式（no_think → think-high）在推理深度与延迟/成本之间进行权衡，便于交互式生产使用的调优。
技术能力

Token 效率： 相比前代（Seed-1.5/1.6），Seed1.8 在长视频任务中以更低的 token 预算实现更强准确率（例如在 32K 视频 tokens 下也能取得有竞争力的准确率），从而降低长输入的推理成本。
多模态推理与感知： 在多图 VQA 与运动/感知任务上达到 SOTA，并在许多多模态推理基准上获得第二名或接近 SOTA；在几乎所有视觉/视频维度上超越其前代。
智能体工具使用与 GUI grounding： 在屏幕定位与界面操作基准（ScreenSpot-Pro、GUI agenting）上有文档化支持，并取得较高的 grounding 分数（例如相对 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升）。
并行/分步推理： 提升测试时计算量（平行思考）可在数学、编程与多模态推理基准上带来可量化收益。

Seed1.8 的部分公开基准亮点

VCRBench（视觉常识推理）： Seed1.8 得分 59.8（模型卡表格报告的 Pass@1），较 Seed-1.5-VL 有所提升，接近顶级模型。
VideoHolmes（视频推理）： Seed1.8 65.5，优于 Seed-1.5-VL，接近专业级竞品模型。
MMLB-NIAH（多模态长上下文，128k）： Seed1.8 在 128k 上下文的 MMLB-NIAH 中取得 72.2 Pass@1，超过部分同期专业模型。
运动与感知套件： 在 6 项评测中的 5 项达到 SOTA；如 TVBench、TempCompass、TOMATO 等任务中在时间感知上有显著提升。
智能体工作流： 在 BrowseComp 与其他智能体搜索/代码基准上，Seed1.8 经常位居或超过竞品专业模型。

Seed 1.8 与 Gemini 3 Pro / GPT-5.x 对比

Seed1.8 vs Seed-1.5-VL / Seed-1.6： 在多模态感知、长视频 token 效率与智能体执行方面有明确提升。
Seed1.8 vs Gemini 3 Pro / GPT-5.x： 在许多多模态基准上，Seed1.8 追平或超越 Gemini 3 Pro（在若干 VQA/运动任务上达到 SOTA；在 MMLB-NIAH 128k 跑分上更优）。但卡片也显示在某些学科知识任务上 Gemini 系列仍有优势——相对排序取决于具体基准。
Seed-Code 变体（Doubao-Seed-Code）： 专攻编程/智能体代码任务（支持大上下文代码库；专门的 SWE 基准）。Seed1.8 是通用的智能体多模态模型，而 Seed-Code 是面向编程的专用变体。

Seedream 4.5 API 在 CometAPI 上的实际用例

多模态研究助理与文档分析： 跨长文档、幻灯片与多页报告进行抽取、总结与推理。
长视频理解与监控： 安防/体育转播分析、长会议总结与流式分析等场景，模型的长视频 token 效率尤为关键。
智能体工作流 / 自动化： 多步网页搜索 + 代码执行 + 数据抽取（例如内部基准展示的自动竞品分析、旅行规划、研究管线）。
开发者工具（若使用 Seed-Code）： 大型代码库分析、IDE 助手、用于测试与修复的智能体代码执行（推荐使用 Seed-Code 专用变体）。
GUI 自动化与 RPA： 屏幕定位与 GUI 智能体基准表明，该模型在结构化 GUI 任务上的表现优于以往的 Seed 版本。

如何通过 CometAPI 使用 doubao Seed 1.8 API

Doubao seed1.8 现已通过 CometAPI 以托管推理 API 商业化提供。该 API 支持多模态载荷（文本 + 图像 + 视频片段/时间戳），并可配置推理模式以在延迟与计算量之间权衡答案质量。

调用模式：API 支持标准 chat/completion 风格请求、流式响应，以及模型发起工具调用（搜索、代码执行、GUI 操作）并将工具输出作为后续上下文的智能体流程。

流式与长上下文处理：API 支持流式，并内置长会话的上下文管理原语（用于启用 100K+ 上下文/多步智能体轨迹）。

步骤 1：注册获取 API Key

登录 cometapi.com。如果您还不是我们的用户，请先注册。登录您的 CometAPI console。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”，获得 token 密钥：sk-xxxxx 并提交。

Flux.2 Flex API

步骤 2：向 doubao Seed 1.8 API 发送请求

选择 “doubao-seed-1-8-251228” endpoint 发送 API 请求并设置请求体。请求方法与请求体可在我们官网的 API 文档获取。我们的网站也提供 Apifox 测试以供便捷使用。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。兼容 Chat APIs。

将您的问题或请求插入到 content 字段中——模型将对其进行回复。处理 API 响应以获得生成的答案。

步骤 3：检索与验证结果

处理 API 响应以获取生成的答案。处理完成后，API 将返回任务状态与输出数据。

Seed 1.8 API 的技术规格

项目	规格 / 说明
模型名称 / 系列	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
支持的模态	文本、图像、视频（多模态 VLM 能力），生态中的音频工具（音频/视频生成由独立模型提供）。
上下文窗口（文本）	256K tokens
视频 / 视觉能力	面向长视频推理设计，支持高效视觉编码与大规模视频 token 配额（模型卡报告了视频 token 实验和长视频基准）。
输入格式	自由文本提示；图像上传（截图、图表、照片）；视频以标记化帧/使用视频工具进行片段检查；文件上传（文档）。
输出格式	自然语言文本、结构化输出（structured-output beta）、函数调用/工具调用、代码，以及通过编排实现的多模态输出。
思考 / 推理模式	no_think, think-low, think-medium, think-high — 在准确性与延迟/成本之间权衡。

什么是 Doubao Seed 1.8？

Seed 1.8 API 的主要特性

统一的多模态智能体模型。 不再采用分裂式流水线，而是在单一模型内集成感知（图像/视频）、推理（LLM）与行动（工具/G U I 调用、代码执行）。这使智能体工作流更紧凑、编排复杂度更低。
超长上下文与长视频处理。 长上下文（产品支持至 256k tokens）与针对长视频的特定基准（Seed1.8 在长视频 token 效率上表现出色）。模型支持选择性视频工具（VideoCut）以在时间戳上聚焦推理。
面向 GUI 的自动化与工具使用。 基准与内部测试（OSWorld、AndroidWorld、LiveCodeBench、GUI grounding 基准）显示在 GUI 智能体任务与多步自动化上有改进。模型可输出 GUI grounding 命令，并在模拟的 OS/网页/移动端环境中操作。
可配置思考模式以控制延迟/成本。 四种推理模式允许开发者在测试时调节计算量，以满足交互式与高质量批处理任务的不同需求。这对具有严格延迟预算的生产系统尤为有用。
改进的 token 效率（多模态）。 Seed 1.8 在多模态基准上相较其前代（Seed-1.5/1.6 系列）展现出更强的 token 效率，在多个长视频任务中以更小的 token 预算达成更高准确率。
可配置思考模式： 通过不同模式（no_think → think-high）在推理深度与延迟/成本之间进行权衡，便于交互式生产使用的调优。
技术能力

Token 效率： 相比前代（Seed-1.5/1.6），Seed1.8 在长视频任务中以更低的 token 预算实现更强准确率（例如在 32K 视频 tokens 下也能取得有竞争力的准确率），从而降低长输入的推理成本。
多模态推理与感知： 在多图 VQA 与运动/感知任务上达到 SOTA，并在许多多模态推理基准上获得第二名或接近 SOTA；在几乎所有视觉/视频维度上超越其前代。
智能体工具使用与 GUI grounding： 在屏幕定位与界面操作基准（ScreenSpot-Pro、GUI agenting）上有文档化支持，并取得较高的 grounding 分数（例如相对 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升）。
并行/分步推理： 提升测试时计算量（平行思考）可在数学、编程与多模态推理基准上带来可量化收益。

Seed1.8 的部分公开基准亮点

VCRBench（视觉常识推理）： Seed1.8 得分 59.8（模型卡表格报告的 Pass@1），较 Seed-1.5-VL 有所提升，接近顶级模型。
VideoHolmes（视频推理）： Seed1.8 65.5，优于 Seed-1.5-VL，接近专业级竞品模型。
MMLB-NIAH（多模态长上下文，128k）： Seed1.8 在 128k 上下文的 MMLB-NIAH 中取得 72.2 Pass@1，超过部分同期专业模型。
运动与感知套件： 在 6 项评测中的 5 项达到 SOTA；如 TVBench、TempCompass、TOMATO 等任务中在时间感知上有显著提升。
智能体工作流： 在 BrowseComp 与其他智能体搜索/代码基准上，Seed1.8 经常位居或超过竞品专业模型。

Seed 1.8 与 Gemini 3 Pro / GPT-5.x 对比

Seed1.8 vs Seed-1.5-VL / Seed-1.6： 在多模态感知、长视频 token 效率与智能体执行方面有明确提升。
Seed1.8 vs Gemini 3 Pro / GPT-5.x： 在许多多模态基准上，Seed1.8 追平或超越 Gemini 3 Pro（在若干 VQA/运动任务上达到 SOTA；在 MMLB-NIAH 128k 跑分上更优）。但卡片也显示在某些学科知识任务上 Gemini 系列仍有优势——相对排序取决于具体基准。
Seed-Code 变体（Doubao-Seed-Code）： 专攻编程/智能体代码任务（支持大上下文代码库；专门的 SWE 基准）。Seed1.8 是通用的智能体多模态模型，而 Seed-Code 是面向编程的专用变体。

Seedream 4.5 API 在 CometAPI 上的实际用例

多模态研究助理与文档分析： 跨长文档、幻灯片与多页报告进行抽取、总结与推理。
长视频理解与监控： 安防/体育转播分析、长会议总结与流式分析等场景，模型的长视频 token 效率尤为关键。
智能体工作流 / 自动化： 多步网页搜索 + 代码执行 + 数据抽取（例如内部基准展示的自动竞品分析、旅行规划、研究管线）。
开发者工具（若使用 Seed-Code）： 大型代码库分析、IDE 助手、用于测试与修复的智能体代码执行（推荐使用 Seed-Code 专用变体）。
GUI 自动化与 RPA： 屏幕定位与 GUI 智能体基准表明，该模型在结构化 GUI 任务上的表现优于以往的 Seed 版本。

如何通过 CometAPI 使用 doubao Seed 1.8 API

流式与长上下文处理：API 支持流式，并内置长会话的上下文管理原语（用于启用 100K+ 上下文/多步智能体轨迹）。

步骤 1：注册获取 API Key

Flux.2 Flex API

步骤 2：向 doubao Seed 1.8 API 发送请求

将您的问题或请求插入到 content 字段中——模型将对其进行回复。处理 API 响应以获得生成的答案。

步骤 3：检索与验证结果

处理 API 响应以获取生成的答案。处理完成后，API 将返回任务状态与输出数据。

Doubao-Seed-1.8

Seed 1.8 API 的技术规格

什么是 Doubao Seed 1.8？

Seed 1.8 API 的主要特性

Seed 1.8 与 Gemini 3 Pro / GPT-5.x 对比

Seedream 4.5 API 在 CometAPI 上的实际用例

如何通过 CometAPI 使用 doubao Seed 1.8 API

步骤 1：注册获取 API Key

步骤 2：向 doubao Seed 1.8 API 发送请求

步骤 3：检索与验证结果

常见问题

What variants exist of Seed 1.8 and when to use each?

How does Seed1.8 differ from prior Seed versions?

What input/output modalities does Seed1.8 support?

What are the “thinking” or inference modes of Seed1.8?

Doubao-Seed-1.8 的功能

Doubao-Seed-1.8 的定价

Doubao-Seed-1.8 的示例代码与 API

更多模型

Doubao-Seed-1.8

Seed 1.8 API 的技术规格

什么是 Doubao Seed 1.8？

Seed 1.8 API 的主要特性

Seed 1.8 与 Gemini 3 Pro / GPT-5.x 对比

Seedream 4.5 API 在 CometAPI 上的实际用例

如何通过 CometAPI 使用 doubao Seed 1.8 API

步骤 1：注册获取 API Key

步骤 2：向 doubao Seed 1.8 API 发送请求

步骤 3：检索与验证结果

常见问题

What variants exist of Seed 1.8 and when to use each?

How does Seed1.8 differ from prior Seed versions?

What input/output modalities does Seed1.8 support?

What are the “thinking” or inference modes of Seed1.8?

Doubao-Seed-1.8 的功能

Doubao-Seed-1.8 的定价

Doubao-Seed-1.8 的示例代码与 API

更多模型