Seed 1.8 API 的技术规格
| 项目 | 规格 / 说明 |
|---|---|
| 模型名称 / 系列 | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 支持的模态 | 文本、图像、视频(多模态 VLM 能力),生态中的音频工具(音频/视频生成由独立模型提供)。 |
| 上下文窗口(文本) | 256K tokens |
| 视频 / 视觉能力 | 面向长视频推理设计,支持高效视觉编码与大规模视频 token 配额(模型卡报告了视频 token 实验和长视频基准)。 |
| 输入格式 | 自由文本提示;图像上传(截图、图表、照片);视频以标记化帧/使用视频工具进行片段检查;文件上传(文档)。 |
| 输出格式 | 自然语言文本、结构化输出(structured-output beta)、函数调用/工具调用、代码,以及通过编排实现的多模态输出。 |
| 思考 / 推理模式 | no_think, think-low, think-medium, think-high — 在准确性与延迟/成本之间权衡。 |
什么是 Doubao Seed 1.8?
Doubao Seed 1.8 是 Seed 团队的 1.8 版本:一个统一的 LLM+VLM,明确面向“广义的真实世界代理能力”——即在单一模型中实现感知(图像/视频)、推理、工具编排(搜索、函数调用、代码执行、GUI grounding)与多步决策。其设计强调可配置的“思考模式”(在延迟与深度之间权衡)、高效的视觉编码以及对长上下文与多模态输入的原生支持,使模型能够在生产工作流中作为自主助手/代理运行。
Seed 1.8 API 的主要特性
- 统一的多模态智能体模型。 不再采用分裂式流水线,而是在单一模型内集成感知(图像/视频)、推理(LLM)与行动(工具/G U I 调用、代码执行)。这使智能体工作流更紧凑、编排复杂度更低。
- 超长上下文与长视频处理。 长上下文(产品支持至 256k tokens)与针对长视频的特定基准(Seed1.8 在长视频 token 效率上表现出色)。模型支持选择性视频工具(VideoCut)以在时间戳上聚焦推理。
- 面向 GUI 的自动化与工具使用。 基准与内部测试(OSWorld、AndroidWorld、LiveCodeBench、GUI grounding 基准)显示在 GUI 智能体任务与多步自动化上有改进。模型可输出 GUI grounding 命令,并在模拟的 OS/网页/移动端环境中操作。
- 可配置思考模式以控制延迟/成本。 四种推理模式允许开发者在测试时调节计算量,以满足交互式与高质量批处理任务的不同需求。这对具有严格延迟预算的生产系统尤为有用。
- 改进的 token 效率(多模态)。 Seed 1.8 在多模态基准上相较其前代(Seed-1.5/1.6 系列)展现出更强的 token 效率,在多个长视频任务中以更小的 token 预算达成更高准确率。
- 可配置思考模式: 通过不同模式(
no_think→think-high)在推理深度与延迟/成本之间进行权衡,便于交互式生产使用的调优。 - 技术能力
- Token 效率: 相比前代(Seed-1.5/1.6),Seed1.8 在长视频任务中以更低的 token 预算实现更强准确率(例如在 32K 视频 tokens 下也能取得有竞争力的准确率),从而降低长输入的推理成本。
- 多模态推理与感知: 在多图 VQA 与运动/感知任务上达到 SOTA,并在许多多模态推理基准上获得第二名或接近 SOTA;在几乎所有视觉/视频维度上超越其前代。
- 智能体工具使用与 GUI grounding: 在屏幕定位与界面操作基准(ScreenSpot-Pro、GUI agenting)上有文档化支持,并取得较高的 grounding 分数(例如相对 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升)。
- 并行/分步推理: 提升测试时计算量(平行思考)可在数学、编程与多模态推理基准上带来可量化收益。
Seed1.8 的部分公开基准亮点
- VCRBench(视觉常识推理): Seed1.8 得分 59.8(模型卡表格报告的 Pass@1),较 Seed-1.5-VL 有所提升,接近顶级模型。
- VideoHolmes(视频推理): Seed1.8 65.5,优于 Seed-1.5-VL,接近专业级竞品模型。
- MMLB-NIAH(多模态长上下文,128k): Seed1.8 在 128k 上下文的 MMLB-NIAH 中取得 72.2 Pass@1,超过部分同期专业模型。
- 运动与感知套件: 在 6 项评测中的 5 项达到 SOTA;如 TVBench、TempCompass、TOMATO 等任务中在时间感知上有显著提升。
- 智能体工作流: 在 BrowseComp 与其他智能体搜索/代码基准上,Seed1.8 经常位居或超过竞品专业模型。
Seed 1.8 与 Gemini 3 Pro / GPT-5.x 对比
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模态感知、长视频 token 效率与智能体执行方面有明确提升。
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在许多多模态基准上,Seed1.8 追平或超越 Gemini 3 Pro(在若干 VQA/运动任务上达到 SOTA;在 MMLB-NIAH 128k 跑分上更优)。但卡片也显示在某些学科知识任务上 Gemini 系列仍有优势——相对排序取决于具体基准。
- Seed-Code 变体(Doubao-Seed-Code): 专攻编程/智能体代码任务(支持大上下文代码库;专门的 SWE 基准)。Seed1.8 是通用的智能体多模态模型,而 Seed-Code 是面向编程的专用变体。
Seedream 4.5 API 在 CometAPI 上的实际用例
- 多模态研究助理与文档分析: 跨长文档、幻灯片与多页报告进行抽取、总结与推理。
- 长视频理解与监控: 安防/体育转播分析、长会议总结与流式分析等场景,模型的长视频 token 效率尤为关键。
- 智能体工作流 / 自动化: 多步网页搜索 + 代码执行 + 数据抽取(例如内部基准展示的自动竞品分析、旅行规划、研究管线)。
- 开发者工具(若使用 Seed-Code): 大型代码库分析、IDE 助手、用于测试与修复的智能体代码执行(推荐使用 Seed-Code 专用变体)。
- GUI 自动化与 RPA: 屏幕定位与 GUI 智能体基准表明,该模型在结构化 GUI 任务上的表现优于以往的 Seed 版本。
如何通过 CometAPI 使用 doubao Seed 1.8 API
Doubao seed1.8 现已通过 CometAPI 以托管推理 API 商业化提供。该 API 支持多模态载荷(文本 + 图像 + 视频片段/时间戳),并可配置推理模式以在延迟与计算量之间权衡答案质量。
调用模式:API 支持标准 chat/completion 风格请求、流式响应,以及模型发起工具调用(搜索、代码执行、GUI 操作)并将工具输出作为后续上下文的智能体流程。
流式与长上下文处理:API 支持流式,并内置长会话的上下文管理原语(用于启用 100K+ 上下文/多步智能体轨迹)。
步骤 1:注册获取 API Key
登录 cometapi.com。如果您还不是我们的用户,请先注册。登录您的 CometAPI console。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获得 token 密钥:sk-xxxxx 并提交。

步骤 2:向 doubao Seed 1.8 API 发送请求
选择 “doubao-seed-1-8-251228” endpoint 发送 API 请求并设置请求体。请求方法与请求体可在我们官网的 API 文档获取。我们的网站也提供 Apifox 测试以供便捷使用。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。兼容 Chat APIs。
将您的问题或请求插入到 content 字段中——模型将对其进行回复。处理 API 响应以获得生成的答案。
步骤 3:检索与验证结果
处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态与输出数据。