Seed 1.8 API 的技术规格
| 项目 | 规格 / 说明 |
|---|---|
| 模型名称 / 系列 | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 支持的模态 | 文本、图像、视频(多模态 VLM 能力),生态中的音频工具(用于音频/视频生成的独立模型)。 |
| 上下文窗口(文本) | 256K tokens |
| 视频 / 视觉能力 | 为长视频推理而设计,支持高效的视觉编码和大规模视频 token 预算(模型卡报告了视频 token 实验和长视频基准)。 |
| 输入格式 | 自由文本提示;图像上传(截图、图表、照片);将视频作为 token 化帧 / 使用视频工具进行片段检查;文件上传(文档)。 |
| 输出格式 | 自然语言文本、结构化输出(structured-output beta)、函数调用 / 工具调用、代码,以及通过编排生成的多模态输出。 |
| 思考 / 推理模式 | no_think, think-low, think-medium, think-high — 在准确性与延迟/成本之间权衡。 |
什么是 Doubao Seed 1.8?
Doubao Seed 1.8 是 Seed 团队的 1.8 版本发布:一个面向广义的真实世界行动能力的统一 LLM+VLM——即在单一模型中实现感知(图像/视频)、推理、工具编排(搜索、函数调用、代码执行、GUI grounding)以及多步决策。其设计强调可配置的“思考模式”(在延迟与深度之间权衡)、高效的视觉编码以及对长上下文与多模态输入的原生支持,使模型能够在生产工作流中作为自主助手/代理运行。
Seed 1.8 API 的主要特性
- 统一的多模态行动型模型。 将感知(图像/视频)、推理(LLM)与行动(工具/GUI 调用、代码执行)整合于单一模型,而非拆分流水线。这使代理工作流更紧凑、编排复杂度更低。
- 超长上下文与长视频处理。 支持超长上下文(产品支持至 256k tokens)与针对长视频的专项基准(Seed1.8 展现出很强的长视频 token 效率)。模型支持选择性视频工具(VideoCut),将推理聚焦于时间戳。
- 面向 GUI 的自动化与工具使用。 基准与内部测试(OSWorld、AndroidWorld、LiveCodeBench、GUI grounding 基准)显示在 GUI 代理任务与多步自动化方面的改进。模型可输出 GUI grounding 命令,并在模拟的 OS/网页/移动环境中运行。
- 可配置思考模式以控制延迟/成本。 四种推理模式允许开发者在推理时根据交互式或高质量批处理任务调节算力。这对具有严格延迟预算的生产系统很有用。
- 改进的 token 效率(多模态)。 与前代(Seed-1.5/1.6 系列)相比,Seed 1.8 在多模态基准上展现更高的 token 效率,在多项长视频任务中以更小的 token 预算达到更高准确度。
- 可配置思考模式: 通过不同模式(
no_think→think-high)在推理深度与延迟/成本间权衡,以适配交互式生产使用。 - 技术能力
- Token 效率: Seed1.8 相比前代(Seed-1.5/1.6)展现出显著 token 效率提升,在长视频任务中以更低 token 预算获得更强准确度(例如即便在 32K 视频 token 设置下也具备竞争力),从而降低长输入的推理成本。
- 多模态推理与感知: 在多图 VQA 与运动/感知任务上达到 SOTA,并在许多多模态推理基准上获得第二名或接近 SOTA;相较前代,在几乎所有视觉/视频维度上都有提升。
- 行动型工具使用与 GUI grounding: 在屏幕 grounding 与基于屏幕的操作基准(ScreenSpot-Pro、GUI agenting)上有文档化支持,且 grounding 得分较 Seed-1.5-VL 有明显提升。
- 并行 / 分步推理: 增加推理时计算(并行思考)在数学、编码与多模态推理基准上带来可测的收益。
Selected public benchmark highlights of Seed1.8
- VCRBench(视觉常识推理): Seed1.8 得分为 59.8(模型卡表格中报告的 Pass@1),较 Seed-1.5-VL 有所提升,并与顶尖模型具备竞争力。
- VideoHolmes(视频推理): Seed1.8 65.5,优于 Seed-1.5-VL,接近专业级竞品模型。
- MMLB-NIAH(多模态长上下文,128k): Seed1.8 在 128k 上下文的 MMLB-NIAH 中取得 72.2 Pass@1,超越部分当代专业模型。
- 运动与感知套件: 在 6 个评估任务中的 5 个达到 SOTA;例如 TVBench、TempCompass 与 TOMATO 上,Seed1.8 在时间感知方面显示出显著增益。
- 行动型工作流: 在 BrowseComp 与其他行动型搜索/代码基准上,Seed1.8 经常排位接近或超过竞争的专业模型。
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模态感知、长视频 token 效率与行动执行方面有明确改进。
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在许多多模态基准上,Seed1.8 匹配或超越 Gemini 3 Pro(在若干 VQA / 运动任务上达成 SOTA;在 MMLB-NIAH 128k 测试中更佳)。但模型卡也显示在某些学科知识任务上 Gemini 系列仍具优势——相对排序取决于具体基准。
- Seed-Code 变体(Doubao-Seed-Code): 专注于编程/行动型代码任务(面向大代码库的长上下文;专门的 SWE 基准)。Seed1.8 是通用的行动型多模态模型,Seed-Code 则是面向编程的专业变体。
CometAPI 上 Seedream 4.5 API 的实际用例
- 多模态研究助理与文档分析: 跨长文档、演示文稿、多页报告进行抽取、总结与推理。
- 长视频理解与监控: 安防/体育转播分析、长会议总结与流式分析场景中,模型的长视频 token 效率尤为重要。
- 行动型工作流 / 自动化: 多步网页搜索 + 代码执行 + 数据抽取(例如内部基准展示的自动化竞品分析、行程规划、研究管线)。
- 开发者工具(使用 Seed-Code 时): 大型代码库分析、IDE 助手与行动型代码执行用于测试与修复(推荐使用专门的 Seed-Code 变体)。
- GUI 自动化与 RPA: 屏幕 grounding 与 GUI 代理基准表明模型在执行结构化 GUI 任务方面较先前 Seed 版本更出色。
如何通过 CometAPI 使用 doubao Seed 1.8 API
Doubao seed1.8 现已通过 CometAPI 商业化提供为托管推理 API。该 API 支持多模态负载(文本 + 图像 + 视频片段/时间戳)与可配置的推理模式,以在延迟与计算成本之间权衡回答质量。
调用模式:API 支持标准聊天/补全式请求、流式响应,以及模型发起工具调用(搜索、代码执行、GUI 操作)并将工具输出作为后续上下文的代理流程。
流式与长上下文处理:API 支持流式输出,并内置长会话的上下文管理机制(支持 100K+ 上下文 / 多步代理轨迹)。
步骤 1:注册获取 API Key
登录 cometapi.com。尚未成为我们的用户时请先注册。登录你的 CometAPI 控制台。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。
步骤 2:向 doubao Seed 1.8 API 发送请求
选择“doubao-seed-1-8-251228”端点发送 API 请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站也提供 Apifox 测试以便使用。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI key。与 Chat API 兼容。
将你的问题或请求插入到 content 字段中——模型将对其作出回应。处理 API 响应以获得生成的答案。
步骤 3:检索与验证结果
处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。
