模型支持企业博客
500+ AI 模型 API,一次搞定,就在 CometAPI
模型 API
开发者
快速入门文档API 仪表板
资源
AI 模型博客企业更新日志关于
2025 CometAPI。保留所有权利。隐私政策服务条款
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

输入:$0.2/M
输出:$1.6/M
上下文:256k
最大输出:224k
Doubao-Seed-1.8 针对多模态智能体场景进行了优化。在智能体能力方面,工具使用能力和复杂指令遵循能力得到显著增强。在多模态理解方面,基础视觉能力显著提升,能够以低帧率理解超长视频。视频运动理解、复杂空间理解以及文档结构解析能力也已优化,并且现已原生支持智能上下文管理,允许用户配置上下文策略。
新
商用
Playground
概览
功能亮点
定价
API

Seed 1.8 API 的技术规格

项目规格 / 说明
模型名称 / 系列Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
支持的模态文本、图像、视频(多模态 VLM 能力),生态中的音频工具(用于音频/视频生成的独立模型)。
上下文窗口(文本)256K tokens
视频 / 视觉能力为长视频推理而设计,支持高效的视觉编码和大规模视频 token 预算(模型卡报告了视频 token 实验和长视频基准)。
输入格式自由文本提示;图像上传(截图、图表、照片);将视频作为 token 化帧 / 使用视频工具进行片段检查;文件上传(文档)。
输出格式自然语言文本、结构化输出(structured-output beta)、函数调用 / 工具调用、代码,以及通过编排生成的多模态输出。
思考 / 推理模式no_think, think-low, think-medium, think-high — 在准确性与延迟/成本之间权衡。

什么是 Doubao Seed 1.8?

Doubao Seed 1.8 是 Seed 团队的 1.8 版本发布:一个面向广义的真实世界行动能力的统一 LLM+VLM——即在单一模型中实现感知(图像/视频)、推理、工具编排(搜索、函数调用、代码执行、GUI grounding)以及多步决策。其设计强调可配置的“思考模式”(在延迟与深度之间权衡)、高效的视觉编码以及对长上下文与多模态输入的原生支持,使模型能够在生产工作流中作为自主助手/代理运行。

Seed 1.8 API 的主要特性

  1. 统一的多模态行动型模型。 将感知(图像/视频)、推理(LLM)与行动(工具/GUI 调用、代码执行)整合于单一模型,而非拆分流水线。这使代理工作流更紧凑、编排复杂度更低。
  2. 超长上下文与长视频处理。 支持超长上下文(产品支持至 256k tokens)与针对长视频的专项基准(Seed1.8 展现出很强的长视频 token 效率)。模型支持选择性视频工具(VideoCut),将推理聚焦于时间戳。
  3. 面向 GUI 的自动化与工具使用。 基准与内部测试(OSWorld、AndroidWorld、LiveCodeBench、GUI grounding 基准)显示在 GUI 代理任务与多步自动化方面的改进。模型可输出 GUI grounding 命令,并在模拟的 OS/网页/移动环境中运行。
  4. 可配置思考模式以控制延迟/成本。 四种推理模式允许开发者在推理时根据交互式或高质量批处理任务调节算力。这对具有严格延迟预算的生产系统很有用。
  5. 改进的 token 效率(多模态)。 与前代(Seed-1.5/1.6 系列)相比,Seed 1.8 在多模态基准上展现更高的 token 效率,在多项长视频任务中以更小的 token 预算达到更高准确度。
  6. 可配置思考模式: 通过不同模式(no_think → think-high)在推理深度与延迟/成本间权衡,以适配交互式生产使用。
  7. 技术能力
  • Token 效率: Seed1.8 相比前代(Seed-1.5/1.6)展现出显著 token 效率提升,在长视频任务中以更低 token 预算获得更强准确度(例如即便在 32K 视频 token 设置下也具备竞争力),从而降低长输入的推理成本。
  • 多模态推理与感知: 在多图 VQA 与运动/感知任务上达到 SOTA,并在许多多模态推理基准上获得第二名或接近 SOTA;相较前代,在几乎所有视觉/视频维度上都有提升。
  • 行动型工具使用与 GUI grounding: 在屏幕 grounding 与基于屏幕的操作基准(ScreenSpot-Pro、GUI agenting)上有文档化支持,且 grounding 得分较 Seed-1.5-VL 有明显提升。
  • 并行 / 分步推理: 增加推理时计算(并行思考)在数学、编码与多模态推理基准上带来可测的收益。

Selected public benchmark highlights of Seed1.8

  • VCRBench(视觉常识推理): Seed1.8 得分为 59.8(模型卡表格中报告的 Pass@1),较 Seed-1.5-VL 有所提升,并与顶尖模型具备竞争力。
  • VideoHolmes(视频推理): Seed1.8 65.5,优于 Seed-1.5-VL,接近专业级竞品模型。
  • MMLB-NIAH(多模态长上下文,128k): Seed1.8 在 128k 上下文的 MMLB-NIAH 中取得 72.2 Pass@1,超越部分当代专业模型。
  • 运动与感知套件: 在 6 个评估任务中的 5 个达到 SOTA;例如 TVBench、TempCompass 与 TOMATO 上,Seed1.8 在时间感知方面显示出显著增益。
  • 行动型工作流: 在 BrowseComp 与其他行动型搜索/代码基准上,Seed1.8 经常排位接近或超过竞争的专业模型。

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模态感知、长视频 token 效率与行动执行方面有明确改进。
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在许多多模态基准上,Seed1.8 匹配或超越 Gemini 3 Pro(在若干 VQA / 运动任务上达成 SOTA;在 MMLB-NIAH 128k 测试中更佳)。但模型卡也显示在某些学科知识任务上 Gemini 系列仍具优势——相对排序取决于具体基准。
  • Seed-Code 变体(Doubao-Seed-Code): 专注于编程/行动型代码任务(面向大代码库的长上下文;专门的 SWE 基准)。Seed1.8 是通用的行动型多模态模型,Seed-Code 则是面向编程的专业变体。

CometAPI 上 Seedream 4.5 API 的实际用例

  • 多模态研究助理与文档分析: 跨长文档、演示文稿、多页报告进行抽取、总结与推理。
  • 长视频理解与监控: 安防/体育转播分析、长会议总结与流式分析场景中,模型的长视频 token 效率尤为重要。
  • 行动型工作流 / 自动化: 多步网页搜索 + 代码执行 + 数据抽取(例如内部基准展示的自动化竞品分析、行程规划、研究管线)。
  • 开发者工具(使用 Seed-Code 时): 大型代码库分析、IDE 助手与行动型代码执行用于测试与修复(推荐使用专门的 Seed-Code 变体)。
  • GUI 自动化与 RPA: 屏幕 grounding 与 GUI 代理基准表明模型在执行结构化 GUI 任务方面较先前 Seed 版本更出色。

如何通过 CometAPI 使用 doubao Seed 1.8 API

Doubao seed1.8 现已通过 CometAPI 商业化提供为托管推理 API。该 API 支持多模态负载(文本 + 图像 + 视频片段/时间戳)与可配置的推理模式,以在延迟与计算成本之间权衡回答质量。

调用模式:API 支持标准聊天/补全式请求、流式响应,以及模型发起工具调用(搜索、代码执行、GUI 操作)并将工具输出作为后续上下文的代理流程。

流式与长上下文处理:API 支持流式输出,并内置长会话的上下文管理机制(支持 100K+ 上下文 / 多步代理轨迹)。

步骤 1:注册获取 API Key

登录 cometapi.com。尚未成为我们的用户时请先注册。登录你的 CometAPI 控制台。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。

步骤 2:向 doubao Seed 1.8 API 发送请求

选择“doubao-seed-1-8-251228”端点发送 API 请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站也提供 Apifox 测试以便使用。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI key。与 Chat API 兼容。

将你的问题或请求插入到 content 字段中——模型将对其作出回应。处理 API 响应以获得生成的答案。

步骤 3:检索与验证结果

处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。

常见问题

What variants exist of Seed 1.8 and when to use each?

Seed1.8 是通用型多模态代理。相关变体包括:Seed-Code / Doubao-Seed-Code:专为超大代码上下文(某些 SKU 声称支持 256K 上下文)和编码工作流而设计。Seedance / Seedream:面向媒体/生成的专用变体(视频/图像生成)。对于 IDE/代码库任务,选择 Seed-Code;对于广泛的多模态代理任务,选择 Seed1.8。请在产品文档中确认 SKU 的上下文窗口和能力。

How does Seed1.8 differ from prior Seed versions?

Seed1.8 强调代理式集成(工具使用、GUI 代理、多步骤工作流),并且相比早期 Seed 1.x 模型,在长上下文处理以及长视频/运动感知方面有所提升。它被定位为 Seed 产品线中的多模态/代理升级版本。

What input/output modalities does Seed1.8 support?

原生支持多模态:文本 + 图像 + 视频。输出包括自然语言回答、结构化输出(JSON/行动计划)、代码,以及用于代理式工作流的视觉片段/时间戳引用。该模型被明确设计用于实现多模态感知 → 推理 → 行动。

What are the “thinking” or inference modes of Seed1.8?

提供可调的“思考”模式——旨在权衡延迟/计算量与推理深度(适用于需要在交互性与解题质量之间取得平衡的场景)。可使用这些模式针对交互式 UI 或更深入的批处理推理进行调优。

Doubao-Seed-1.8 的功能

了解 Doubao-Seed-1.8 的核心能力,帮助提升性能与可用性,并改善整体体验。

Doubao-Seed-1.8 的定价

查看 Doubao-Seed-1.8 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
输入:$0.2/M
输出:$1.6/M
输入:$0.25/M
输出:$2/M
-20%

Doubao-Seed-1.8 的示例代码与 API

Doubao seed1.8 现已通过 CometAPI 以托管推理 API 的形式对外商用开放。该 API 支持多模态负载(文本 + 图像 + 视频片段 / 时间戳),并提供可配置的推理模式,以在延迟、算力与答案质量之间进行权衡。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

更多模型

A

Claude Opus 4.6

输入:$4/M
输出:$20/M
Claude Opus 4.6 是 Anthropic 的“Opus”级大型语言模型,于 2026 年 2 月发布。其定位为知识工作与研究工作流的主力模型——提升长上下文推理、多步骤规划、工具使用(包括代理型软件工作流),以及计算机使用类任务,如自动生成幻灯片和电子表格。
A

Claude Sonnet 4.6

输入:$2.4/M
输出:$12/M
Claude Sonnet 4.6 是迄今为止我们最强大的 Sonnet 模型。它对模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等方面的能力进行了全面升级。Sonnet 4.6 还在 beta 阶段提供 1M token 上下文窗口。
O

GPT-5.4 nano

输入:$0.16/M
输出:$1/M
GPT-5.4 nano 专为速度和成本最为关键的任务而设计,例如分类、数据提取、排序以及子智能体。
O

GPT-5.4 mini

输入:$0.6/M
输出:$3.6/M
GPT-5.4 mini 将 GPT-5.4 的优势融入到一款更快速、更高效、专为大规模工作负载设计的模型中。
A

Claude Mythos Preview

A

Claude Mythos Preview

即将推出
输入:$60/M
输出:$240/M
Claude Mythos Preview 是我们迄今为止最强大的前沿模型,并显示出 在许多评测基准上的得分相较于我们此前的前沿模型 Claude Opus 4.6 有显著跃升。
X

mimo-v2-pro

输入:$0.8/M
输出:$2.4/M
MiMo-V2-Pro 是 Xiaomi 的旗舰基础模型,拥有超过 1T 的总参数量和 1M 的上下文长度,并针对智能体场景进行了深度优化。它对 OpenClaw 等通用智能体框架具有很强的适配性。在标准 PinchBench 和 ClawBench 基准测试中,它跻身全球第一梯队,感知性能接近 Opus 4.6。MiMo-V2-Pro 旨在作为智能体系统的大脑,协调复杂工作流,推动生产工程任务,并可靠地交付结果。

相关博客

如何使用 Doubao Seed 1.8 API?全面指南
Jan 12, 2026

如何使用 Doubao Seed 1.8 API?全面指南

Doubao Seed 1.8——ByteDance 的 Doubao 系列和 Seed 研究线的一部分——因被打造为一款具备超大上下文处理能力并增强了工具/智能体支持的“智能体化”多模态模型而受到关注。