Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

輸入:$0.2/M
輸出:$1.6/M
上下文:256k
最大输出:224k
Doubao-Seed-1.8 针对多模态智能体场景进行了优化。在智能体能力方面,工具使用能力和复杂指令遵循能力得到显著增强。在多模态理解方面,基础视觉能力显著提升,能够以低帧率理解超长视频。视频运动理解、复杂空间理解以及文档结构解析能力也已优化,并且现已原生支持智能上下文管理,允许用户配置上下文策略。
新
商用
Playground
概览
功能亮点
定价
API

Seed 1.8 API 的技术规格

项目规格 / 说明
模型名称 / 系列Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
支持的模态文本、图像、视频(多模态 VLM 能力),生态中的音频工具(音频/视频生成由独立模型提供)。
上下文窗口(文本)256K tokens
视频 / 视觉能力面向长视频推理设计,支持高效视觉编码与大规模视频 token 配额(模型卡报告了视频 token 实验和长视频基准)。
输入格式自由文本提示;图像上传(截图、图表、照片);视频以标记化帧/使用视频工具进行片段检查;文件上传(文档)。
输出格式自然语言文本、结构化输出(structured-output beta)、函数调用/工具调用、代码,以及通过编排实现的多模态输出。
思考 / 推理模式no_think, think-low, think-medium, think-high — 在准确性与延迟/成本之间权衡。

什么是 Doubao Seed 1.8?

Doubao Seed 1.8 是 Seed 团队的 1.8 版本:一个统一的 LLM+VLM,明确面向“广义的真实世界代理能力”——即在单一模型中实现感知(图像/视频)、推理、工具编排(搜索、函数调用、代码执行、GUI grounding)与多步决策。其设计强调可配置的“思考模式”(在延迟与深度之间权衡)、高效的视觉编码以及对长上下文与多模态输入的原生支持,使模型能够在生产工作流中作为自主助手/代理运行。

Seed 1.8 API 的主要特性

  1. 统一的多模态智能体模型。 不再采用分裂式流水线,而是在单一模型内集成感知(图像/视频)、推理(LLM)与行动(工具/G U I 调用、代码执行)。这使智能体工作流更紧凑、编排复杂度更低。
  2. 超长上下文与长视频处理。 长上下文(产品支持至 256k tokens)与针对长视频的特定基准(Seed1.8 在长视频 token 效率上表现出色)。模型支持选择性视频工具(VideoCut)以在时间戳上聚焦推理。
  3. 面向 GUI 的自动化与工具使用。 基准与内部测试(OSWorld、AndroidWorld、LiveCodeBench、GUI grounding 基准)显示在 GUI 智能体任务与多步自动化上有改进。模型可输出 GUI grounding 命令,并在模拟的 OS/网页/移动端环境中操作。
  4. 可配置思考模式以控制延迟/成本。 四种推理模式允许开发者在测试时调节计算量,以满足交互式与高质量批处理任务的不同需求。这对具有严格延迟预算的生产系统尤为有用。
  5. 改进的 token 效率(多模态)。 Seed 1.8 在多模态基准上相较其前代(Seed-1.5/1.6 系列)展现出更强的 token 效率,在多个长视频任务中以更小的 token 预算达成更高准确率。
  6. 可配置思考模式: 通过不同模式(no_think → think-high)在推理深度与延迟/成本之间进行权衡,便于交互式生产使用的调优。
  7. 技术能力
  • Token 效率: 相比前代(Seed-1.5/1.6),Seed1.8 在长视频任务中以更低的 token 预算实现更强准确率(例如在 32K 视频 tokens 下也能取得有竞争力的准确率),从而降低长输入的推理成本。
  • 多模态推理与感知: 在多图 VQA 与运动/感知任务上达到 SOTA,并在许多多模态推理基准上获得第二名或接近 SOTA;在几乎所有视觉/视频维度上超越其前代。
  • 智能体工具使用与 GUI grounding: 在屏幕定位与界面操作基准(ScreenSpot-Pro、GUI agenting)上有文档化支持,并取得较高的 grounding 分数(例如相对 Seed-1.5-VL 在 ScreenSpot-Pro 上有提升)。
  • 并行/分步推理: 提升测试时计算量(平行思考)可在数学、编程与多模态推理基准上带来可量化收益。

Seed1.8 的部分公开基准亮点

  • VCRBench(视觉常识推理): Seed1.8 得分 59.8(模型卡表格报告的 Pass@1),较 Seed-1.5-VL 有所提升,接近顶级模型。
  • VideoHolmes(视频推理): Seed1.8 65.5,优于 Seed-1.5-VL,接近专业级竞品模型。
  • MMLB-NIAH(多模态长上下文,128k): Seed1.8 在 128k 上下文的 MMLB-NIAH 中取得 72.2 Pass@1,超过部分同期专业模型。
  • 运动与感知套件: 在 6 项评测中的 5 项达到 SOTA;如 TVBench、TempCompass、TOMATO 等任务中在时间感知上有显著提升。
  • 智能体工作流: 在 BrowseComp 与其他智能体搜索/代码基准上,Seed1.8 经常位居或超过竞品专业模型。

Seed 1.8 与 Gemini 3 Pro / GPT-5.x 对比

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: 在多模态感知、长视频 token 效率与智能体执行方面有明确提升。
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: 在许多多模态基准上,Seed1.8 追平或超越 Gemini 3 Pro(在若干 VQA/运动任务上达到 SOTA;在 MMLB-NIAH 128k 跑分上更优)。但卡片也显示在某些学科知识任务上 Gemini 系列仍有优势——相对排序取决于具体基准。
  • Seed-Code 变体(Doubao-Seed-Code): 专攻编程/智能体代码任务(支持大上下文代码库;专门的 SWE 基准)。Seed1.8 是通用的智能体多模态模型,而 Seed-Code 是面向编程的专用变体。

Seedream 4.5 API 在 CometAPI 上的实际用例

  • 多模态研究助理与文档分析: 跨长文档、幻灯片与多页报告进行抽取、总结与推理。
  • 长视频理解与监控: 安防/体育转播分析、长会议总结与流式分析等场景,模型的长视频 token 效率尤为关键。
  • 智能体工作流 / 自动化: 多步网页搜索 + 代码执行 + 数据抽取(例如内部基准展示的自动竞品分析、旅行规划、研究管线)。
  • 开发者工具(若使用 Seed-Code): 大型代码库分析、IDE 助手、用于测试与修复的智能体代码执行(推荐使用 Seed-Code 专用变体)。
  • GUI 自动化与 RPA: 屏幕定位与 GUI 智能体基准表明,该模型在结构化 GUI 任务上的表现优于以往的 Seed 版本。

如何通过 CometAPI 使用 doubao Seed 1.8 API

Doubao seed1.8 现已通过 CometAPI 以托管推理 API 商业化提供。该 API 支持多模态载荷(文本 + 图像 + 视频片段/时间戳),并可配置推理模式以在延迟与计算量之间权衡答案质量。

调用模式:API 支持标准 chat/completion 风格请求、流式响应,以及模型发起工具调用(搜索、代码执行、GUI 操作)并将工具输出作为后续上下文的智能体流程。

流式与长上下文处理:API 支持流式,并内置长会话的上下文管理原语(用于启用 100K+ 上下文/多步智能体轨迹)。

步骤 1:注册获取 API Key

登录 cometapi.com。如果您还不是我们的用户,请先注册。登录您的 CometAPI console。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获得 token 密钥:sk-xxxxx 并提交。

Flux.2 Flex API

步骤 2:向 doubao Seed 1.8 API 发送请求

选择 “doubao-seed-1-8-251228” endpoint 发送 API 请求并设置请求体。请求方法与请求体可在我们官网的 API 文档获取。我们的网站也提供 Apifox 测试以供便捷使用。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。兼容 Chat APIs。

将您的问题或请求插入到 content 字段中——模型将对其进行回复。处理 API 响应以获得生成的答案。

步骤 3:检索与验证结果

处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态与输出数据。

常见问题

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Doubao-Seed-1.8 的功能

了解 Doubao-Seed-1.8 的核心能力,帮助提升性能与可用性,并改善整体体验。

Doubao-Seed-1.8 的定价

查看 Doubao-Seed-1.8 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
輸入:$0.2/M
輸出:$1.6/M
輸入:$0.25/M
輸出:$2/M
-20%

Doubao-Seed-1.8 的示例代码与 API

Doubao seed1.8 现已通过 CometAPI 以托管推理 API 的形式对外商用开放。该 API 支持多模态请求负载(文本 + 图像 + 视频片段/时间戳),并提供可配置的推理模式,可在延迟、算力与答案质量之间进行权衡。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

更多模型