モデルサポートエンタープライズブログ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
リソース
AIモデルブログエンタープライズ変更履歴概要
2025 CometAPI. 全著作権所有。プライバシーポリシー利用規約
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

入力:$0.2/M
出力:$1.6/M
文脈:256k
最大出力:224k
Doubao-Seed-1.8 は、マルチモーダルなエージェントシナリオ向けに最適化されています。エージェントの能力に関しては、ツールの活用と複雑なコマンドへの追従性が大幅に強化されています。マルチモーダル理解については、基本的な視覚能力が大幅に向上しており、極めて長い動画を低フレームレートで理解できるようになっています。さらに、動画の動きの理解、複雑な空間理解、文書構造の解析能力も最適化されており、インテリジェントなコンテキスト管理をネイティブにサポートしているため、ユーザーはコンテキスト戦略を設定できます。
新着
商用利用
Playground
概要
機能
料金プラン
API

Seed 1.8 API の技術仕様

項目仕様 / 注記
モデル名 / ファミリーDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
対応モダリティテキスト、画像、動画(マルチモーダル VLM 機能)、エコシステム内の音声ツール(音声/動画生成向けの別モデル)。
コンテキストウィンドウ(テキスト)256K トークン
動画 / 視覚処理能力長尺動画推論向けに設計されており、効率的な視覚エンコーディングと大規模な動画トークン予算をサポート(モデルカードでは動画トークン実験と長尺動画ベンチマークを報告)。
入力形式自由形式のテキストプロンプト、画像アップロード(スクリーンショット、チャート、写真)、トークン化フレームとしての動画 / セグメント検査用動画ツール、ファイルアップロード(ドキュメント)。
出力形式自然言語テキスト、構造化出力(structured-output beta)、関数呼び出し / ツール呼び出し、コード、およびオーケストレーションによるマルチモーダル出力。
思考 / 推論モードno_think、think-low、think-medium、think-high — 精度とレイテンシ/コストのトレードオフ。

Doubao Seed 1.8 とは?

Doubao Seed 1.8 は、Seed チームによる 1.8 リリースであり、一般化された現実世界エージェンシーを明確に対象とした統合型 LLM+VLM です。つまり、知覚(画像/動画)、推論、ツールオーケストレーション(検索、関数呼び出し、コード実行、GUI グラウンディング)、および単一モデル内でのマルチステップ意思決定を実現します。この設計では、構成可能な「思考モード」(レイテンシと深さのトレードオフ)、効率的な視覚エンコーディング、長大なコンテキストとマルチモーダル入力へのネイティブ対応が重視されており、モデルが本番ワークフローにおいて自律的なアシスタント / エージェントとして動作できるようになっています。

Seed 1.8 API の主な機能

  1. 統合型マルチモーダル・エージェントモデル。 知覚(画像/動画)、推論(LLM)、アクション(ツール / G U I 呼び出し、コード実行)を、分割パイプラインではなく単一モデルに統合しています。これにより、コンパクトなエージェントワークフローと、より低いオーケストレーション複雑性を実現します。
  2. 超長文コンテキストと長尺動画対応。 長文コンテキスト(製品対応で最大 256k トークン)と、長尺動画ベンチマークでの特有の実績(Seed1.8 は長尺動画トークン効率に優れる)を備えています。モデルは選択的動画ツール(VideoCut)をサポートし、タイムスタンプに焦点を当てた推論が可能です。
  3. エージェント型 GUI 自動化とツール利用。 ベンチマークおよび内部テスト(OSWorld、AndroidWorld、LiveCodeBench、GUI グラウンディングベンチマーク)では、GUI エージェントタスクとマルチステップ自動化で改善が示されています。モデルは GUI グラウンディングコマンドを出力し、シミュレートされた OS / Web / モバイル環境内で動作できます。
  4. レイテンシ/コスト制御のための構成可能な思考モード。 4 つの推論モードにより、開発者は対話型タスクと高品質バッチタスク向けにテスト時の計算量を調整できます。これは厳しいレイテンシ予算を持つ本番システムで有用です。
  5. 改善されたトークン効率(マルチモーダル)。 Seed 1.8 は、その前世代(Seed-1.5/1.6 シリーズ)と比べてマルチモーダルベンチマークにおけるトークン効率の向上を示し、複数の長尺動画タスクでより小さなトークン予算でも高い精度を達成しています。
  6. 構成可能な思考モード: 異なるモード(no_think → think-high)により、推論の深さとレイテンシ/コストをトレードオフし、対話型の本番利用向けに調整できます。
  7. 技術的能力
  • トークン効率: Seed1.8 は前世代(Seed-1.5/1.6)と比較して顕著なトークン効率を示し、長尺動画タスクでより低いトークン予算でもより高い精度を実現します(例: 32K 動画トークンでも競争力のある精度を達成)。これにより、長い入力に対する推論コストを低減できます。
  • マルチモーダル推論と知覚: このモデルは複数のマルチイメージ VQA および動作/知覚タスクで SOTA に達し、多くのマルチモーダル推論ベンチマークで 2 位または SOTA に近い成績を収めています。特に、測定されたほぼすべての視覚/動画次元で前モデルを上回っています。
  • エージェント型ツール利用と GUI グラウンディング: GUI グラウンディングと画面ベース操作ベンチマーク(ScreenSpot-Pro、GUI エージェント化)への対応が文書化されており、強力なグラウンディングスコアを示しています(例: ScreenSpot-Pro で Seed-1.5-VL を上回る改善)。
  • 並列 / 段階的推論: テスト時の計算量を増やす(並列思考)ことで、数学、コーディング、マルチモーダル推論ベンチマークで測定可能な向上が得られます

Seed1.8 の公開ベンチマークハイライト抜粋

  • VCRBench(視覚的常識推論): Seed1.8 は 59.8 を記録(モデルカード表で Pass@1 として報告)。Seed-1.5-VL から改善し、トップモデルと競争力があります
  • VideoHolmes(動画推論): Seed1.8 は 65.5 で、Seed-1.5-VL を上回り、プロ向け競合モデルに近づいています。
  • MMLB-NIAH(マルチモーダル長文コンテキスト、128k): Seed1.8 は MMLB-NIAH において 128k コンテキストで 72.2 Pass@1 を達成し、同時代の一部プロモデルを上回りました。
  • Motion & Perception suite: 評価された 6 タスク中 5 タスクで SOTA。例として TVBench、TempCompass、TOMATO では、Seed1.8 が時間的知覚で大幅な改善を示しています。
  • エージェント型ワークフロー: BrowseComp やその他のエージェント型検索/コードベンチマークにおいて、Seed1.8 はしばしば競合するプロモデルに近い、またはそれを上回る順位に位置しています

Seed 1.8 と Gemini 3 Pro / GPT-5.x の比較

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: マルチモーダル知覚、長尺動画におけるトークン効率、エージェント型実行の各点で明確な改善があります。
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: 多くのマルチモーダルベンチマークにおいて、Seed1.8 は Gemini 3 Pro に匹敵するか上回ります(複数の VQA / 動作タスクで SOTA、MMLB-NIAH 128k 実行でより優れた結果)。ただし、モデルカードでは Gemini 系モデルが特定の専門知識タスクで優位を保つ領域も示されており、相対的な順位はベンチマーク依存です。
  • Seed-Code バリアント(Doubao-Seed-Code): プログラミング / エージェント型コードタスク向けに特化(コードベース向け大規模コンテキスト、専用 SWE ベンチマーク)。Seed1.8 は汎用エージェント型マルチモーダルモデルであり、Seed-Code はプログラミング特化型のバリアントです。

CometAPI 上の Seedream 4.5 API による実用的なユースケース

  • マルチモーダル研究アシスタントと文書分析: 長文ドキュメント、スライドデッキ、複数ページのレポートにわたって抽出、要約、推論を行います。
  • 長尺動画の理解と監視: セキュリティ / スポーツ放送分析、長時間会議の要約、ストリーミング分析など、モデルの長尺動画トークン効率が重要な場面。
  • エージェント型ワークフロー / 自動化: マルチステップの Web 検索 + コード実行 + データ抽出シナリオ(例: 自動競合分析、旅行計画、内部ベンチマークで実証された研究パイプライン)。
  • 開発者向けツール(Seed-Code を使用する場合): 大規模コードベース分析、IDE アシスタント、テストと修復のためのエージェント型コード実行(推奨される特化型バリアントは Seed-Code)。
  • GUI 自動化と RPA: 画面グラウンディングおよび GUI エージェントベンチマークは、このモデルが過去の Seed リリースよりも優れた構造化 GUI タスクを実行できることを示しています。

CometAPI 経由で doubao Seed 1.8 API を使用する方法

Doubao seed1.8 は現在、CometAPI を通じてホスト型推論 API として商用提供されています。API はマルチモーダルペイロード(テキスト + 画像 + 動画フラグメント / タイムスタンプ)と、応答品質に対してレイテンシおよび計算量を調整するための構成可能な推論モードをサポートしています。

呼び出しパターン: API は標準的な chat/completion スタイルのリクエスト、ストリーミング応答、およびモデルがツール呼び出し(検索、コード実行、GUI アクション)を発行し、後続コンテキストとしてツール出力を取り込むエージェント型フローをサポートしています。

ストリーミングと長文コンテキスト処理: API はストリーミングをサポートし、長時間セッション向けのコンテキスト管理プリミティブを内蔵しています(100K+ コンテキスト / マルチステップのエージェントトレースを可能にするため)。

ステップ 1: API キーを取得する

cometapi.com にログインします。まだユーザーでない場合は、先に登録してください。CometAPI console にサインインします。インターフェースのアクセス認証情報である API キーを取得します。個人センターの API トークンで「Add Token」をクリックし、トークンキー sk-xxxxx を取得して送信します。

ステップ 2: doubao Seed 1.8 API にリクエストを送信する

API リクエストを送信するために「doubao-seed-1-8-251228 」エンドポイントを選択し、リクエスト本文を設定します。リクエストメソッドとリクエスト本文は、当社ウェブサイトの API ドキュメントから取得できます。当社ウェブサイトでは、利便性のために Apifox テストも提供しています。<YOUR_API_KEY> を、アカウントの実際の CometAPI キーに置き換えてください。Chat API との互換性があります。

質問またはリクエストを content フィールドに挿入してください。モデルはこれに応答します。API レスポンスを処理して生成された回答を取得します。

ステップ 3: 結果を取得して検証する

API レスポンスを処理して生成された回答を取得します。処理後、API はタスクステータスと出力データを返します。

よくある質問

What variants exist of Seed 1.8 and when to use each?

Seed1.8 は汎用のマルチモーダルエージェントです。関連するバリアントには、 Seed-Code / Doubao-Seed-Code:非常に大きなコードコンテキスト(SKU によっては 256K コンテキストを謳うものも)とコーディングのワークフローに特化。 Seedance / Seedream:メディア/生成に特化したバリアント(動画/画像生成)。IDE/コードベース作業には Seed-Code を、広範なマルチモーダルエージェントタスクには Seed1.8 を選択してください。SKU のコンテキストウィンドウと機能は製品ドキュメントで確認してください。

How does Seed1.8 differ from prior Seed versions?

Seed1.8 はエージェント統合(ツール使用、GUI エージェント化、マルチステップワークフロー)を重視し、長いコンテキストの処理と長尺動画/モーションの知覚を Seed 1.x 以前のモデルより改善しています。Seed ラインにおけるマルチモーダル/エージェントのアップグレードとして位置付けられています。

What input/output modalities does Seed1.8 support?

ネイティブなマルチモーダル対応:テキスト + 画像 + 動画。出力には、自然言語の回答、構造化出力(JSON/アクションプラン)、コード、エージェントワークフローのための視覚セグメント/タイムスタンプ参照が含まれます。モデルは、マルチモーダルな知覚 → 推論 → 行動のために明示的に設計されています。

What are the “thinking” or inference modes of Seed1.8?

レイテンシ/計算資源と推論の深さのトレードオフを取るために設計された、調整可能な「思考」モードがあります(対話性と解の品質のバランスが必要な場合に有用)。インタラクティブな UI 向け、またはより深いバッチ推論向けに、これらのモードでチューニングしてください。

Doubao-Seed-1.8の機能

Doubao-Seed-1.8のパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

Doubao-Seed-1.8の料金

Doubao-Seed-1.8の競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。Doubao-Seed-1.8がコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
入力:$0.2/M
出力:$1.6/M
入力:$0.25/M
出力:$2/M
-20%

Doubao-Seed-1.8のサンプルコードとAPI

Doubao seed1.8 は、現在 CometAPI を通じてホスト型の推論 API として商用提供されています。この API は、マルチモーダルなペイロード(テキスト+画像+動画フラグメント/タイムスタンプ)をサポートし、レイテンシや計算量と回答品質のトレードオフを調整できる構成可能な推論モードに対応しています。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

その他のモデル

A

Claude Opus 4.6

入力:$4/M
出力:$20/M
Claude Opus 4.6 は、Anthropic の「Opus」クラスの大規模言語モデルで、2026年2月にリリースされた。ナレッジワークや研究ワークフローの主力として位置づけられており、長文脈での推論、多段階の計画立案、ツールの利用(エージェント型ソフトウェアワークフローを含む)、およびスライドやスプレッドシートの自動生成といったコンピュータ操作タスクを強化する。
A

Claude Sonnet 4.6

入力:$2.4/M
出力:$12/M
Claude Sonnet 4.6 は、これまでで最も高性能な Sonnet モデルです。コーディング、コンピューターの利用、長文脈推論、エージェントの計画立案、ナレッジワーク、デザインにわたってモデルのスキルを全面的にアップグレードしました。Sonnet 4.6 は、ベータ版で 1M トークンのコンテキストウィンドウも備えています。
O

GPT-5.4 nano

入力:$0.16/M
出力:$1/M
GPT-5.4 nano は、分類、データ抽出、ランキング、サブエージェントなど、速度とコストが最も重要となるタスク向けに設計されています。
O

GPT-5.4 mini

入力:$0.6/M
出力:$3.6/M
GPT-5.4 mini は、GPT-5.4 の強みを、高スループットのワークロード向けに設計された、より高速で効率的なモデルにもたらします。
A

Claude Mythos Preview

A

Claude Mythos Preview

近日公開
入力:$60/M
出力:$240/M
Claude Mythos Preview は、当社のこれまでで最も高性能なフロンティアモデルであり、 従来のフロンティアモデルである Claude Opus 4.6 と比べ、多くの評価ベンチマークでスコアが顕著に向上していることを示しています。
X

mimo-v2-pro

入力:$0.8/M
出力:$2.4/M
MiMo-V2-Pro は Xiaomi のフラッグシップ基盤モデルで、総パラメータ数は 1T 超、コンテキスト長は 1M で、エージェント志向のシナリオ向けに徹底的に最適化されています。OpenClaw のような汎用エージェントフレームワークに高い適応性を備えており、標準的な PinchBench および ClawBench ベンチマークで世界トップクラスに位置し、体感パフォーマンスは Opus 4.6 に迫ります。MiMo-V2-Pro はエージェントシステムの頭脳として、複雑なワークフローをオーケストレーションし、本番環境のエンジニアリングタスクを推進し、確実に成果を提供するよう設計されています。

関連ブログ

Doubao Seed 1.8 API の使い方は? 包括的ガイド
Jan 12, 2026

Doubao Seed 1.8 API の使い方は? 包括的ガイド

ByteDance の Doubao family および Seed research line の一部である Doubao Seed 1.8 は、「agentic」なマルチモーダルモデルとして設計され、非常に大きなコンテキスト処理能力と強化されたツール/エージェントサポートを備えている点で注目を集めている。