Seed 1.8 API の技術仕様
| 項目 | 仕様 / 注記 |
|---|---|
| モデル名 / ファミリー | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 対応モダリティ | テキスト、画像、動画(マルチモーダル VLM 機能)、エコシステム内の音声ツール(音声/動画生成は別モデル)。 |
| コンテキストウィンドウ(テキスト) | 256K トークン |
| 動画 / ビジュアル能力 | 長尺動画の推論向けに設計。効率的な視覚エンコーディングと大規模な動画トークン予算をサポート(モデルカードに動画トークン実験と長尺動画ベンチマークを記載)。 |
| 入力形式 | フリーテキストのプロンプト、画像アップロード(スクリーンショット、チャート、写真)、トークン化フレームとしての動画 / セグメント検査用の動画ツール、ファイルアップロード(ドキュメント)。 |
| 出力形式 | 自然言語テキスト、構造化出力(structured-output beta)、関数呼び出し/ツール呼び出し、コード、オーケストレーションによるマルチモーダル出力。 |
| 思考 / 推論モード | no_think, think-low, think-medium, think-high — 精度とレイテンシ/コストのトレードオフ。 |
Doubao Seed 1.8 とは?
Doubao Seed 1.8 は Seed チームの 1.8 リリースであり、統合型の LLM+VLM。知覚(画像/動画)、推論、ツールのオーケストレーション(検索、関数呼び出し、コード実行、GUI グラウンディング)、およびマルチステップ意思決定による「一般化された実世界のエージェンシー」を単一モデルで明示的に目指します。レイテンシと深さのトレードオフを調整可能な「思考モード」、効率的な視覚エンコーディング、長いコンテキストとマルチモーダル入力のネイティブサポートを重視し、プロダクションのワークフローで自律アシスタント/エージェントとして動作できるよう設計されています。
Seed 1.8 API の主な特長
- 強化された統合マルチモーダル・エージェント指向モデル。分割パイプラインではなく、知覚(画像/動画)、推論(LLM)、アクション(ツール/G U I 呼び出し、コード実行)を単一モデルに統合。これにより、コンパクトなエージェントワークフローと低いオーケストレーション複雑性を実現。
- 超長コンテキストと長尺動画への対応。長コンテキスト(製品として 256k トークン対応)と長尺動画に特化したベンチマーク(Seed1.8 は長動画トークン効率に強み)。VideoCut などの選択的動画ツールにより、特定タイムスタンプへ焦点化した推論が可能。
- エージェント的な GUI オートメーションとツール利用。ベンチマークおよび内部テスト(OSWorld、AndroidWorld、LiveCodeBench、GUI グラウンディング系ベンチマーク)で GUI エージェントタスクとマルチステップ自動化が向上。GUI グラウンディングコマンドを出力し、OS/ウェブ/モバイルのシミュレーション環境で動作可能。
- レイテンシ/コスト制御のための思考モード設定。4 種の推論モードにより、対話的用途と高品質バッチ用途でテスト時の計算量を調整可能。厳格なレイテンシ予算のあるプロダクションに有用。
- 改善されたトークン効率(マルチモーダル)。Seed-1.5/1.6 系列に比べてマルチモーダルベンチマークでのトークン効率が向上し、長尺動画タスクでより少ないトークンでも高精度を達成。
- 設定可能な思考モード:明確に区別されたモード(
no_think→think-high)で推論の深さとレイテンシ/コストのトレードオフを調整し、対話的プロダクション用途に最適化。 - 技術的能力
- トークン効率:Seed1.8 は Seed-1.5/1.6 に比して顕著な効率改善を示し、長動画タスクで低トークン予算でも高精度(例:32K の動画トークンでも競合精度)。長い入力での推論コストを低減。
- マルチモーダル推論と知覚:複数画像 VQA やモーション/知覚タスクで SOTA を達成し、多くのマルチモーダル推論ベンチマークでも 2 位または SOTA 近傍。特に前世代をほぼすべての視覚/動画次元で上回る。
- エージェント的ツール利用と GUI グラウンディング:ScreenSpot-Pro、GUI agenting などの画面ベース運用ベンチマークで強力なグラウンディングスコアを記録(Seed-1.5-VL からの改善)。
- 並列/段階的推論:テスト時計算量(並列思考)を増やすことで、数学、コーディング、マルチモーダル推論ベンチマークの性能向上が確認可能。
Seed1.8 の公開ベンチマークハイライト
- VCRBench(視覚コモンセンス推論): Seed1.8 は 59.8(モデルカード表の Pass@1)を記録。Seed-1.5-VL から改善し、トップモデルと競合。
- VideoHolmes(動画推論): Seed1.8 は 65.5。Seed-1.5-VL を上回り、プログレード競合モデルに迫る。
- MMLB-NIAH(マルチモーダル長コンテキスト、128k): Seed1.8 は 128k コンテキストで 72.2 Pass@1 を達成し、同時期の一部プロモデルを凌駕。
- Motion & Perception スイート: 評価 6 タスク中 5 で SOTA。TVBench、TempCompass、TOMATO などで時間的知覚の大幅な向上を示す。
- エージェントワークフロー: BrowseComp ほかのエージェント検索/コード系ベンチマークで、競合プロモデルに匹敵または凌駕することが多い。
Seed 1.8 と Gemini 3 Pro / GPT-5.x の比較
- Seed1.8 vs Seed-1.5-VL / Seed-1.6:マルチモーダル知覚、長尺動画向けのトークン効率、エージェント実行で明確な改善。
- Seed1.8 vs Gemini 3 Pro / GPT-5.x:多くのマルチモーダルベンチマークで Seed1.8 が 同等または上回る(いくつかの VQA/モーション系で SOTA、MMLB-NIAH 128k でも優位)。一方で、特定の学術分野知識タスクでは Gemini 系が優位な領域もあり、相対序列はベンチマーク依存。
- Seed-Code バリアント(Doubao-Seed-Code):プログラミング/エージェント的コードタスクに特化(大規模コードベース文脈、SWE ベンチマークに最適化)。Seed1.8 は汎用のエージェント型マルチモーダルモデル、Seed-Code はプログラミング特化版。
CometAPI 上の Seedream 4.5 API による実用ユースケース
- マルチモーダル研究アシスタントと文書解析:長文書、スライド、複数ページのレポートを横断して抽出・要約・推論。
- 長尺動画の理解とモニタリング:セキュリティ/スポーツ配信の分析、長時間会議の要約、ストリーミング分析など、長動画トークン効率が効く用途。
- エージェントワークフロー / 自動化:ウェブ検索 + コード実行 + データ抽出のマルチステップ(例:自動競合分析、旅行計画、内部ベンチで示したリサーチパイプライン)。
- 開発者向けツール(Seed-Code 使用時):大規模コードベース解析、IDE アシスタント、テスト/修復のエージェント的コード実行(プログラミング特化版として推奨)。
- GUI オートメーション & RPA:画面グラウンディングと GUI エージェント系ベンチマークの結果から、構造化 GUI タスクを以前の Seed リリースより高精度に実行可能。
CometAPI 経由での doubao Seed 1.8 API の使い方
Doubao seed1.8 は、現在 CometAPI によるホスト推論 API として商用提供されています。テキスト + 画像 + 動画断片/タイムスタンプのマルチモーダルペイロードをサポートし、レイテンシと計算量対品質のトレードオフを調整可能な推論モードを備えています。
呼び出しパターン:標準的なチャット/補完型リクエスト、ストリーミング応答、モデルがツール呼び出し(検索、コード実行、GUI アクション)を発行し、その出力を後続コンテキストとして取り込むエージェント的フローをサポート。
ストリーミングと長コンテキスト管理:ストリーミングをサポートし、長セッション向けに組み込みのコンテキスト管理プリミティブを提供(100K+ のコンテキスト/マルチステップのエージェントトレースを可能に)。
ステップ 1: API キーを取得
cometapi.com にログインします。未登録の場合は、まず登録してください。CometAPI console にサインインします。インターフェースのアクセス認証用 API キーを取得します。パーソナルセンターの API token で「Add Token」をクリックし、トークンキー: sk-xxxxx を取得して送信します。

ステップ 2: doubao Seed 1.8 API にリクエストを送信
“doubao-seed-1-8-251228” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエスト方法とボディは当社ウェブサイトの API ドキュメントをご参照ください。Apifox によるテストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。Chat API との互換性があります。
content フィールドに質問やリクエストを挿入します—モデルはその内容に応答します。API レスポンスを処理して生成結果を取得します。
ステップ 3: 結果の取得と検証
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクのステータスと出力データを返します。