Seed 1.8 API の技術仕様
| 項目 | 仕様 / 注記 |
|---|---|
| モデル名 / ファミリー | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 対応モダリティ | テキスト、画像、動画(マルチモーダル VLM 機能)、エコシステム内の音声ツール(音声/動画生成向けの別モデル)。 |
| コンテキストウィンドウ(テキスト) | 256K トークン |
| 動画 / 視覚処理能力 | 長尺動画推論向けに設計されており、効率的な視覚エンコーディングと大規模な動画トークン予算をサポート(モデルカードでは動画トークン実験と長尺動画ベンチマークを報告)。 |
| 入力形式 | 自由形式のテキストプロンプト、画像アップロード(スクリーンショット、チャート、写真)、トークン化フレームとしての動画 / セグメント検査用動画ツール、ファイルアップロード(ドキュメント)。 |
| 出力形式 | 自然言語テキスト、構造化出力(structured-output beta)、関数呼び出し / ツール呼び出し、コード、およびオーケストレーションによるマルチモーダル出力。 |
| 思考 / 推論モード | no_think、think-low、think-medium、think-high — 精度とレイテンシ/コストのトレードオフ。 |
Doubao Seed 1.8 とは?
Doubao Seed 1.8 は、Seed チームによる 1.8 リリースであり、一般化された現実世界エージェンシーを明確に対象とした統合型 LLM+VLM です。つまり、知覚(画像/動画)、推論、ツールオーケストレーション(検索、関数呼び出し、コード実行、GUI グラウンディング)、および単一モデル内でのマルチステップ意思決定を実現します。この設計では、構成可能な「思考モード」(レイテンシと深さのトレードオフ)、効率的な視覚エンコーディング、長大なコンテキストとマルチモーダル入力へのネイティブ対応が重視されており、モデルが本番ワークフローにおいて自律的なアシスタント / エージェントとして動作できるようになっています。
Seed 1.8 API の主な機能
- 統合型マルチモーダル・エージェントモデル。 知覚(画像/動画)、推論(LLM)、アクション(ツール / G U I 呼び出し、コード実行)を、分割パイプラインではなく単一モデルに統合しています。これにより、コンパクトなエージェントワークフローと、より低いオーケストレーション複雑性を実現します。
- 超長文コンテキストと長尺動画対応。 長文コンテキスト(製品対応で最大 256k トークン)と、長尺動画ベンチマークでの特有の実績(Seed1.8 は長尺動画トークン効率に優れる)を備えています。モデルは選択的動画ツール(VideoCut)をサポートし、タイムスタンプに焦点を当てた推論が可能です。
- エージェント型 GUI 自動化とツール利用。 ベンチマークおよび内部テスト(OSWorld、AndroidWorld、LiveCodeBench、GUI グラウンディングベンチマーク)では、GUI エージェントタスクとマルチステップ自動化で改善が示されています。モデルは GUI グラウンディングコマンドを出力し、シミュレートされた OS / Web / モバイル環境内で動作できます。
- レイテンシ/コスト制御のための構成可能な思考モード。 4 つの推論モードにより、開発者は対話型タスクと高品質バッチタスク向けにテスト時の計算量を調整できます。これは厳しいレイテンシ予算を持つ本番システムで有用です。
- 改善されたトークン効率(マルチモーダル)。 Seed 1.8 は、その前世代(Seed-1.5/1.6 シリーズ)と比べてマルチモーダルベンチマークにおけるトークン効率の向上を示し、複数の長尺動画タスクでより小さなトークン予算でも高い精度を達成しています。
- 構成可能な思考モード: 異なるモード(
no_think→think-high)により、推論の深さとレイテンシ/コストをトレードオフし、対話型の本番利用向けに調整できます。 - 技術的能力
- トークン効率: Seed1.8 は前世代(Seed-1.5/1.6)と比較して顕著なトークン効率を示し、長尺動画タスクでより低いトークン予算でもより高い精度を実現します(例: 32K 動画トークンでも競争力のある精度を達成)。これにより、長い入力に対する推論コストを低減できます。
- マルチモーダル推論と知覚: このモデルは複数のマルチイメージ VQA および動作/知覚タスクで SOTA に達し、多くのマルチモーダル推論ベンチマークで 2 位または SOTA に近い成績を収めています。特に、測定されたほぼすべての視覚/動画次元で前モデルを上回っています。
- エージェント型ツール利用と GUI グラウンディング: GUI グラウンディングと画面ベース操作ベンチマーク(ScreenSpot-Pro、GUI エージェント化)への対応が文書化されており、強力なグラウンディングスコアを示しています(例: ScreenSpot-Pro で Seed-1.5-VL を上回る改善)。
- 並列 / 段階的推論: テスト時の計算量を増やす(並列思考)ことで、数学、コーディング、マルチモーダル推論ベンチマークで測定可能な向上が得られます
Seed1.8 の公開ベンチマークハイライト抜粋
- VCRBench(視覚的常識推論): Seed1.8 は 59.8 を記録(モデルカード表で Pass@1 として報告)。Seed-1.5-VL から改善し、トップモデルと競争力があります
- VideoHolmes(動画推論): Seed1.8 は 65.5 で、Seed-1.5-VL を上回り、プロ向け競合モデルに近づいています。
- MMLB-NIAH(マルチモーダル長文コンテキスト、128k): Seed1.8 は MMLB-NIAH において 128k コンテキストで 72.2 Pass@1 を達成し、同時代の一部プロモデルを上回りました。
- Motion & Perception suite: 評価された 6 タスク中 5 タスクで SOTA。例として TVBench、TempCompass、TOMATO では、Seed1.8 が時間的知覚で大幅な改善を示しています。
- エージェント型ワークフロー: BrowseComp やその他のエージェント型検索/コードベンチマークにおいて、Seed1.8 はしばしば競合するプロモデルに近い、またはそれを上回る順位に位置しています
Seed 1.8 と Gemini 3 Pro / GPT-5.x の比較
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: マルチモーダル知覚、長尺動画におけるトークン効率、エージェント型実行の各点で明確な改善があります。
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 多くのマルチモーダルベンチマークにおいて、Seed1.8 は Gemini 3 Pro に匹敵するか上回ります(複数の VQA / 動作タスクで SOTA、MMLB-NIAH 128k 実行でより優れた結果)。ただし、モデルカードでは Gemini 系モデルが特定の専門知識タスクで優位を保つ領域も示されており、相対的な順位はベンチマーク依存です。
- Seed-Code バリアント(Doubao-Seed-Code): プログラミング / エージェント型コードタスク向けに特化(コードベース向け大規模コンテキスト、専用 SWE ベンチマーク)。Seed1.8 は汎用エージェント型マルチモーダルモデルであり、Seed-Code はプログラミング特化型のバリアントです。
CometAPI 上の Seedream 4.5 API による実用的なユースケース
- マルチモーダル研究アシスタントと文書分析: 長文ドキュメント、スライドデッキ、複数ページのレポートにわたって抽出、要約、推論を行います。
- 長尺動画の理解と監視: セキュリティ / スポーツ放送分析、長時間会議の要約、ストリーミング分析など、モデルの長尺動画トークン効率が重要な場面。
- エージェント型ワークフロー / 自動化: マルチステップの Web 検索 + コード実行 + データ抽出シナリオ(例: 自動競合分析、旅行計画、内部ベンチマークで実証された研究パイプライン)。
- 開発者向けツール(Seed-Code を使用する場合): 大規模コードベース分析、IDE アシスタント、テストと修復のためのエージェント型コード実行(推奨される特化型バリアントは Seed-Code)。
- GUI 自動化と RPA: 画面グラウンディングおよび GUI エージェントベンチマークは、このモデルが過去の Seed リリースよりも優れた構造化 GUI タスクを実行できることを示しています。
CometAPI 経由で doubao Seed 1.8 API を使用する方法
Doubao seed1.8 は現在、CometAPI を通じてホスト型推論 API として商用提供されています。API はマルチモーダルペイロード(テキスト + 画像 + 動画フラグメント / タイムスタンプ)と、応答品質に対してレイテンシおよび計算量を調整するための構成可能な推論モードをサポートしています。
呼び出しパターン: API は標準的な chat/completion スタイルのリクエスト、ストリーミング応答、およびモデルがツール呼び出し(検索、コード実行、GUI アクション)を発行し、後続コンテキストとしてツール出力を取り込むエージェント型フローをサポートしています。
ストリーミングと長文コンテキスト処理: API はストリーミングをサポートし、長時間セッション向けのコンテキスト管理プリミティブを内蔵しています(100K+ コンテキスト / マルチステップのエージェントトレースを可能にするため)。
ステップ 1: API キーを取得する
cometapi.com にログインします。まだユーザーでない場合は、先に登録してください。CometAPI console にサインインします。インターフェースのアクセス認証情報である API キーを取得します。個人センターの API トークンで「Add Token」をクリックし、トークンキー sk-xxxxx を取得して送信します。
ステップ 2: doubao Seed 1.8 API にリクエストを送信する
API リクエストを送信するために「doubao-seed-1-8-251228 」エンドポイントを選択し、リクエスト本文を設定します。リクエストメソッドとリクエスト本文は、当社ウェブサイトの API ドキュメントから取得できます。当社ウェブサイトでは、利便性のために Apifox テストも提供しています。<YOUR_API_KEY> を、アカウントの実際の CometAPI キーに置き換えてください。Chat API との互換性があります。
質問またはリクエストを content フィールドに挿入してください。モデルはこれに応答します。API レスポンスを処理して生成された回答を取得します。
ステップ 3: 結果を取得して検証する
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクステータスと出力データを返します。
