What variants exist of Seed 1.8 and when to use each?

Seed1.8 は汎用のマルチモーダルエージェントです。関連するバリアントには、 Seed-Code / Doubao-Seed-Code：非常に大きなコードコンテキスト（SKU によっては 256K コンテキストを謳うものも）とコーディングのワークフローに特化。 Seedance / Seedream：メディア/生成に特化したバリアント（動画/画像生成）。IDE/コードベース作業には Seed-Code を、広範なマルチモーダルエージェントタスクには Seed1.8 を選択してください。SKU のコンテキストウィンドウと機能は製品ドキュメントで確認してください。

How does Seed1.8 differ from prior Seed versions?

Seed1.8 はエージェント統合（ツール使用、GUI エージェント化、マルチステップワークフロー）を重視し、長いコンテキストの処理と長尺動画/モーションの知覚を Seed 1.x 以前のモデルより改善しています。Seed ラインにおけるマルチモーダル/エージェントのアップグレードとして位置付けられています。

What input/output modalities does Seed1.8 support?

ネイティブなマルチモーダル対応：テキスト + 画像 + 動画。出力には、自然言語の回答、構造化出力（JSON/アクションプラン）、コード、エージェントワークフローのための視覚セグメント/タイムスタンプ参照が含まれます。モデルは、マルチモーダルな知覚 → 推論 → 行動のために明示的に設計されています。

What are the “thinking” or inference modes of Seed1.8?

レイテンシ/計算資源と推論の深さのトレードオフを取るために設計された、調整可能な「思考」モードがあります（対話性と解の品質のバランスが必要な場合に有用）。インタラクティブな UI 向け、またはより深いバッチ推論向けに、これらのモードでチューニングしてください。

お手頃な Doubao-Seed-1.8 API | text-to-text

Seed 1.8 API の技術仕様

項目	仕様 / 注記
モデル名 / ファミリー	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
対応モダリティ	テキスト、画像、動画（マルチモーダル VLM 機能）、エコシステム内の音声ツール（音声/動画生成向けの別モデル）。
コンテキストウィンドウ（テキスト）	256K トークン
動画 / 視覚処理能力	長尺動画推論向けに設計されており、効率的な視覚エンコーディングと大規模な動画トークン予算をサポート（モデルカードでは動画トークン実験と長尺動画ベンチマークを報告）。
入力形式	自由形式のテキストプロンプト、画像アップロード（スクリーンショット、チャート、写真）、トークン化フレームとしての動画 / セグメント検査用動画ツール、ファイルアップロード（ドキュメント）。
出力形式	自然言語テキスト、構造化出力（structured-output beta）、関数呼び出し / ツール呼び出し、コード、およびオーケストレーションによるマルチモーダル出力。
思考 / 推論モード	no_think、think-low、think-medium、think-high — 精度とレイテンシ/コストのトレードオフ。

Doubao Seed 1.8 とは？

Doubao Seed 1.8 は、Seed チームによる 1.8 リリースであり、一般化された現実世界エージェンシーを明確に対象とした統合型 LLM+VLM です。つまり、知覚（画像/動画）、推論、ツールオーケストレーション（検索、関数呼び出し、コード実行、GUI グラウンディング）、および単一モデル内でのマルチステップ意思決定を実現します。この設計では、構成可能な「思考モード」（レイテンシと深さのトレードオフ）、効率的な視覚エンコーディング、長大なコンテキストとマルチモーダル入力へのネイティブ対応が重視されており、モデルが本番ワークフローにおいて自律的なアシスタント / エージェントとして動作できるようになっています。

Seed 1.8 API の主な機能

統合型マルチモーダル・エージェントモデル。 知覚（画像/動画）、推論（LLM）、アクション（ツール / G U I 呼び出し、コード実行）を、分割パイプラインではなく単一モデルに統合しています。これにより、コンパクトなエージェントワークフローと、より低いオーケストレーション複雑性を実現します。
超長文コンテキストと長尺動画対応。 長文コンテキスト（製品対応で最大 256k トークン）と、長尺動画ベンチマークでの特有の実績（Seed1.8 は長尺動画トークン効率に優れる）を備えています。モデルは選択的動画ツール（VideoCut）をサポートし、タイムスタンプに焦点を当てた推論が可能です。
エージェント型 GUI 自動化とツール利用。 ベンチマークおよび内部テスト（OSWorld、AndroidWorld、LiveCodeBench、GUI グラウンディングベンチマーク）では、GUI エージェントタスクとマルチステップ自動化で改善が示されています。モデルは GUI グラウンディングコマンドを出力し、シミュレートされた OS / Web / モバイル環境内で動作できます。
レイテンシ/コスト制御のための構成可能な思考モード。 4 つの推論モードにより、開発者は対話型タスクと高品質バッチタスク向けにテスト時の計算量を調整できます。これは厳しいレイテンシ予算を持つ本番システムで有用です。
改善されたトークン効率（マルチモーダル）。 Seed 1.8 は、その前世代（Seed-1.5/1.6 シリーズ）と比べてマルチモーダルベンチマークにおけるトークン効率の向上を示し、複数の長尺動画タスクでより小さなトークン予算でも高い精度を達成しています。
構成可能な思考モード: 異なるモード（no_think → think-high）により、推論の深さとレイテンシ/コストをトレードオフし、対話型の本番利用向けに調整できます。
技術的能力

トークン効率: Seed1.8 は前世代（Seed-1.5/1.6）と比較して顕著なトークン効率を示し、長尺動画タスクでより低いトークン予算でもより高い精度を実現します（例: 32K 動画トークンでも競争力のある精度を達成）。これにより、長い入力に対する推論コストを低減できます。
マルチモーダル推論と知覚: このモデルは複数のマルチイメージ VQA および動作/知覚タスクで SOTA に達し、多くのマルチモーダル推論ベンチマークで 2 位または SOTA に近い成績を収めています。特に、測定されたほぼすべての視覚/動画次元で前モデルを上回っています。
エージェント型ツール利用と GUI グラウンディング: GUI グラウンディングと画面ベース操作ベンチマーク（ScreenSpot-Pro、GUI エージェント化）への対応が文書化されており、強力なグラウンディングスコアを示しています（例: ScreenSpot-Pro で Seed-1.5-VL を上回る改善）。
並列 / 段階的推論: テスト時の計算量を増やす（並列思考）ことで、数学、コーディング、マルチモーダル推論ベンチマークで測定可能な向上が得られます

Seed1.8 の公開ベンチマークハイライト抜粋

VCRBench（視覚的常識推論）: Seed1.8 は 59.8 を記録（モデルカード表で Pass@1 として報告）。Seed-1.5-VL から改善し、トップモデルと競争力があります
VideoHolmes（動画推論）: Seed1.8 は 65.5 で、Seed-1.5-VL を上回り、プロ向け競合モデルに近づいています。
MMLB-NIAH（マルチモーダル長文コンテキスト、128k）: Seed1.8 は MMLB-NIAH において 128k コンテキストで 72.2 Pass@1 を達成し、同時代の一部プロモデルを上回りました。
Motion & Perception suite: 評価された 6 タスク中 5 タスクで SOTA。例として TVBench、TempCompass、TOMATO では、Seed1.8 が時間的知覚で大幅な改善を示しています。
エージェント型ワークフロー: BrowseComp やその他のエージェント型検索/コードベンチマークにおいて、Seed1.8 はしばしば競合するプロモデルに近い、またはそれを上回る順位に位置しています

Seed 1.8 と Gemini 3 Pro / GPT-5.x の比較

Seed1.8 vs Seed-1.5-VL / Seed-1.6: マルチモーダル知覚、長尺動画におけるトークン効率、エージェント型実行の各点で明確な改善があります。
Seed1.8 vs Gemini 3 Pro / GPT-5.x: 多くのマルチモーダルベンチマークにおいて、Seed1.8 は Gemini 3 Pro に匹敵するか上回ります（複数の VQA / 動作タスクで SOTA、MMLB-NIAH 128k 実行でより優れた結果）。ただし、モデルカードでは Gemini 系モデルが特定の専門知識タスクで優位を保つ領域も示されており、相対的な順位はベンチマーク依存です。
Seed-Code バリアント（Doubao-Seed-Code）: プログラミング / エージェント型コードタスク向けに特化（コードベース向け大規模コンテキスト、専用 SWE ベンチマーク）。Seed1.8 は汎用エージェント型マルチモーダルモデルであり、Seed-Code はプログラミング特化型のバリアントです。

CometAPI 上の Seedream 4.5 API による実用的なユースケース

マルチモーダル研究アシスタントと文書分析: 長文ドキュメント、スライドデッキ、複数ページのレポートにわたって抽出、要約、推論を行います。
長尺動画の理解と監視: セキュリティ / スポーツ放送分析、長時間会議の要約、ストリーミング分析など、モデルの長尺動画トークン効率が重要な場面。
エージェント型ワークフロー / 自動化: マルチステップの Web 検索 + コード実行 + データ抽出シナリオ（例: 自動競合分析、旅行計画、内部ベンチマークで実証された研究パイプライン）。
開発者向けツール（Seed-Code を使用する場合）: 大規模コードベース分析、IDE アシスタント、テストと修復のためのエージェント型コード実行（推奨される特化型バリアントは Seed-Code）。
GUI 自動化と RPA: 画面グラウンディングおよび GUI エージェントベンチマークは、このモデルが過去の Seed リリースよりも優れた構造化 GUI タスクを実行できることを示しています。

CometAPI 経由で doubao Seed 1.8 API を使用する方法

Doubao seed1.8 は現在、CometAPI を通じてホスト型推論 API として商用提供されています。API はマルチモーダルペイロード（テキスト + 画像 + 動画フラグメント / タイムスタンプ）と、応答品質に対してレイテンシおよび計算量を調整するための構成可能な推論モードをサポートしています。

呼び出しパターン: API は標準的な chat/completion スタイルのリクエスト、ストリーミング応答、およびモデルがツール呼び出し（検索、コード実行、GUI アクション）を発行し、後続コンテキストとしてツール出力を取り込むエージェント型フローをサポートしています。

ストリーミングと長文コンテキスト処理: API はストリーミングをサポートし、長時間セッション向けのコンテキスト管理プリミティブを内蔵しています（100K+ コンテキスト / マルチステップのエージェントトレースを可能にするため）。

ステップ 1: API キーを取得する

cometapi.com にログインします。まだユーザーでない場合は、先に登録してください。CometAPI console にサインインします。インターフェースのアクセス認証情報である API キーを取得します。個人センターの API トークンで「Add Token」をクリックし、トークンキー sk-xxxxx を取得して送信します。

ステップ 2: doubao Seed 1.8 API にリクエストを送信する

API リクエストを送信するために「doubao-seed-1-8-251228 」エンドポイントを選択し、リクエスト本文を設定します。リクエストメソッドとリクエスト本文は、当社ウェブサイトの API ドキュメントから取得できます。当社ウェブサイトでは、利便性のために Apifox テストも提供しています。<YOUR_API_KEY> を、アカウントの実際の CometAPI キーに置き換えてください。Chat API との互換性があります。

質問またはリクエストを content フィールドに挿入してください。モデルはこれに応答します。API レスポンスを処理して生成された回答を取得します。

ステップ 3: 結果を取得して検証する

API レスポンスを処理して生成された回答を取得します。処理後、API はタスクステータスと出力データを返します。

Doubao-Seed-1.8

Seed 1.8 API の技術仕様

Doubao Seed 1.8 とは？

Seed 1.8 API の主な機能

Seed 1.8 と Gemini 3 Pro / GPT-5.x の比較

CometAPI 上の Seedream 4.5 API による実用的なユースケース

CometAPI 経由で doubao Seed 1.8 API を使用する方法

ステップ 1: API キーを取得する

ステップ 2: doubao Seed 1.8 API にリクエストを送信する

ステップ 3: 結果を取得して検証する

よくある質問

What variants exist of Seed 1.8 and when to use each?

How does Seed1.8 differ from prior Seed versions?

What input/output modalities does Seed1.8 support?

What are the “thinking” or inference modes of Seed1.8?

Doubao-Seed-1.8の料金

Doubao-Seed-1.8のサンプルコードとAPI

Python Code Example

JavaScript Code Example

Curl Code Example