ModèlesSupportEntrepriseBlog
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Ressources
Modèles d'IABlogEntrepriseJournal des modificationsÀ propos
2025 CometAPI. Tous droits réservés.Politique de confidentialitéConditions d'utilisation
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Entrée:$0.2/M
Sortie:$1.6/M
Contexte:256k
Sortie maximale:224k
Doubao-Seed-1.8 est optimisé pour les scénarios d’agents multimodaux. En matière de capacités d’agent, l’utilisation d’outils et le suivi d’instructions complexes ont été considérablement renforcés. Concernant la compréhension multimodale, les capacités visuelles de base ont été nettement améliorées, permettant de comprendre des vidéos extrêmement longues à faible cadence d’images. Les capacités de compréhension des mouvements vidéo, de compréhension spatiale complexe et d’analyse de la structure des documents ont également été optimisées, et la gestion intelligente du contexte est désormais prise en charge nativement, permettant aux utilisateurs de configurer des stratégies de contexte.
Nouveau
Usage commercial
Playground
Aperçu
Fonctionnalités
Tarification
API

Spécifications techniques de l’API Seed 1.8

ÉlémentSpécification / remarque
Nom / famille du modèleDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalités prises en chargeTexte, images, vidéo (capacités VLM multimodales), outillage audio dans l’écosystème (modèles distincts pour la génération audio/vidéo).
Fenêtre de contexte (texte)256K tokens
Capacité vidéo / visuelleConçu pour le raisonnement sur des vidéos longues, prend en charge un encodage visuel efficace et de grands budgets de tokens vidéo (la fiche modèle rapporte des expériences sur les tokens vidéo et des benchmarks de vidéos longues).
Formats d’entréePrompts en texte libre ; téléversements d’images (captures d’écran, graphiques, photos) ; vidéo sous forme d’images tokenisées / outils vidéo pour l’inspection de segments ; téléversements de fichiers (documents).
Formats de sortieTexte en langage naturel, sorties structurées (structured-output beta), appels de fonctions / d’outils, code et sorties multimodales via orchestration.
Modes de réflexion / inférenceno_think, think-low, think-medium, think-high — arbitrage entre précision et latence/coût.

Qu’est-ce que Doubao Seed 1.8 ?

Doubao Seed 1.8 est la version 1.8 de l’équipe Seed : un LLM+VLM unifié qui cible explicitement l’agentivité généralisée dans le monde réel — c’est-à-dire la perception (images/vidéo), le raisonnement, l’orchestration d’outils (recherche, appels de fonctions, exécution de code, ancrage GUI) et la prise de décision en plusieurs étapes au sein d’un seul modèle. La conception met l’accent sur des « modes de réflexion » configurables (compromis entre latence et profondeur), un encodage visuel efficace et une prise en charge native du long contexte et des entrées multimodales afin que le modèle puisse fonctionner comme un assistant/agent autonome dans des workflows de production.

Principales fonctionnalités de l’API Seed 1.8

  1. Modèle agentique multimodal unifié. Intègre la perception (image/vidéo), le raisonnement (LLM) et l’action (appels d’outils/G U I, exécution de code) dans un seul modèle plutôt que dans un pipeline fragmenté. Cela permet des workflows agentiques plus compacts et une complexité d’orchestration réduite.
  2. Contexte ultra-long et gestion des vidéos longues. Contexte long (prise en charge produit jusqu’à 256k tokens) et benchmarks spécifiques sur les vidéos longues (Seed1.8 montre une forte efficacité en tokens pour les longues vidéos). Le modèle prend en charge des outils vidéo sélectifs (VideoCut) afin de concentrer le raisonnement sur certains horodatages.
  3. Automatisation agentique de GUI et usage d’outils. Les benchmarks et tests internes (OSWorld, AndroidWorld, LiveCodeBench, benchmarks d’ancrage GUI) montrent des améliorations sur les tâches d’agent GUI et l’automatisation en plusieurs étapes. Le modèle peut produire des commandes d’ancrage GUI et opérer dans des contextes simulés d’OS/web/mobile.
  4. Modes de réflexion configurables pour contrôler latence/coût. Quatre modes d’inférence permettent aux développeurs d’ajuster le calcul au moment du test pour les tâches interactives ou batch de haute qualité. C’est utile pour les systèmes de production avec des contraintes strictes de latence.
  5. Efficacité améliorée des tokens (multimodal). Seed 1.8 démontre une meilleure efficacité des tokens sur les benchmarks multimodaux par rapport à ses prédécesseurs (séries Seed-1.5/1.6), en obtenant une haute précision avec des budgets de tokens plus faibles dans plusieurs tâches de vidéo longue.
  6. Modes de réflexion configurables : arbitrage entre profondeur d’inférence et latence/coût avec des modes distincts (no_think → think-high) afin d’optimiser l’usage interactif en production.
  7. Capacités techniques
  • Efficacité des tokens : Seed1.8 affiche une nette efficacité en tokens par rapport à ses prédécesseurs (Seed-1.5/1.6), offrant une meilleure précision avec des budgets de tokens plus faibles sur les tâches de vidéo longue (par exemple, en atteignant une précision compétitive même avec 32K tokens vidéo). Cela permet un coût d’inférence plus faible pour les longues entrées.
  • Raisonnement multimodal et perception : Le modèle atteint l’état de l’art sur plusieurs tâches de VQA multi-images et de mouvement/perception, et obtient la deuxième place ou un niveau proche du SOTA sur de nombreux benchmarks de raisonnement multimodal ; en particulier, il surpasse son prédécesseur sur presque toutes les dimensions visuelles/vidéo mesurées.
  • Usage d’outils agentiques et ancrage GUI : Prise en charge documentée de l’ancrage GUI et des benchmarks d’opérations basées sur l’écran (ScreenSpot-Pro, GUI agenting) avec de solides scores d’ancrage (par exemple, des améliorations par rapport à Seed-1.5-VL sur ScreenSpot-Pro).
  • Raisonnement parallèle / par étapes : L’augmentation du calcul au moment du test (réflexion parallèle) apporte des gains mesurables sur les benchmarks de mathématiques, de code et de raisonnement multimodal

Quelques points saillants des benchmarks publics de Seed1.8

  • VCRBench (raisonnement de bon sens visuel) : Seed1.8 a obtenu 59.8 (Pass@1 rapporté dans le tableau de la fiche modèle), une amélioration par rapport à Seed-1.5-VL et un score compétitif face aux meilleurs modèles
  • VideoHolmes (raisonnement vidéo) : Seed1.8 65.5, surpassant Seed-1.5-VL et se rapprochant des modèles concurrents de niveau pro.
  • MMLB-NIAH (contexte long multimodal, 128k) : Seed1.8 a atteint 72.2 Pass@1 à un contexte de 128k dans MMLB-NIAH, dépassant certains modèles pro contemporains.
  • Suite Motion & Perception : SOTA sur 5 des 6 tâches évaluées ; exemples : TVBench, TempCompass et TOMATO où Seed1.8 montre des gains substantiels en perception temporelle.
  • Workflows agentiques : Sur BrowseComp et d’autres benchmarks agentiques de recherche/code, Seed1.8 se classe souvent au niveau ou au-dessus des modèles pro concurrents

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6 : Améliorations nettes en perception multimodale, en efficacité des tokens pour les longues vidéos et en exécution agentique.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x : Sur de nombreux benchmarks multimodaux, Seed1.8 égale ou dépasse Gemini 3 Pro (SOTA sur plusieurs tâches VQA / mouvement ; meilleur sur le run MMLB-NIAH 128k). Cependant, la fiche montre aussi des domaines où la famille Gemini conserve des avantages sur certaines tâches de connaissances disciplinaires — le classement relatif dépend donc du benchmark.
  • Variante Seed-Code (Doubao-Seed-Code) : spécialisée pour les tâches de programmation / code agentique (grand contexte pour les bases de code ; benchmarks SWE spécialisés). Seed1.8 est le modèle multimodal agentique généraliste, tandis que Seed-Code est la variante axée sur la programmation.

Cas d’usage pratiques de l’API Seedream 4.5 sur CometAPI

  • Assistants de recherche multimodaux et analyse de documents : extraire, résumer et raisonner à travers de longs documents, des présentations et des rapports multipages.
  • Compréhension et surveillance de vidéos longues : analytique de sécurité/diffusion sportive, résumé de longues réunions et analyse en streaming où l’efficacité en tokens vidéo du modèle est importante.
  • Workflows agentiques / automatisation : scénarios de recherche web en plusieurs étapes + exécution de code + extraction de données (par ex., analyse concurrentielle automatisée, planification de voyages, pipelines de recherche démontrés dans des benchmarks internes).
  • Outillage développeur (si vous utilisez Seed-Code) : analyse de grandes bases de code, assistants IDE et exécution de code agentique pour les tests et la réparation (Seed-Code est la variante spécialisée recommandée).
  • Automatisation GUI et RPA : les benchmarks d’ancrage d’écran et d’agent GUI indiquent que le modèle peut effectuer des tâches GUI structurées mieux que les précédentes versions de Seed.

Comment utiliser l’API doubao Seed 1.8 via CometAPI

Doubao seed1.8 est désormais proposé commercialement via CometAPI en tant qu’API d’inférence hébergée. L’API prend en charge des charges utiles multimodales (texte + images + fragments vidéo / horodatages) et des modes d’inférence configurables pour arbitrer la latence et le calcul par rapport à la qualité des réponses.

Schémas d’appel : l’API prend en charge des requêtes standard de type chat/completion, les réponses en streaming, ainsi que des flux agentiques dans lesquels le modèle émet des appels d’outils (recherche, exécution de code, actions GUI) et ingère les sorties d’outils comme contexte ultérieur.

Streaming et gestion du long contexte : l’API prend en charge le streaming et dispose de primitives intégrées de gestion du contexte pour les longues sessions (afin de permettre des contextes de plus de 100K / des traces agentiques en plusieurs étapes).

Étape 1 : S’inscrire pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre console CometAPI. Obtenez la clé API d’accès de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, obtenez la clé token : sk-xxxxx et soumettez.

Étape 2 : Envoyer des requêtes à l’API doubao Seed 1.8

Sélectionnez le point de terminaison « doubao-seed-1-8-251228 » pour envoyer la requête API et définissez le corps de la requête. La méthode de requête et le corps de la requête sont obtenus depuis la documentation API de notre site web. Notre site web fournit également un test Apifox pour votre confort. Remplacez <YOUR_API_KEY> par votre véritable clé CometAPI depuis votre compte. Compatibilité avec les API Chat.

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie.

FAQ

Quelles variantes existent de Seed 1.8 et quand utiliser chacune ?

Seed1.8 est l’agent multimodal généraliste. Les variantes associées incluent : Seed-Code / Doubao-Seed-Code : spécialisé pour des contextes de code très volumineux (certaines références indiquent des contextes de 256K) et les flux de travail de programmation. Seedance / Seedream : variantes spécialisées pour les médias/la génération (génération vidéo/image). Choisissez Seed-Code pour les tâches IDE/base de code ; choisissez Seed1.8 pour les tâches d’agent multimodal généralistes. Confirmez les fenêtres de contexte et les capacités de chaque référence dans la documentation produit.

En quoi Seed1.8 diffère-t-il des versions précédentes de Seed ?

Seed1.8 met l’accent sur l’intégration agentique (utilisation d’outils, agentivité GUI, flux de travail en plusieurs étapes), une meilleure gestion des contextes longs et une meilleure perception des vidéos longues/des mouvements par rapport aux anciens modèles Seed 1.x. Il est positionné comme la mise à niveau multimodale/agentique de la gamme Seed.

Quelles modalités d’entrée/sortie Seed1.8 prend-il en charge ?

Prise en charge multimodale native : texte + images + vidéo. Les sorties incluent des réponses en langage naturel, des sorties structurées (JSON/plans d’action), du code, et des références à des segments visuels/horodatages pour les flux de travail agentiques. Le modèle est explicitement conçu pour la perception multimodale → raisonnement → action.

Quels sont les modes de “réflexion” ou d’inférence de Seed1.8 ?

Il existe des modes de “réflexion” réglables — conçus pour arbitrer entre latence/ressources de calcul et profondeur du raisonnement (utile lorsque vous devez équilibrer interactivité et qualité de la solution). Utilisez ces modes pour optimiser les interfaces utilisateur interactives ou un raisonnement par lots plus approfondi.

Fonctionnalités pour Doubao-Seed-1.8

Découvrez les fonctionnalités clés de Doubao-Seed-1.8, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour Doubao-Seed-1.8

Découvrez des tarifs compétitifs pour Doubao-Seed-1.8, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment Doubao-Seed-1.8 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$0.2/M
Sortie:$1.6/M
Entrée:$0.25/M
Sortie:$2/M
-20%

Exemple de code et API pour Doubao-Seed-1.8

Doubao seed1.8 est désormais proposé commercialement via CometAPI en tant qu’API d’inférence hébergée. L’API prend en charge des charges utiles multimodales (texte + images + fragments vidéo / horodatages) ainsi que des modes d’inférence configurables permettant d’ajuster la latence et le calcul en fonction de la qualité de réponse souhaitée.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Plus de modèles

A

Claude Opus 4.6

Entrée:$4/M
Sortie:$20/M
Claude Opus 4.6 est le grand modèle de langage de classe « Opus » d’Anthropic, publié en février 2026. Il est positionné comme un outil polyvalent pour le travail cognitif et les flux de travail de recherche — améliorant le raisonnement en contexte long, la planification à plusieurs étapes, l’utilisation d’outils (y compris des flux de travail logiciels basés sur des agents) et l’exécution de tâches informatiques telles que la génération automatisée de diapositives et de feuilles de calcul.
A

Claude Sonnet 4.6

Entrée:$2.4/M
Sortie:$12/M
Claude Sonnet 4.6 est notre modèle Sonnet le plus performant à ce jour. Il s’agit d’une mise à niveau complète des capacités du modèle dans la programmation, l’usage de l’ordinateur, le raisonnement sur des contextes étendus, la planification d’agents, le travail intellectuel et la conception. Sonnet 4.6 propose également une fenêtre de contexte de 1M de jetons en bêta.
O

GPT-5.4 nano

Entrée:$0.16/M
Sortie:$1/M
GPT-5.4 nano est conçu pour des tâches où la vitesse et le coût comptent le plus, comme la classification, l’extraction de données, le classement et les sous-agents.
O

GPT-5.4 mini

Entrée:$0.6/M
Sortie:$3.6/M
GPT-5.4 mini apporte les atouts de GPT-5.4 dans un modèle plus rapide et plus efficace, conçu pour des charges de travail à grande échelle.
A

Claude Mythos Preview

A

Claude Mythos Preview

Bientôt disponible
Entrée:$60/M
Sortie:$240/M
Claude Mythos Preview est à ce jour notre modèle de pointe le plus performant et affiche un bond spectaculaire des scores sur de nombreux benchmarks d’évaluation, par rapport à notre précédent modèle de pointe, Claude Opus 4.6.
X

mimo-v2-pro

Entrée:$0.8/M
Sortie:$2.4/M
MiMo-V2-Pro est le modèle fondationnel phare de Xiaomi, doté de plus de 1T de paramètres au total et d’une longueur de contexte de 1M, profondément optimisé pour des scénarios agentiques. Il est hautement adaptable aux frameworks d’agents généraux comme OpenClaw. Il se classe parmi l’élite mondiale sur les benchmarks standard PinchBench et ClawBench, avec des performances perçues proches de celles d’Opus 4.6. MiMo-V2-Pro est conçu pour servir de cerveau des systèmes d’agents, orchestrer des workflows complexes, piloter des tâches d’ingénierie de production et livrer des résultats de manière fiable.

Blogs connexes

Comment utiliser l’API Doubao Seed 1.8 ?  Guide complet
Jan 12, 2026

Comment utiliser l’API Doubao Seed 1.8 ? Guide complet

Doubao Seed 1.8 — qui fait partie de la famille Doubao de ByteDance et de la ligne de recherche Seed — attire l’attention parce qu’il a été conçu comme un modèle multimodal « agentique », avec une gestion de contexte très étendue et une prise en charge améliorée des outils et des agents.