Spécifications techniques de l’API Seed 1.8
| Élément | Spécification / remarque |
|---|---|
| Nom / famille du modèle | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Modalités prises en charge | Texte, images, vidéo (capacités VLM multimodales), outillage audio dans l’écosystème (modèles distincts pour la génération audio/vidéo). |
| Fenêtre de contexte (texte) | 256K tokens |
| Capacité vidéo / visuelle | Conçu pour le raisonnement sur des vidéos longues, prend en charge un encodage visuel efficace et de grands budgets de tokens vidéo (la fiche modèle rapporte des expériences sur les tokens vidéo et des benchmarks de vidéos longues). |
| Formats d’entrée | Prompts en texte libre ; téléversements d’images (captures d’écran, graphiques, photos) ; vidéo sous forme d’images tokenisées / outils vidéo pour l’inspection de segments ; téléversements de fichiers (documents). |
| Formats de sortie | Texte en langage naturel, sorties structurées (structured-output beta), appels de fonctions / d’outils, code et sorties multimodales via orchestration. |
| Modes de réflexion / inférence | no_think, think-low, think-medium, think-high — arbitrage entre précision et latence/coût. |
Qu’est-ce que Doubao Seed 1.8 ?
Doubao Seed 1.8 est la version 1.8 de l’équipe Seed : un LLM+VLM unifié qui cible explicitement l’agentivité généralisée dans le monde réel — c’est-à-dire la perception (images/vidéo), le raisonnement, l’orchestration d’outils (recherche, appels de fonctions, exécution de code, ancrage GUI) et la prise de décision en plusieurs étapes au sein d’un seul modèle. La conception met l’accent sur des « modes de réflexion » configurables (compromis entre latence et profondeur), un encodage visuel efficace et une prise en charge native du long contexte et des entrées multimodales afin que le modèle puisse fonctionner comme un assistant/agent autonome dans des workflows de production.
Principales fonctionnalités de l’API Seed 1.8
- Modèle agentique multimodal unifié. Intègre la perception (image/vidéo), le raisonnement (LLM) et l’action (appels d’outils/G U I, exécution de code) dans un seul modèle plutôt que dans un pipeline fragmenté. Cela permet des workflows agentiques plus compacts et une complexité d’orchestration réduite.
- Contexte ultra-long et gestion des vidéos longues. Contexte long (prise en charge produit jusqu’à 256k tokens) et benchmarks spécifiques sur les vidéos longues (Seed1.8 montre une forte efficacité en tokens pour les longues vidéos). Le modèle prend en charge des outils vidéo sélectifs (VideoCut) afin de concentrer le raisonnement sur certains horodatages.
- Automatisation agentique de GUI et usage d’outils. Les benchmarks et tests internes (OSWorld, AndroidWorld, LiveCodeBench, benchmarks d’ancrage GUI) montrent des améliorations sur les tâches d’agent GUI et l’automatisation en plusieurs étapes. Le modèle peut produire des commandes d’ancrage GUI et opérer dans des contextes simulés d’OS/web/mobile.
- Modes de réflexion configurables pour contrôler latence/coût. Quatre modes d’inférence permettent aux développeurs d’ajuster le calcul au moment du test pour les tâches interactives ou batch de haute qualité. C’est utile pour les systèmes de production avec des contraintes strictes de latence.
- Efficacité améliorée des tokens (multimodal). Seed 1.8 démontre une meilleure efficacité des tokens sur les benchmarks multimodaux par rapport à ses prédécesseurs (séries Seed-1.5/1.6), en obtenant une haute précision avec des budgets de tokens plus faibles dans plusieurs tâches de vidéo longue.
- Modes de réflexion configurables : arbitrage entre profondeur d’inférence et latence/coût avec des modes distincts (
no_think→think-high) afin d’optimiser l’usage interactif en production. - Capacités techniques
- Efficacité des tokens : Seed1.8 affiche une nette efficacité en tokens par rapport à ses prédécesseurs (Seed-1.5/1.6), offrant une meilleure précision avec des budgets de tokens plus faibles sur les tâches de vidéo longue (par exemple, en atteignant une précision compétitive même avec 32K tokens vidéo). Cela permet un coût d’inférence plus faible pour les longues entrées.
- Raisonnement multimodal et perception : Le modèle atteint l’état de l’art sur plusieurs tâches de VQA multi-images et de mouvement/perception, et obtient la deuxième place ou un niveau proche du SOTA sur de nombreux benchmarks de raisonnement multimodal ; en particulier, il surpasse son prédécesseur sur presque toutes les dimensions visuelles/vidéo mesurées.
- Usage d’outils agentiques et ancrage GUI : Prise en charge documentée de l’ancrage GUI et des benchmarks d’opérations basées sur l’écran (ScreenSpot-Pro, GUI agenting) avec de solides scores d’ancrage (par exemple, des améliorations par rapport à Seed-1.5-VL sur ScreenSpot-Pro).
- Raisonnement parallèle / par étapes : L’augmentation du calcul au moment du test (réflexion parallèle) apporte des gains mesurables sur les benchmarks de mathématiques, de code et de raisonnement multimodal
Quelques points saillants des benchmarks publics de Seed1.8
- VCRBench (raisonnement de bon sens visuel) : Seed1.8 a obtenu 59.8 (Pass@1 rapporté dans le tableau de la fiche modèle), une amélioration par rapport à Seed-1.5-VL et un score compétitif face aux meilleurs modèles
- VideoHolmes (raisonnement vidéo) : Seed1.8 65.5, surpassant Seed-1.5-VL et se rapprochant des modèles concurrents de niveau pro.
- MMLB-NIAH (contexte long multimodal, 128k) : Seed1.8 a atteint 72.2 Pass@1 à un contexte de 128k dans MMLB-NIAH, dépassant certains modèles pro contemporains.
- Suite Motion & Perception : SOTA sur 5 des 6 tâches évaluées ; exemples : TVBench, TempCompass et TOMATO où Seed1.8 montre des gains substantiels en perception temporelle.
- Workflows agentiques : Sur BrowseComp et d’autres benchmarks agentiques de recherche/code, Seed1.8 se classe souvent au niveau ou au-dessus des modèles pro concurrents
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6 : Améliorations nettes en perception multimodale, en efficacité des tokens pour les longues vidéos et en exécution agentique.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x : Sur de nombreux benchmarks multimodaux, Seed1.8 égale ou dépasse Gemini 3 Pro (SOTA sur plusieurs tâches VQA / mouvement ; meilleur sur le run MMLB-NIAH 128k). Cependant, la fiche montre aussi des domaines où la famille Gemini conserve des avantages sur certaines tâches de connaissances disciplinaires — le classement relatif dépend donc du benchmark.
- Variante Seed-Code (Doubao-Seed-Code) : spécialisée pour les tâches de programmation / code agentique (grand contexte pour les bases de code ; benchmarks SWE spécialisés). Seed1.8 est le modèle multimodal agentique généraliste, tandis que Seed-Code est la variante axée sur la programmation.
Cas d’usage pratiques de l’API Seedream 4.5 sur CometAPI
- Assistants de recherche multimodaux et analyse de documents : extraire, résumer et raisonner à travers de longs documents, des présentations et des rapports multipages.
- Compréhension et surveillance de vidéos longues : analytique de sécurité/diffusion sportive, résumé de longues réunions et analyse en streaming où l’efficacité en tokens vidéo du modèle est importante.
- Workflows agentiques / automatisation : scénarios de recherche web en plusieurs étapes + exécution de code + extraction de données (par ex., analyse concurrentielle automatisée, planification de voyages, pipelines de recherche démontrés dans des benchmarks internes).
- Outillage développeur (si vous utilisez Seed-Code) : analyse de grandes bases de code, assistants IDE et exécution de code agentique pour les tests et la réparation (Seed-Code est la variante spécialisée recommandée).
- Automatisation GUI et RPA : les benchmarks d’ancrage d’écran et d’agent GUI indiquent que le modèle peut effectuer des tâches GUI structurées mieux que les précédentes versions de Seed.
Comment utiliser l’API doubao Seed 1.8 via CometAPI
Doubao seed1.8 est désormais proposé commercialement via CometAPI en tant qu’API d’inférence hébergée. L’API prend en charge des charges utiles multimodales (texte + images + fragments vidéo / horodatages) et des modes d’inférence configurables pour arbitrer la latence et le calcul par rapport à la qualité des réponses.
Schémas d’appel : l’API prend en charge des requêtes standard de type chat/completion, les réponses en streaming, ainsi que des flux agentiques dans lesquels le modèle émet des appels d’outils (recherche, exécution de code, actions GUI) et ingère les sorties d’outils comme contexte ultérieur.
Streaming et gestion du long contexte : l’API prend en charge le streaming et dispose de primitives intégrées de gestion du contexte pour les longues sessions (afin de permettre des contextes de plus de 100K / des traces agentiques en plusieurs étapes).
Étape 1 : S’inscrire pour obtenir une clé API
Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre console CometAPI. Obtenez la clé API d’accès de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, obtenez la clé token : sk-xxxxx et soumettez.
Étape 2 : Envoyer des requêtes à l’API doubao Seed 1.8
Sélectionnez le point de terminaison « doubao-seed-1-8-251228 » pour envoyer la requête API et définissez le corps de la requête. La méthode de requête et le corps de la requête sont obtenus depuis la documentation API de notre site web. Notre site web fournit également un test Apifox pour votre confort. Remplacez <YOUR_API_KEY> par votre véritable clé CometAPI depuis votre compte. Compatibilité avec les API Chat.
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.
Étape 3 : Récupérer et vérifier les résultats
Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie.
