Tekniske specifikationer for Seed 1.8 API
| Punkt | Specifikation / bemærkning |
|---|---|
| Modelnavn / familie | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Understøttede modaliteter | Tekst, billeder, video (multimodale VLM-egenskaber), lydværktøjer i økosystemet (separate modeller til lyd-/videogenerering). |
| Kontekstvindue (tekst) | 256K tokens |
| Video-/visuel kapacitet | Designet til ræsonnering over lange videoer, understøtter effektiv visuel kodning og store videotoken-budgetter (modelkortet rapporterer videotoken-eksperimenter og langvideo-benchmarks). |
| Inputformater | Frie tekstprompter; billeduploads (skærmbilleder, diagrammer, fotos); video som tokeniserede frames / videoværktøjer til segmentinspektion; filuploads (dokumenter). |
| Outputformater | Naturligt sprogtekst, strukturerede outputs (structured-output beta), funktionskald / værktøjskald, kode og multimodale outputs via orkestrering. |
| Tænke-/inferenstilstande | no_think, think-low, think-medium, think-high — afvej nøjagtighed mod latenstid/omkostninger. |
Hvad er Doubao Seed 1.8?
Doubao Seed 1.8 er Seed-teamets 1.8-udgivelse: en samlet LLM+VLM, der eksplicit sigter mod generaliseret agentik i den virkelige verden — dvs. perception (billeder/video), ræsonnering, værktøjsorkestrering (søgning, funktionskald, kodeeksekvering, GUI grounding) og flertrins beslutningstagning i én model. Designet fremhæver konfigurerbare “tænketilstande” (afvejninger mellem latenstid og dybde), effektiv visuel kodning og indbygget støtte til lange kontekster og multimodale input, så modellen kan fungere som en autonom assistent/agent i produktionsarbejdsgange.
Hovedfunktioner i Seed 1.8 API
- Samlet multimodal agentisk model. Integrerer perception (billede/video), ræsonnering (LLM) og handling (værktøjs- og G U I-kald, kodeeksekvering) i én model i stedet for en opdelt pipeline. Dette muliggør kompakte agentarbejdsgange og lavere orkestreringskompleksitet.
- Ekstremt lang kontekst og håndtering af lange videoer. Lang kontekst (produktunderstøttelse op til 256k tokens) og specifikke langvideo-benchmarks (Seed1.8 viser stærk videotoken-effektivitet). Modellen understøtter selektive videoværktøjer (VideoCut) for at fokusere ræsonnering på tidsstempler.
- Agentisk GUI-automation og værktøjsbrug. Benchmarks og interne tests (OSWorld, AndroidWorld, LiveCodeBench, GUI-grounding-benchmarks) viser forbedringer i GUI-agentopgaver og flertrins-automatisering. Modellen kan outputte GUI-grounding-kommandoer og operere i simulerede OS-/web-/mobile kontekster.
- Konfigurerbare tænketilstande til styring af latenstid/omkostninger. Fire inferenstilstande lader udviklere tune beregningsforbrug ved testtid til interaktive vs. højkvalitets batchopgaver. Dette er nyttigt i produktionssystemer med stramme latenstidsbudgetter.
- Forbedret tokeneffektivitet (multimodal). Seed 1.8 demonstrerer stærkere tokeneffektivitet på multimodale benchmarks sammenlignet med forgængerne (Seed-1.5/1.6-serien) og opnår høj nøjagtighed med mindre token-budgetter i flere langvideo-opgaver.
- Konfigurerbare tænketilstande: afvej inferensdybde mod latenstid/omkostninger med distinkte tilstande (
no_think→think-high) for at tune til interaktiv produktionsbrug. - Teknisk kapabilitet
- Tokeneffektivitet: Seed1.8 viser markant tokeneffektivitet vs. forgængere (Seed-1.5/1.6), med bedre nøjagtighed ved lavere token-budgetter på lange videoopgaver (fx konkurrencedygtig nøjagtighed selv ved 32K videotokens). Dette muliggør lavere inferensomkostninger for lange input.
- Multimodal ræsonnering og perception: Modellen når SOTA på flere multi-image VQA- og bevægelses-/perceptionsopgaver og opnår andenplads eller nær-SOTA på mange multimodale ræsonneringsbenchmarks; specifikt overgår den sin forgænger på næsten alle målte visuelle/video-dimensioner.
- Agentisk værktøjsbrug og GUI grounding: Dokumenteret support til GUI-grounding og skærmbaserede operations-benchmarks (ScreenSpot-Pro, GUI agenting) med stærke grounding-scorer (fx forbedringer over Seed-1.5-VL på ScreenSpot-Pro).
- Parallel / trinvist ræsonnement: Øget testtids-beregning (parallel tænkning) giver målbare gevinster på matematik-, kode- og multimodale ræsonneringsbenchmarks
Udvalgte offentlige benchmark-højdepunkter for Seed1.8
- VCRBench (visuel almene-viden-ræsonnering): Seed1.8 scorede 59.8 (Pass@1 rapporteret i modelkortets tabel), en forbedring over Seed-1.5-VL og konkurrencedygtig med topmodeller
- VideoHolmes (videoræsonnering): Seed1.8 65.5, overgår Seed-1.5-VL og nærmer sig pro-grade konkurrencemodeller.
- MMLB-NIAH (multimodal lang kontekst, 128k): Seed1.8 opnåede 72.2 Pass@1 ved 128k kontekst i MMLB-NIAH og overgår nogle samtidige pro-modeller.
- Motion & Perception-suiten: SOTA i 5 ud af 6 evaluerede opgaver; eksempler inkluderer TVBench, TempCompass og TOMATO, hvor Seed1.8 viser væsentlige gevinster i temporal perception.
- Agentiske arbejdsgange: På BrowseComp og andre agentiske søge-/kodebenchmarks placerer Seed1.8 sig ofte på niveau med eller over konkurrerende pro-modeller
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Klare forbedringer i multimodal perception, tokeneffektivitet for lange videoer og agentisk eksekvering.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: På mange multimodale benchmarks matcher eller overgår Seed1.8 Gemini 3 Pro (SOTA på flere VQA-/bevægelsesopgaver; bedre på MMLB-NIAH 128k-kørsel). Dog viser kortet også områder, hvor Gemini-familien bevarer fordele på visse faglige vidensopgaver — den relative rangorden afhænger altså af benchmark.
- Seed-Code-variant (Doubao-Seed-Code): specialiseret til programmerings-/agentiske kodeopgaver (stor kontekst for kodebaser; specialiserede SWE-benchmarks). Seed1.8 er den generalistiske agentiske multimodale model, mens Seed-Code er den programmeringsfokuserede variant.
Praktiske anvendelsestilfælde med Seedream 4.5 API på CometAPI
- Multimodale forskningsassistenter og dokumentanalyse: udtræk, opsummer og ræsonnér på tværs af lange dokumenter, præsentationer og rapporter med flere sider.
- Forståelse og overvågning af lange videoer: sikkerheds-/sportsudsendelsesanalyse, lange mødeopsummeringer og streaminganalyse, hvor modellens langvideo-tokeneffektivitet er vigtig.
- Agentiske arbejdsgange / automatisering: flertrins web-søgning + kodeeksekvering + dataudtræk-scenarier (fx automatiseret konkurrentanalyse, rejseplanlægning, forskningspipelines demonstreret i interne benchmarks).
- Udviklerværktøjer (hvis du bruger Seed-Code): analyse af store kodebaser, IDE-assistenter og agentisk kodeeksekvering til test og reparation (Seed-Code er den anbefalede specialiserede variant).
- GUI-automation og RPA: skærm-grounding og GUI-agent-benchmarks indikerer, at modellen kan udføre strukturerede GUI-opgaver bedre end tidligere Seed-udgivelser.
Sådan bruger du doubao Seed 1.8 API via CometAPI
Doubao seed1.8 tilbydes kommercielt gennem CometAPI som en hostet inferens-API. API'et understøtter multimodale payloads (tekst + billeder + videofragmenter / tidsstempler) og konfigurerbare inferenstilstande for at afveje latenstid og compute mod svarkvalitet.
Kaldmønstre: API'et understøtter standard chat-/completion-forespørgsler, streamede svar og agentiske forløb, hvor modellen udsteder værktøjskald (søgning, kodeeksekvering, GUI-handlinger) og indlæser værktøjsoutput som efterfølgende kontekst.
Streaming og håndtering af lang kontekst: API'et understøtter streaming og har indbyggede kontekststyringsprimitiver til lange sessioner (for at muliggøre 100K+ kontekster / flertrins agentspor).
Trin 1: Tilmeld dig for at få en API-nøgle
Log ind på cometapi.com. Hvis du ikke er bruger endnu, skal du registrere dig først. Log ind i din CometAPI console. Hent adgangslegitimations-API-nøglen til interfacet. Klik på “Add Token” ved API-tokenet i personcentret, hent token-nøglen: sk-xxxxx og indsend.

Trin 2: Send forespørgsler til doubao Seed 1.8 API
Vælg “doubao-seed-1-8-251228” endpointet for at sende API-forespørgslen og angiv request body. Forespørgselsmetode og request body findes i vores websteds API-dokumentation. Vores websted tilbyder også Apifox-test for din bekvemmelighed. Erstat <YOUR_API_KEY> med din faktiske CometAPI-nøgle fra din konto. Kompatibel med Chat APIs.
Indsæt dit spørgsmål eller din anmodning i content-feltet — det er dette, modellen vil svare på. Behandl API-svaret for at få det genererede svar.
Trin 3: Hent og verificer resultater
Behandl API-svaret for at få det genererede svar. Efter behandlingen svarer API'et med opgavestatus og outputdata.