Tekniske spesifikasjoner for Seed 1.8 API
| Element | Spesifikasjon / merknad |
|---|---|
| Modellnavn / familie | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Støttede modaliteter | Tekst, bilder, video (multimodale VLM-kapasiteter), lydverktøy i økosystemet (separate modeller for lyd-/videogenerering). |
| Kontekstvindu (tekst) | 256K tokens |
| Video-/visuell kapasitet | Designet for resonnering over lange videoer, støtter effektiv visuell koding og store videotokebudsjetter (modellkortet rapporterer eksperimenter med videotokens og benchmarktester for lange videoer). |
| Inndataformater | Fritekstforespørsler; bildeopplastinger (skjermbilder, diagrammer, bilder); video som tokeniserte bilderuter / videoverktøy for inspeksjon av segmenter; filopplastinger (dokumenter). |
| Utdataformater | Naturlig språktekst, strukturerte utdata (structured-output beta), funksjonskall / verktøykall, kode og multimodale utdata via orkestrering. |
| Tanke-/inferensmoduser | no_think, think-low, think-medium, think-high — avveier nøyaktighet mot latens/kostnad. |
Hva er Doubao Seed 1.8?
Doubao Seed 1.8 er Seed-teamets 1.8-utgivelse: en enhetlig LLM+VLM som eksplisitt retter seg mot generalisert agentskap i den virkelige verden — dvs. persepsjon (bilder/video), resonnering, verktøyorkestrering (søk, funksjonskall, kodekjøring, GUI-forankring) og flerstegs beslutningstaking i én modell. Designet vektlegger konfigurerbare “tenkemoduser” (avveiing mellom latens og dybde), effektiv visuell koding og innebygd støtte for lang kontekst og multimodale inndata, slik at modellen kan operere som en autonom assistent/agent i produksjonsarbeidsflyter.
Hovedfunksjoner i Seed 1.8 API
- Enhetlig multimodal agentisk modell. Integrerer persepsjon (bilde/video), resonnering (LLM) og handling (verktøy-/G U I-kall, kodekjøring) i én modell i stedet for en delt pipeline. Dette muliggjør kompakte agentarbeidsflyter og lavere orkestreringskompleksitet.
- Ekstra lang kontekst og håndtering av lange videoer. Lang kontekst (produktstøtte opp til 256k tokens) og spesifikke benchmarktester for lange videoer (Seed1.8 viser sterk tokeneffektivitet for lange videoer). Modellen støtter selektive videoverktøy (VideoCut) for å fokusere resonnering på tidsstempler.
- Agentisk GUI-automatisering og verktøybruk. Benchmarker og interne tester (OSWorld, AndroidWorld, LiveCodeBench, GUI-forankringsbenchmarker) viser forbedringer i GUI-agentoppgaver og flerstegs automatisering. Modellen kan generere GUI-forankringskommandoer og operere i simulerte OS-/web-/mobilkontekster.
- Konfigurerbare tenkemoduser for kontroll av latens/kostnad. Fire inferensmoduser lar utviklere justere beregning ved testtid for interaktive vs. høykvalitets batch-oppgaver. Dette er nyttig for produksjonssystemer med strenge latensbudsjetter.
- Forbedret tokeneffektivitet (multimodal). Seed 1.8 demonstrerer bedre tokeneffektivitet på multimodale benchmarktester sammenlignet med forgjengerne (Seed-1.5/1.6-serien), og oppnår høy nøyaktighet med mindre tokenbudsjetter i flere langvideo-oppgaver.
- Konfigurerbare tenkemoduser: avvei inferensdybde mot latens/kostnad med distinkte moduser (
no_think→think-high) for å tilpasse til interaktiv produksjonsbruk. - Tekniske kapabiliteter
- Tokeneffektivitet: Seed1.8 viser markant tokeneffektivitet sammenlignet med forgjengerne (Seed-1.5/1.6), og leverer høyere nøyaktighet ved lavere tokenbudsjetter på oppgaver med lange videoer (f.eks. oppnår konkurransedyktig nøyaktighet selv ved 32K videotokens). Dette muliggjør lavere inferenskostnader for lange inndata.
- Multimodal resonnering og persepsjon: Modellen oppnår SOTA på flere multi-bilde VQA- og bevegelse/persepsjonsoppgaver og oppnår andreplass eller nær SOTA på mange multimodale resonneringsbenchmarks; spesielt overgår den forgjengeren på nesten alle målte visuelle/video-dimensjoner.
- Agentisk verktøybruk og GUI-forankring: Dokumentert støtte for GUI-forankring og skjermbaserte operasjonsbenchmarker (ScreenSpot-Pro, GUI agenting) med sterke forankringsscore (f.eks. forbedringer over Seed-1.5-VL på ScreenSpot-Pro).
- Parallell / trinnvis resonnering: Økt beregning ved testtid (parallell tenkning) gir målbare gevinster på matte-, koding- og multimodale resonneringsbenchmarks
Utvalgte offentlige benchmark-høydepunkter for Seed1.8
- VCRBench (visual commonsense reasoning): Seed1.8 oppnådde 59.8 (Pass@1 rapportert i modellkort-tabellen), en forbedring over Seed-1.5-VL og konkurransedyktig med toppmodeller
- VideoHolmes (video reasoning): Seed1.8 65.5, overgår Seed-1.5-VL og nærmer seg pro-nivå konkurrentmodeller.
- MMLB-NIAH (multimodal long-context, 128k): Seed1.8 oppnådde 72.2 Pass@1 ved 128k kontekst, og overgår noen samtidige pro-modeller.
- Motion & Perception suite: SOTA på 5 av 6 evaluerte oppgaver; eksempler inkluderer TVBench, TempCompass og TOMATO der Seed1.8 viser betydelige gevinster i temporal persepsjon.
- Agentiske arbeidsflyter: På BrowseComp og andre agentiske søke-/kodebenchmarker rangerer Seed1.8 ofte nær eller over konkurrerende pro-modeller
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Klare forbedringer i multimodal persepsjon, tokeneffektivitet for lange videoer og agentisk utførelse.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: På mange multimodale benchmarktester matcher eller overgår Seed1.8 Gemini 3 Pro (SOTA på flere VQA-/bevegelsesoppgaver; bedre på MMLB-NIAH 128k-kjøring). Imidlertid viser modellkortet også områder der Gemini-familiemodeller beholder fordeler på visse fagkunnskapsoppgaver — så den relative rangeringen er benchmark-avhengig.
- Seed-Code-variant (Doubao-Seed-Code): spesialisert for programmerings-/agentiske kodeoppgaver (stor kontekst for kodebaser; spesialiserte SWE-benchmarker). Seed1.8 er den generalistiske agentiske multimodale modellen, mens Seed-Code er den programmeringsfokuserte varianten.
Praktiske brukstilfeller med Seedream 4.5 API på CometAPI
- Multimodale forskningsassistenter og dokumentanalyse: trekk ut, oppsummer og resonner på tvers av lange dokumenter, lysbildepakker og flersidige rapporter.
- Forståelse og overvåkning av lange videoer: sikkerhets-/sportskringkastingsanalyse, sammendrag av lange møter og strømmingsanalyse der modellens tokeneffektivitet for lange videoer er viktig.
- Agentiske arbeidsflyter / automatisering: flerstegs nettsøk + kodekjøring + datauttrekk-scenarier (f.eks. automatisert konkurrentanalyse, reiseplanlegging, forskningspipeliner demonstrert i interne benchmarker).
- Utviklerverktøy (hvis du bruker Seed-Code): analyse av store kodebaser, IDE-assistenter og agentisk kodekjøring for testing og reparasjon (Seed-Code er den anbefalte spesialiserte varianten).
- GUI-automatisering og RPA: skjermforankring og GUI-agentbenchmarker indikerer at modellen kan utføre strukturerte GUI-oppgaver bedre enn tidligere Seed-versjoner.
Slik bruker du doubao Seed 1.8 API via CometAPI
Doubao seed1.8 er nå kommersielt tilgjengelig via CometAPI som et hostet inferens-API. API-et støtter multimodale nyttelaster (tekst + bilder + videofragmenter / tidsstempler) og konfigurerbare inferensmoduser for å avveie latens og beregning mot svarkvalitet.
Kallmønstre: API-et støtter standard forespørsler i chat-/kompletteringsstil, strømmende svar og agentiske flyter der modellen utsteder verktøykall (søk, kodekjøring, GUI-handlinger) og tar inn verktøyutdata som påfølgende kontekst.
Streaming og håndtering av lang kontekst: API-et støtter strømming og har innebygde konteksthåndteringsprimitiver for lange økter (for å muliggjøre 100K+ kontekster / flerstegs agentspor).
Trinn 1: Registrer deg for API-nøkkel
Logg inn på cometapi.com. Hvis du ikke er bruker ennå, registrer deg først. Logg inn på din CometAPI console. Hent API-nøkkelen for tilgangslegitimasjon til grensesnittet. Klikk “Add Token” ved API-tokent i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.
Trinn 2: Send forespørsler til doubao Seed 1.8 API
Velg “doubao-seed-1-8-251228 ”-endepunktet for å sende API-forespørselen og sett request body. Forespørselsmetode og request body finnes i API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox test for din bekvemmelighet. Erstatt <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din. Kompatibel med Chat API-ene.
Sett inn spørsmålet eller forespørselen din i innholdsfeltet—det er dette modellen vil svare på . Behandle API-responsen for å hente det genererte svaret.
Trinn 3: Hent og verifiser resultater
Behandle API-responsen for å hente det genererte svaret. Etter behandling svarer API-et med oppgavestatus og utdata.
