ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Inndata:$0.2/M
Utdata:$1.6/M
Kontekst:256k
Maks utdata:224k
Doubao-Seed-1.8 er optimalisert for multimodale agentscenarier. Når det gjelder agentkapasiteter, er verktøybruk og etterlevelse av komplekse kommandoer betydelig forbedret. Når det gjelder multimodal forståelse, er grunnleggende visuelle evner betydelig forbedret, noe som muliggjør forståelse med lav bildefrekvens av svært lange videoer. Forståelse av bevegelse i video, kompleks romforståelse og analyse av dokumentstruktur er også optimalisert, og intelligent konteksthåndtering støttes nå nativt, slik at brukere kan konfigurere kontekststrategier.
Ny
Kommersiell bruk
Playground
Oversikt
Funksjoner
Priser
API

Tekniske spesifikasjoner for Seed 1.8 API

ElementSpesifikasjon / merknad
Modellnavn / familieDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Støttede modaliteterTekst, bilder, video (multimodale VLM-kapasiteter), lydverktøy i økosystemet (separate modeller for lyd-/videogenerering).
Kontekstvindu (tekst)256K tokens
Video-/visuell kapasitetDesignet for resonnering over lange videoer, støtter effektiv visuell koding og store videotokebudsjetter (modellkortet rapporterer eksperimenter med videotokens og benchmarktester for lange videoer).
InndataformaterFritekstforespørsler; bildeopplastinger (skjermbilder, diagrammer, bilder); video som tokeniserte bilderuter / videoverktøy for inspeksjon av segmenter; filopplastinger (dokumenter).
UtdataformaterNaturlig språktekst, strukturerte utdata (structured-output beta), funksjonskall / verktøykall, kode og multimodale utdata via orkestrering.
Tanke-/inferensmoduserno_think, think-low, think-medium, think-high — avveier nøyaktighet mot latens/kostnad.

Hva er Doubao Seed 1.8?

Doubao Seed 1.8 er Seed-teamets 1.8-utgivelse: en enhetlig LLM+VLM som eksplisitt retter seg mot generalisert agentskap i den virkelige verden — dvs. persepsjon (bilder/video), resonnering, verktøyorkestrering (søk, funksjonskall, kodekjøring, GUI-forankring) og flerstegs beslutningstaking i én modell. Designet vektlegger konfigurerbare “tenkemoduser” (avveiing mellom latens og dybde), effektiv visuell koding og innebygd støtte for lang kontekst og multimodale inndata, slik at modellen kan operere som en autonom assistent/agent i produksjonsarbeidsflyter.

Hovedfunksjoner i Seed 1.8 API

  1. Enhetlig multimodal agentisk modell. Integrerer persepsjon (bilde/video), resonnering (LLM) og handling (verktøy-/G U I-kall, kodekjøring) i én modell i stedet for en delt pipeline. Dette muliggjør kompakte agentarbeidsflyter og lavere orkestreringskompleksitet.
  2. Ekstra lang kontekst og håndtering av lange videoer. Lang kontekst (produktstøtte opp til 256k tokens) og spesifikke benchmarktester for lange videoer (Seed1.8 viser sterk tokeneffektivitet for lange videoer). Modellen støtter selektive videoverktøy (VideoCut) for å fokusere resonnering på tidsstempler.
  3. Agentisk GUI-automatisering og verktøybruk. Benchmarker og interne tester (OSWorld, AndroidWorld, LiveCodeBench, GUI-forankringsbenchmarker) viser forbedringer i GUI-agentoppgaver og flerstegs automatisering. Modellen kan generere GUI-forankringskommandoer og operere i simulerte OS-/web-/mobilkontekster.
  4. Konfigurerbare tenkemoduser for kontroll av latens/kostnad. Fire inferensmoduser lar utviklere justere beregning ved testtid for interaktive vs. høykvalitets batch-oppgaver. Dette er nyttig for produksjonssystemer med strenge latensbudsjetter.
  5. Forbedret tokeneffektivitet (multimodal). Seed 1.8 demonstrerer bedre tokeneffektivitet på multimodale benchmarktester sammenlignet med forgjengerne (Seed-1.5/1.6-serien), og oppnår høy nøyaktighet med mindre tokenbudsjetter i flere langvideo-oppgaver.
  6. Konfigurerbare tenkemoduser: avvei inferensdybde mot latens/kostnad med distinkte moduser (no_think → think-high) for å tilpasse til interaktiv produksjonsbruk.
  7. Tekniske kapabiliteter
  • Tokeneffektivitet: Seed1.8 viser markant tokeneffektivitet sammenlignet med forgjengerne (Seed-1.5/1.6), og leverer høyere nøyaktighet ved lavere tokenbudsjetter på oppgaver med lange videoer (f.eks. oppnår konkurransedyktig nøyaktighet selv ved 32K videotokens). Dette muliggjør lavere inferenskostnader for lange inndata.
  • Multimodal resonnering og persepsjon: Modellen oppnår SOTA på flere multi-bilde VQA- og bevegelse/persepsjonsoppgaver og oppnår andreplass eller nær SOTA på mange multimodale resonneringsbenchmarks; spesielt overgår den forgjengeren på nesten alle målte visuelle/video-dimensjoner.
  • Agentisk verktøybruk og GUI-forankring: Dokumentert støtte for GUI-forankring og skjermbaserte operasjonsbenchmarker (ScreenSpot-Pro, GUI agenting) med sterke forankringsscore (f.eks. forbedringer over Seed-1.5-VL på ScreenSpot-Pro).
  • Parallell / trinnvis resonnering: Økt beregning ved testtid (parallell tenkning) gir målbare gevinster på matte-, koding- og multimodale resonneringsbenchmarks

Utvalgte offentlige benchmark-høydepunkter for Seed1.8

  • VCRBench (visual commonsense reasoning): Seed1.8 oppnådde 59.8 (Pass@1 rapportert i modellkort-tabellen), en forbedring over Seed-1.5-VL og konkurransedyktig med toppmodeller
  • VideoHolmes (video reasoning): Seed1.8 65.5, overgår Seed-1.5-VL og nærmer seg pro-nivå konkurrentmodeller.
  • MMLB-NIAH (multimodal long-context, 128k): Seed1.8 oppnådde 72.2 Pass@1 ved 128k kontekst, og overgår noen samtidige pro-modeller.
  • Motion & Perception suite: SOTA på 5 av 6 evaluerte oppgaver; eksempler inkluderer TVBench, TempCompass og TOMATO der Seed1.8 viser betydelige gevinster i temporal persepsjon.
  • Agentiske arbeidsflyter: På BrowseComp og andre agentiske søke-/kodebenchmarker rangerer Seed1.8 ofte nær eller over konkurrerende pro-modeller

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Klare forbedringer i multimodal persepsjon, tokeneffektivitet for lange videoer og agentisk utførelse.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: På mange multimodale benchmarktester matcher eller overgår Seed1.8 Gemini 3 Pro (SOTA på flere VQA-/bevegelsesoppgaver; bedre på MMLB-NIAH 128k-kjøring). Imidlertid viser modellkortet også områder der Gemini-familiemodeller beholder fordeler på visse fagkunnskapsoppgaver — så den relative rangeringen er benchmark-avhengig.
  • Seed-Code-variant (Doubao-Seed-Code): spesialisert for programmerings-/agentiske kodeoppgaver (stor kontekst for kodebaser; spesialiserte SWE-benchmarker). Seed1.8 er den generalistiske agentiske multimodale modellen, mens Seed-Code er den programmeringsfokuserte varianten.

Praktiske brukstilfeller med Seedream 4.5 API på CometAPI

  • Multimodale forskningsassistenter og dokumentanalyse: trekk ut, oppsummer og resonner på tvers av lange dokumenter, lysbildepakker og flersidige rapporter.
  • Forståelse og overvåkning av lange videoer: sikkerhets-/sportskringkastingsanalyse, sammendrag av lange møter og strømmingsanalyse der modellens tokeneffektivitet for lange videoer er viktig.
  • Agentiske arbeidsflyter / automatisering: flerstegs nettsøk + kodekjøring + datauttrekk-scenarier (f.eks. automatisert konkurrentanalyse, reiseplanlegging, forskningspipeliner demonstrert i interne benchmarker).
  • Utviklerverktøy (hvis du bruker Seed-Code): analyse av store kodebaser, IDE-assistenter og agentisk kodekjøring for testing og reparasjon (Seed-Code er den anbefalte spesialiserte varianten).
  • GUI-automatisering og RPA: skjermforankring og GUI-agentbenchmarker indikerer at modellen kan utføre strukturerte GUI-oppgaver bedre enn tidligere Seed-versjoner.

Slik bruker du doubao Seed 1.8 API via CometAPI

Doubao seed1.8 er nå kommersielt tilgjengelig via CometAPI som et hostet inferens-API. API-et støtter multimodale nyttelaster (tekst + bilder + videofragmenter / tidsstempler) og konfigurerbare inferensmoduser for å avveie latens og beregning mot svarkvalitet.

Kallmønstre: API-et støtter standard forespørsler i chat-/kompletteringsstil, strømmende svar og agentiske flyter der modellen utsteder verktøykall (søk, kodekjøring, GUI-handlinger) og tar inn verktøyutdata som påfølgende kontekst.

Streaming og håndtering av lang kontekst: API-et støtter strømming og har innebygde konteksthåndteringsprimitiver for lange økter (for å muliggjøre 100K+ kontekster / flerstegs agentspor).

Trinn 1: Registrer deg for API-nøkkel

Logg inn på cometapi.com. Hvis du ikke er bruker ennå, registrer deg først. Logg inn på din CometAPI console. Hent API-nøkkelen for tilgangslegitimasjon til grensesnittet. Klikk “Add Token” ved API-tokent i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.

Trinn 2: Send forespørsler til doubao Seed 1.8 API

Velg “doubao-seed-1-8-251228 ”-endepunktet for å sende API-forespørselen og sett request body. Forespørselsmetode og request body finnes i API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox test for din bekvemmelighet. Erstatt <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din. Kompatibel med Chat API-ene.

Sett inn spørsmålet eller forespørselen din i innholdsfeltet—det er dette modellen vil svare på . Behandle API-responsen for å hente det genererte svaret.

Trinn 3: Hent og verifiser resultater

Behandle API-responsen for å hente det genererte svaret. Etter behandling svarer API-et med oppgavestatus og utdata.

FAQ

What variants exist of Seed 1.8 and when to use each?

Seed1.8 er den generalistiske multimodale agenten. Relaterte varianter inkluderer: Seed-Code / Doubao-Seed-Code: spesialisert for svært store kodekontekster (noen SKU-er oppgir 256K kontekstvinduer) og kodingsarbeidsflyter. Seedance / Seedream: spesialiserte varianter for medier/generering (video-/bildegenerering). Velg Seed-Code for IDE-/kodebaserelaterte oppgaver; velg Seed1.8 for brede multimodale agentoppgaver. Bekreft SKU-kontekstvinduer og funksjoner i produktdokumentasjonen.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 vektlegger agentisk integrasjon (verktøybruk, GUI-agenting, flertrinns arbeidsflyter), forbedret håndtering av lang kontekst og bedre oppfatning av lange videoer/bevegelse sammenlignet med tidligere Seed 1.x-modeller. Den er posisjonert som den multimodale/agentiske oppgraderingen i Seed-linjen.

What input/output modalities does Seed1.8 support?

Innebygd multimodal støtte: tekst + bilder + video. Utdata inkluderer svar i naturlig språk, strukturerte utdata (JSON/handlingsplaner), kode og referanser til visuelle segmenter/tidsstempler for agentiske arbeidsflyter. Modellen er eksplisitt utformet for multimodal persepsjon → resonnering → handling.

What are the “thinking” or inference modes of Seed1.8?

Det finnes justerbare «tenke»-moduser — utformet for å avveie latenstid/beregning mot dybden i resonneringen (nyttig når du må balansere interaktivitet mot løsningskvalitet). Bruk modusene til å tilpasse for interaktive brukergrensesnitt eller dypere batchresonnering.

Funksjoner for Doubao-Seed-1.8

Utforsk nøkkelfunksjonene til Doubao-Seed-1.8, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for Doubao-Seed-1.8

Utforsk konkurransedyktige priser for Doubao-Seed-1.8, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan Doubao-Seed-1.8 kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$0.2/M
Utdata:$1.6/M
Inndata:$0.25/M
Utdata:$2/M
-20%

Eksempelkode og API for Doubao-Seed-1.8

Doubao seed1.8 er nå kommersielt tilgjengelig gjennom CometAPI som en hostet inferens-API. API-et støtter multimodale nyttelaster (tekst + bilder + videofragmenter / tidsstempler) og konfigurerbare inferensmoduser for å avveie ventetid og beregningsbruk mot svarkvalitet.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Flere modeller

A

Claude Opus 4.6

Inndata:$4/M
Utdata:$20/M
Claude Opus 4.6 er en stor språkmodell i «Opus»-klassen fra Anthropic, lansert i februar 2026. Den er posisjonert som en arbeidshest for arbeidsflyter innen kunnskapsarbeid og forskning — med forbedringer i resonnering over lange kontekster, flertrinns planlegging, verktøybruk (inkludert agentbaserte programvarearbeidsflyter) og oppgaver på datamaskin, som automatisk generering av lysbilder og regneark.
A

Claude Sonnet 4.6

Inndata:$2.4/M
Utdata:$12/M
Claude Sonnet 4.6 er vår mest kapable Sonnet-modell hittil. Det er en fullstendig oppgradering av modellens ferdigheter innen koding, bruk av datamaskin, resonnering over lange kontekster, agentplanlegging, kunnskapsarbeid og design. Sonnet 4.6 har også et kontekstvindu på 1M token i beta.
O

GPT-5.4 nano

Inndata:$0.16/M
Utdata:$1/M
GPT-5.4 nano er utviklet for oppgaver der hastighet og kostnader er viktigst, som klassifisering, datauttrekk, rangering og underagenter.
O

GPT-5.4 mini

Inndata:$0.6/M
Utdata:$3.6/M
GPT-5.4 mini bringer styrkene fra GPT-5.4 til en raskere, mer effektiv modell, designet for arbeidslaster i stor skala.
A

Claude Mythos Preview

A

Claude Mythos Preview

Kommer snart
Inndata:$60/M
Utdata:$240/M
Claude Mythos Preview er vår mest kapable frontier-modell til dags dato, og viser et markant sprang i resultater på mange evalueringsbenchmarker sammenlignet med vår forrige frontier-modell, Claude Opus 4.6.
X

mimo-v2-pro

Inndata:$0.8/M
Utdata:$2.4/M
MiMo-V2-Pro er Xiaomis flaggskip-grunnmodell, med over 1T totale parametere og en kontekstlengde på 1M, dypt optimalisert for agentiske scenarier. Den er svært tilpasningsdyktig til generelle agentrammeverk som OpenClaw. Den rangerer blant den globale toppklassen i standardbenchmarkene PinchBench og ClawBench, med opplevd ytelse som nærmer seg Opus 4.6. MiMo-V2-Pro er utformet for å fungere som hjernen i agentsystemer, orkestrere komplekse arbeidsflyter, drive produksjonsnære ingeniøroppgaver og levere resultater pålitelig.

Relaterte blogger

Hvordan bruke Doubao Seed 1.8 API?  En omfattende veiledning
Jan 12, 2026

Hvordan bruke Doubao Seed 1.8 API? En omfattende veiledning

Doubao Seed 1.8 — en del av ByteDances Doubao-familie og Seed-forskningslinjen — vekker oppmerksomhet for å være utviklet som en “agentic” multimodal modell med håndtering av svært store kontekster og forbedret støtte for verktøy og agenter.