LLM-API-prissammenligning 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4

Prissetting er den enkeltfaktoren som betyr mest når man skal velge en frontier-LLM, og det er også dimensjonen der de fleste publiserte sammenligninger er utdaterte innen et kvartal. Denne artikkelen rydder opp i det. Nedenfor er en oppdatert, kildebelagt oversikt over priser per token for inn- og utdata på de fire modellene som står for majoriteten av produksjonstrafikken for frontier-modeller i 2026 (OpenAIs GPT-5.5, Anthropics Claude Sonnet 4.6, Googles Gemini 3.5 Flash og DeepSeek V4), sammen med hendler som i stor skala påvirker regningen din: prompt-mellomlagring (caching), batch-behandling og tilleggsavgifter for lang kontekst.

Artikkelen kretser rundt to spørsmål. For det første: til listepris, hva koster hver modell per million tokens, og hvordan står de oppgitte satsene seg på inn- og utdataene som faktisk driver en produksjonsregning? For det andre: når du anvender en representativ arbeidslast (100 millioner tokens i måneden, 80% inndata og 20% utdata, med realistiske cache-treffrater), hva blir den månedlige regningen i dollar på hver modell? Det første svaret etablerer prislisten; det andre forteller deg hva prislisten blir til når den treffer et reelt produksjonsmønster.

Kort oppsummering: På tvers av de fire frontier-modellene spenner listepriser over omtrent to størrelsesordener. DeepSeek V4 er billigst med $0.435 per million inn-data-tokens; Claude Opus 4.7 er dyrest med $5.00. Formen på arbeidslasten din, særlig cache-treffrate og forholdet mellom inn- og utdata, endrer hvilken modell som i praksis er billigst, ofte mer enn prislisten antyder.

Hvorfor en like-for-like-prissammenligning er vanskeligere enn den ser ut

Leverandørenes prissider er skrevet for leverandørens egne kunder, ikke for noen som vurderer fire alternativer side om side. Resultatet er at sammenligning gir tre vedvarende fallgruver:

Tokens er ikke de samme på tvers av leverandører. Claude Opus 4.7 leveres med en ny tokenizer som kan produsere opptil 35% flere tokens for samme inputtekst enn Opus 4.6. Geminis tokenizer skiller seg fra OpenAIs. Prislisten er per million tokens, men tokenantallet for identisk prompt varierer mellom leverandører, noe som betyr at overskriftsraten bare er et første anslag på relativ kostnad.
Pristrinn for lang kontekst skaper kostnadsklipper. OpenAIs GPT-5.5-familie har separate satser for kort og lang kontekst som slår inn rundt 270 000 tokens. Anthropic, derimot, holder samme per-token-rate på hele sitt 1M-kontekstvindu. Arbeidslaster som ligger nær disse tersklene prises helt annerledes enn arbeidslaster som ligger komfortabelt innenfor dem.
Rabatter stables, de er ikke separate. Prompt-mellomlagring, batch-behandling og leverandørspesifikke volumnivåer kan hver kutte effektiv kostnad dramatisk, og de stables. En bufret batch-forespørsel hos Anthropic kan koste så lite som 5% av en standard u-bufret forespørsel. En prissammenligning som ignorerer disse hendelene, overdriver listepris, noen ganger med en størrelsesorden.

Sammenligningen nedenfor normaliserer for disse fallgruvene der det lar seg gjøre, og flagger dem eksplisitt der det ikke er mulig.

Prissammenligning for frontier-LLM-er i 2026

Alle tall i amerikanske dollar per million tokens. Kilde: hver leverandørs offisielle prisdokumentasjon per mai 2026.

Modell	Inndata	Utdata	Bufret inndata	Batch (50 % rabatt)	Kontekstvindu	Tilleggsavgift for lang kontekst
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Ja (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Ingen
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Ingen
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Ja (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Ikke tilbudt	384K	Ingen

Slik leser du tabellen: Bufret inndata er satsen du betaler for tokens levert fra prompt-cache (typisk systemprompter, fåskudds-eksempler eller dokumentprefikser som går igjen på tvers av forespørsler). Batch er satsen som betales for asynkrone arbeidslaster med opptil 24 timers latenstid. Tilleggsavgift for lang kontekst angir om leverandøren øker satsene over en kontekstlengde-terskel; for de som gjør det, er terskelen oppgitt i parentes.

Hvor hver modell vinner

GPT-5.5: standardvalget med høyest kapasitet for hardt resonnement og agentisk arbeid

GPT-5.5 er OpenAIs frontier-modell for komplekse profesjonelle arbeidslaster: kodeagenter, flertrinns planlegging, langvarig verktøybruk og dokumentanalyse der resonnementdybde er det dominerende kravet. Den er også den dyreste av de store amerikanske frontier-modellene på inndata ($5.00 per million) og høyest på utdata ($30.00 per million), noe som betyr at den fortjener posisjonen sin på arbeidslaster der alternativet er å betale en flaggskippris til en annen modell som løser problemet mindre pålitelig. GPT-5.5 støtter caching med 90% rabatt, batch-behandling med 50% avslag, og prising for lang kontekst slår inn rundt 270K tokens, noe som er relevant for svært store kodebaser eller hele repository-kontekster, men ikke for typiske RAG-arbeidslaster.

Claude Sonnet 4.6: det anbefalte standardvalget for de fleste produksjonstrafikk

Sonnet 4.6 er Anthropics anbefalte modell for majoriteten av produksjonsarbeidslaster, og forholdet mellom pris og kapasitet er årsaken. Med $3 for inndata og $15 for utdata per million tokens ligger den under GPT-5.5 på begge satser, samtidig som den leverer nær-Opus-kvalitet på arbeidslaster som dominerer de fleste produksjonssystemer: koding, analyse, RAG-pipelines, kundevendt chat og generering av strukturert utdata. Sonnets særpreg i prisingen er at hele 1M-kontekstvinduet er tilgjengelig til standard satser (det er ingen tilleggsavgift for lang kontekst), noe som gjør den til det billigste troverdige alternativet for arbeidslaster som tidvis trenger å ingestere svært lange dokumenter eller hele repositories. Prompt-mellomlagring kutter bufret inndata til 10% av standard, noe som er avgjørende for enhver arbeidslast med en stabil systemprompt.

Gemini 3.5 Flash: den mest aggressivt prisede flaggskipmodellen for kort-kontekst-arbeid

Gemini 3.5 Flash er den billigste flaggskipklassemorderen fra en stor amerikansk leverandør på rå API-prising, med $1.50 for inndata og $9.00 for utdata per million tokens. For det meste av produksjonstrafikk er det det relevante prisnivået, og det underbyr materiellt både GPT-5.5 og Claude Opus 4.7. Høyere pris enn tidligere Flash-modeller fører til økte totalkostnader i token-tunge agentiske scenarier (5.5x Intelligence Index-kostnad vs. Gemini 3 Flash på grunn av pris + bruk).. Geminis andre særpreg er det genuint gratis nivået i Google AI Studio, som er nyttig for prototyping, men ikke relevant for kostnadsmodeller i produksjon.

DeepSeek V4: dramatisk billigere, med forbehold som er verdt å forstå

DeepSeek V4 lister $0.435 per million inn-data-tokens og $0.87 per million utdata-tokens, som er mellom fem og sytti ganger billigere enn de amerikanske frontier-modellene avhengig av hva du sammenligner mot. Selve modellen er konkurransedyktig på mange benchmarks, særlig resonnement og kode. Forbeholdene er verdt å være eksplisitt om: data behandles i Kina, noe som er uaktuelt for enkelte regulerte arbeidslaster; engelskspråklig kvalitet er sterk, men modellen er optimalisert annerledes enn de amerikanske frontier-modellene, og direkte testing mot din spesifikke arbeidslast er essensiell fremfor valgfri. For arbeidslaster der disse forbeholdene er akseptable, endrer DeepSeek kostnadsbildet genuint.

En merknad om Claude Opus 4.7 vs Sonnet 4.6. Opus er tatt med i tabellen for fullstendighetens skyld, men for det store flertallet av produksjonstrafikk er Sonnet 4.6 det bedre økonomiske valget. Opus koster 1.67x av Sonnet på både inn- og utdata, og for arbeidslaster der Sonnet er tilstrekkelig (som er de fleste), har den premien ingen oppveiende fordel. Velg Opus når evalueringer viser at Sonnet feiler på en spesifikk type oppgave: høyt autonome kodeagenter, langhorisont profesjonelle arbeidsflyter og oppgaver der etterlevelse av instruksjoner på marginen er avgjørende.

Regneeksempel: hva 100 millioner tokens i måneden faktisk koster

Overskriftspriser per million tokens betyr lite før de møter en representativ arbeidslast. Eksemplet nedenfor bruker en profil som tilnærmer et ikke-trivielt produksjonssystem: 100 millioner totale tokens per måned, fordelt 80% inndata (80M) og 20% utdata (20M), med en cache-treffrate på 30% på inn-datadelen. Dette mønsteret er bredt representativt for en kundevendt chat eller RAG-arbeidslast med en stabil systemprompt og dokumentkontekst.

Matematikken for hver modell: kostnad for bufret inndata + ubufret inndata + utdata. Bufret inndata faktureres til 10% av standard for leverandørene som tilbyr caching.

Modell	Bufret inndata (24M)	Ubufret inndata (56M)	Utdata (20M)	Total månedlig regning
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Hva dette forteller deg. På en representativ arbeidslast,Sonnet 4.6 koster omtrent halvparten av GPT-5.5. DeepSeek er i en helt annen kostnadsverden. Dette er listepris-tall; anvendes batch-behandling der det er kvalifisert, kuttes hver totalsum ytterligere med 50% på inn- og utdata (dog ikke på cache-treffene).

To observasjoner det er verdt å ta med videre. For det første: caching er den enkelt mest effektfulle hendelen du kontrollerer. Eksemplet over antar en cache-treffrate på 30%; øker du den til 60% (helt oppnåelig for arbeidslaster med en stabil systemprompt), faller totalkostnaden med omtrent ytterligere 25%. For det andre: forholdet mellom inn- og utdata betyr mye. Arbeidslaster som er utdatature (oppsummering, langform-skriving) favoriserer leverandører med billigere utdata-satser, mens inndata-tunge arbeidslaster (langkontekst-analyse, store RAG-hentinger) favoriserer leverandører med billigere inndata-satser og uten tilleggsavgift for lang kontekst.

De skjulte kostnadene som ikke står på prissiden

Listepris er gulvet, ikke taket. Fem tilleggskostnader er verdt å budsjettere eksplisitt for, fordi de rutinemessig overrasker team som skalerer fra prototype til produksjon:

Resonneringstokens. Modeller med utvidede resonnement-moduser (GPT-5.5 Thinking, DeepSeek V4 thinking mode) genererer internt resonnementinnhold som teller som utdata-tokens. En enkelt høy-innsats resonnementskall på en lang prompt kan kjøre 20,000 resonnementstokens, som er $0.60 i utdata-kostnad på GPT-5.5 før det synlige svaret produseres. Budsjetter per arbeidslast, ikke per forespørsel.
Tilleggsavgifter for lang kontekst. Både Gemini 3.5 Flash og GPT-5.5 øker satser over en kontekstlengde-terskel. RAG-pipelines som inkluderer store dokumenter kan lydløst skyve hver forespørsel inn i høyere prisklasse uten at noen merker det før regningen kommer. Mål de faktiske promptlengdene dine i produksjon og sjekk om du krysser terskelen.
Multiplikatorer for dataresidens. Anthropic tar en 10% premie for kun-usa-inferens på Opus 4.7 og Sonnet 4.6. OpenAI anvender en 10% påslag på dataresidens-endepunkter for GPT-5.4-familien. For regulerte arbeidslaster der dette betyr noe, faktor det inn i prislisten fra dag én.
Drift i utdata-ordrikhet. Når en ny modellversjon er mer grundig som standard (som Opus 4.7 angivelig er sammenlignet med Opus 4.6), kan utdata-tokens per svar krype opp selv om inndatalengde er konstant. Utdata prises 5x høyere enn inndata på Anthropic-linjen, så en 20% økning i utdata-ordrikhet er en 20% økning i den dominerende kostnadsdriveren.
Feilede og gjentatte forespørsler. De fleste leverandører fakturerer ikke for 4xx- og 5xx-feil, men de fakturerer for delvise generasjoner og retrier som lykkes på andre forsøk. I produksjonssystemer med aktiv retry-logikk kan dette legge til noen prosenter på regningen. Verdt å vite når du avstemmer leverandørfakturaer mot forventet kostnad.

Hvordan CometAPI passer inn

Alle disse fire modellene, pluss 500+ andre, er tilgjengelige gjennom CometAPI på ett OpenAI-kompatibelt endepunkt, med ett sett innloggingsopplysninger, samlet fakturering og uten oppsett av separate leverandørkontoer. Prising på CometAPI måles per token til de samme per-modell-satsene som publiseres av underliggende leverandører, med kreditter kjøpt på forhånd og anvendt på alle modeller i katalogen. Verdien av å rute gjennom CometAPI er operasjonell heller enn per-token: én legitimasjon å administrere, én faktura å avstemme, og muligheten til å bytte fra GPT-5.5 til Claude Sonnet 4.6 til Gemini 3.5 Flash ved å endre én streng i koden din.

Det finnes arbeidslaster der direkteleverandørtilgang er riktig. Hvis du kjører en enkeltmodell-arbeidslast med svært høyt volum hos én leverandør, med fremforhandlet enterprise-kontrakt, er enhetsøkonomien ved å gå direkte bedre. Hvis compliance-kravene dine krever et spesifikt vendor-of-record-forhold, kompliserer en aggregator heller enn forenkler den samtalen. For de fleste team som kjører produksjonsarbeidslaster med flere modeller, er imidlertid den operasjonelle friksjonen ved å administrere tre eller fire direkte leverandørforhold i seg selv en meningsfull kostnad, en som prislisten ikke fanger.

Prøv sammenligningen på arbeidslasten din. Gratisnivået på CometAPI lar deg kjøre den samme prompten mot GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4 fra ett endepunkt, uten separate registreringer. For en arbeidslastspesifikk kostnadsbeslutning er den én-times øvelsen mer verdt enn noen prissammenligning noensinne publisert.

Slik bruker du denne sammenligningen

Riktig modell for arbeidslasten din avhenger av hvilken dimensjon av prislisten som betyr mest for trafikkformen din. En praktisk beslutningsramme:

Hvis resonnementdybde er flaskehalsen (agentic workflows, kompleks flertrinns planlegging, de hardeste kodeoppgavene), start med GPT-5.5 eller Claude Opus 4.7. Premien er reell, men fortjent på disse arbeidslastene.
Hvis du vil ha beste forhold mellom pris og kapasitet for generell produksjonstrafikk, er Claude Sonnet 4.6 det anbefalte standardvalget. Nær frontier-kapasitet, full 1M kontekst til standard satser og sterk caching-støtte.
Hvis du er kostnadssensitiv og arbeidslasten din ligger under 200K kontekst, er Gemini 3.5 Flash det billigste troverdige alternativet i flaggskipklassen fra en stor amerikansk leverandør.
Hvis arbeidslasten din er høyvolum og prisdominerte, og DeepSeeks dataresidens-holdning er akseptabel, endrer V4 kostnadsbildet nok til å være verdt en seriøs evaluering, særlig for batch-formede arbeidslaster.

Vil du gå lenger på kostnadsoptimalisering? Prisdataene over er fundamentet for routing: praksisen med å sende ulike forespørsler til ulike modeller basert på hvilken som kan håndtere dem til lavest kostnad. Følgestykket, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, går gjennom ruteringsmønstrene som gjør denne prislisten om til faktiske besparelser på din månedlige regning.