LLM-API-prissammenligning 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4

Prissætning er den enkeltstående mest afgørende beslutning ved valg af en frontier-LLM, og det er også den dimension, hvor de fleste publicerede sammenligninger er forældede inden for et kvartal. Denne artikel skærer igennem. Nedenfor er et aktuelt, kildebaseret overblik over priser pr. input- og outputtoken på tværs af de fire modeller, der tegner sig for størstedelen af produktions-trafikken for frontier-modeller i 2026 (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash og DeepSeek’s V4), sammen med de håndtag, der i praksis ændrer din regning i stor skala: prompt-caching, batchbehandling og tillæg for lang kontekst.

Artiklen er bygget op omkring to spørgsmål. For det første: hvad koster hver model pr. million tokens til listepris, og hvordan står de angivne satser på input og output, som faktisk driver en produktionsregning? For det andet: når du anvender en repræsentativ arbejdsbyrde (100 millioner tokens om måneden, 80% input og 20% output, med realistiske cache-træfprocenter), hvad er den månedlige regning i dollars for hver model? Det første svar fastlægger prislisten; det andet fortæller, hvad den prisliste bliver til, når den møder et reelt produktionsmønster.

Hurtigt overblik: På tværs af de fire frontier-modeller spænder listepriserne over omtrent to størrelsesordener. DeepSeek V4 er billigst med $0.435 pr. million inputtokens; Claude Opus 4.7 er dyrest med $5.00. Formen på din arbejdsbyrde, især din cache-træfprocent og dit forhold mellem input og output, ændrer hvilken model der er billigst i praksis – ofte mere end prislisten tilsiger.

Hvorfor en én-til-én-prissammenligning er sværere, end den ser ud

Udbydernes prissider er skrevet til deres egne kunder – ikke til nogen, der vurderer fire muligheder side om side. Resultatet er, at sammenligning giver tre vedvarende fælder:

Tokens er ikke de samme på tværs af udbydere. Claude Opus 4.7 leveres med en ny tokenizer, der kan producere op til 35% flere tokens for den samme inputtekst end Opus 4.6. Geminis tokenizer adskiller sig fra OpenAI’s. Prislisten er pr. million tokens, men token-antallet for identiske prompts varierer mellem udbydere, hvilket betyder, at overskriftsraten kun er en første tilnærmelse til relativ omkostning.
Pristrin for lang kontekst skaber omkostningsklipper. OpenAI’s GPT-5.5-familie har separate satser for kort og lang kontekst, som træder i kraft omkring 270.000 tokens. Anthropic holder omvendt den samme per-token-sats på tværs af hele sit 1M-kontekstvindue. Arbejdsbyrder, der ligger nær disse tærskler, prissættes meget anderledes end arbejdsbyrder, der ligger komfortabelt indenfor dem.
Rabatter lægges oveni hinanden, ikke separat. Prompt-caching, batchbehandling og udbyderspecifikke volumentrin kan hver især skære den effektive pris dramatisk ned – og de stables. En cachet batchanmodning hos Anthropic kan koste helt ned til 5% af en standard, ikke-cachet anmodning. En prissammenligning, der ignorerer disse håndtag, overvurderer listeprisen – nogle gange med en størrelsesorden.

Sammenligningen nedenfor normaliserer for disse fælder, hvor den kan, og markerer dem eksplicit, hvor den ikke kan.

Prissammenligning for frontier-LLM’er i 2026

Alle tal er i amerikanske dollars pr. million tokens. Kilder: hver udbyders officielle prisside pr. maj 2026.

Model	Input	Output	Cached input	Batch (50% rabat)	Kontekstvindue	Tillæg for lang kontekst
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Ja (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Ingen
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Ingen
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Ja (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Ikke tilbudt	384K	Ingen

Sådan læses tabellen: Cached input er satsen, der betales for tokens leveret fra prompt-cache (typisk systemprompter, få-skudseksempler eller dokumentpræfikser, der gentager sig på tværs af anmodninger). Batch er satsen for asynkrone arbejdsbyrder med op til 24 timers latenstid. Tillæg for lang kontekst angiver, om udbyderen hæver satserne over en kontekstlængde-tærskel; for dem, der gør, er tærsklen angivet i parentes.

Hvor hver model vinder

GPT-5.5: standardvalget med højest kapabilitet til hård ræsonnering og agentisk arbejde

GPT-5.5 er OpenAI’s frontier-model til komplekse professionelle arbejdsbyrder: kodeagenter, flertrins planlægning, langvarig værktøjsbrug og dokumentanalyse, hvor ræsonneringsdybde er den dominerende faktor. Den er også den dyreste af de store amerikanske frontier-modeller på input ($5.00 pr. million) og højest på output ($30.00 pr. million), hvilket betyder, at den fortjener sin position på arbejdsbyrder, hvor alternativet er at betale en flagskibspris til en anden model, der løser problemet mindre pålideligt. GPT-5.5 understøtter caching med 90% rabat, batchbehandling med 50% rabat, og priserne for lang kontekst træder i kraft omkring 270K tokens – relevant for meget store kodebaser eller hele repositorier, men ikke for typiske RAG-arbejdsgange.

Claude Sonnet 4.6: den anbefalede standard for de fleste produktionsanvendelser

Sonnet 4.6 er Anthropic’s anbefalede model til størstedelen af produktionsarbejdsbyrder, og pris-til-kapabilitetsforholdet er årsagen. Med $3 for input og $15 for output pr. million tokens ligger den under GPT-5.5 på begge satser, samtidig med at den leverer næsten-Opus-kvalitet på de arbejdsbyrder, der dominerer de fleste produktionssystemer: kodning, analyse, RAG-pipelines, kundevendt chat og generering af struktureret output. Sonnet’s særkende på pris er, at hele kontekstvinduet på 1M tokens er tilgængeligt til standardsatser (der er intet tillæg for lang kontekst), hvilket gør den til det billigste troværdige valg for arbejdsbyrder, der lejlighedsvis har brug for at indlæse meget lange dokumenter eller hele repositorier. Prompt-caching reducerer cachet input til 10% af standard, hvilket er afgørende for enhver arbejdsbyrde med en stabil systemprompt.

Gemini 3.5 Flash: det mest aggressivt prissatte flagskib til kort-kontekst-arbejde

Gemini 3.5 Flash er den billigste model i flagskibsklassen fra en større amerikansk udbyder på rå API-priser, med $1.50 for input og $9.00 for output pr. million tokens. For det meste produktions-trafik er det den relevante prisklasse, og den underbyder materielt både GPT-5.5 og Claude Opus 4.7. Højere pris end tidligere Flash-modeller fører til øgede samlede omkostninger i token-tunge agentiske scenarier (5,5x Intelligence Index-omkostning vs. Gemini 3 Flash pga. pris + forbrug). Geminis andet særkende er den reelt gratis plan i Google AI Studio, som er nyttig til prototyper, men ikke relevant for produktionsomkostningsmodeller.

DeepSeek V4: dramatisk billigere, med forbehold der er værd at forstå

DeepSeek V4 er prissat til $0.435 pr. million inputtokens og $0.87 pr. million outputtokens, hvilket er mellem fem og halvfjerds gange billigere end de amerikanske frontier-modeller afhængigt af, hvem man sammenligner med. Selve modellen er konkurrencedygtig på mange benchmarks, især ræsonnering og kode. Forbeholdene er værd at være eksplicit om: data behandles i Kina, hvilket er uacceptabelt fra start for visse regulerede arbejdsbyrder; engelsk kvalitet er stærk, men modellen er optimeret anderledes end de amerikanske frontier-modeller, og direkte head-to-head-test på din specifikke arbejdsbyrde er essentielt snarere end valgfrit. For arbejdsbyrder, hvor disse forbehold er acceptable, ændrer DeepSeek i praksis omkostningsligningen.

En note om Claude Opus 4.7 vs. Sonnet 4.6. Opus er medtaget for fuldstændighed, men for det store flertal af produktions-trafik er Sonnet 4.6 det bedre økonomiske valg. Opus koster 1,67x Sonnet på både input og output, og for arbejdsbyrder, hvor Sonnet er tilstrækkelig (hvilket er de fleste), har den præmie ingen udlignende fordel. Ræk ud efter Opus, når evalueringer viser, at Sonnet fejler på en specifik opgaveklasse: højt autonome kodeagenter, langhorisont professionelle arbejdsgange og opgaver, hvor instruktionsefterlevelse på marginalen er afgørende.

Regneeksempel: hvad 100 millioner tokens om måneden faktisk koster

Overskriftspriser pr. million tokens betyder lidt, indtil de møder en repræsentativ arbejdsbyrde. Eksemplet nedenfor bruger en profil, der tilnærmer et ikke-trivielt produktionssystem: 100 millioner tokens i alt pr. måned, fordelt 80% input (80M) og 20% output (20M), med en cache-træfprocent på 30% på inputdelen. Dette mønster er bredt repræsentativt for en kundevendt chat- eller RAG-arbejdsbyrde med en stabil systemprompt og dokumentkontekst.

Regnestykket for hver model: omkostning for cachet input + omkostning for ikke-cachet input + omkostning for output. Cached input faktureres til 10% af standard for de udbydere, der tilbyder caching.

Model	Cachelagret input (24M)	Ikke-cachet input (56M)	Output (20M)	Samlet månedlig regning
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Hvad det fortæller dig. På en repræsentativ arbejdsbyrde er Sonnet 4.6 omtrent halv pris af GPT-5.5. DeepSeek er i en helt anden omkostningsligaverden. Dette er listepriser; anvendes batchbehandling, hvor det er berettiget, halveres hver total yderligere på input og output (dog ikke cachetræf).

To observationer værd at tage med. For det første: caching er det enkeltstående mest effektfulde håndtag, du kontrollerer. Eksemplet ovenfor antager en cache-træfprocent på 30%; hæv den til 60% (fuldt opnåeligt for arbejdsbyrder med en stabil systemprompt), og den samlede omkostning falder med yderligere ca. 25%. For det andet: forholdet mellem input og output betyder meget. Arbejdsbyrder, der er output-tunge (summarisering, længere tekstproduktion), skævvrider mod udbydere med billigere outputsatser, mens input-tunge arbejdsbyrder (lang-kontekst analyse, store RAG-hentninger) skævvrider mod udbydere med billigere inputsatser og uden tillæg for lang kontekst.

De skjulte omkostninger, der ikke står på prissiden

Listeprisen er gulvet, ikke loftet. Fem ekstra omkostninger er værd at budgettere eksplicit, fordi de rutinemæssigt overrasker teams, der skalerer fra prototype til produktion:

Ræsonneringstokens. Modeller med udvidede reasoning-tilstande (GPT-5.5 Thinking, DeepSeek V4 thinking mode) genererer intern ræsonneringsindhold, der tæller som outputtokens. Et enkelt højarbejds-raisonnementskald på en lang prompt kan køre 20.000 ræsonneringstokens, hvilket er $0.60 i outputomkostning på GPT-5.5, før det synlige svar er produceret. Budgettér per arbejdsbyrde, ikke per anmodning.
Tillæg for lang kontekst. Både Gemini 3.5 Flash og GPT-5.5 hæver satserne over en kontekstlængde-tærskel. RAG-pipelines, der inkluderer store dokumenter, kan ubemærket skubbe hver anmodning ind i den højere prisklasse, uden at nogen opdager det, før regningen ankommer. Mål dine faktiske promptlængder i produktion, og tjek, om du krydser tærsklen.
Multiplikatorer for dataresidens. Anthropic opkræver en 10% præmie for USA-only-inferens på Opus 4.7 og Sonnet 4.6. OpenAI anvender et 10% tillæg på dataresidens-endpoints for GPT-5.4-familien. For regulerede arbejdsbyrder, hvor dette betyder noget, indregn det i prislisten fra dag ét.
Drift i output-verbositet. Når en ny modelversion er mere grundig som standard (som Opus 4.7 efter sigende er sammenlignet med Opus 4.6), kan outputtokens pr. svar snige sig op, selv hvis inputlængden er konstant. Output er prissat 5x højere end input på Anthropic-linjen, så 20% drift i output-verbositet er en 20% stigning i den dominerende omkostningsdriver.
Fejlede og genforsøgte anmodninger. De fleste udbydere fakturerer ikke for 4xx- og 5xx-fejl, men de fakturerer for delvise genereringer og genforsøg, der lykkes i andet forsøg. I produktionssystemer med aktiv retry-logik kan dette lægge nogle procent til regningen. Værd at kende, når udbyderfakturaer afstemmes mod forventede omkostninger.

Sådan passer CometAPI ind

Alle fire af disse modeller, plus 500+ andre, er tilgængelige via CometAPI på ét OpenAI-kompatibelt endpoint, med én legitimationsoplysning, samlet fakturering og uden opsætning af konto hos hver udbyder. Prissætning på CometAPI afregnes pr. token til de samme pr.-model-satser, som er offentliggjort af de underliggende udbydere, med kreditter købt på forhånd og anvendt på enhver model i kataloget. Værdien af at køre gennem CometAPI er operationel snarere end pr. token: én legitimationsoplysning at administrere, én faktura at afstemme og mulighed for at skifte fra GPT-5.5 til Claude Sonnet 4.6 til Gemini 3.5 Flash ved at ændre en enkelt streng i din kode.

Der er arbejdsbyrder, hvor direkte adgang til udbyderen er det rigtige. Hvis du kører en enkelt-model-arbejdsbyrde i meget høj volumen hos én udbyder med en forhandlet enterprise-kontrakt, er enhedsøknomien bedre ved at gå direkte. Hvis din compliance-tilstand kræver et specifikt vendor-of-record-forhold, komplicerer en aggregator den samtale snarere end at forenkle den. For flertallet af teams, der kører multi-model produktionsarbejdsbyrder, er den operationelle friktion ved at administrere tre eller fire direkte udbyderrelationer i sig selv en meningsfuld omkostning – en, som prislisten ikke fanger.

Prøv sammenligningen på din arbejdsbyrde. Den gratis plan på CometAPI lader dig køre den samme prompt mod GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4 fra ét endpoint, uden separate tilmeldinger. Til en arbejdsbyrde-specifik omkostningsbeslutning er den øvelse på én time mere værd end nogen prissammenligning, der nogensinde er publiceret.

Sådan bruger du denne sammenligning

Den rigtige model til din arbejdsbyrde afhænger af, hvilken dimension af prislisten der betyder mest for din trafikprofil. Et praktisk beslutningsrammeværk:

**Hvis ræsonneringsdybde er flaskehalsen (**agentiske arbejdsgange, kompleks flertrins planlægning, de hårdeste kodeopgaver), så start med GPT-5.5 eller Claude Opus 4.7. Præmien er reel, men fortjent på disse arbejdsbyrder.
Hvis du vil have det bedste pris-til-kapabilitetsforhold for generel produktionstrafik, er Claude Sonnet 4.6 det anbefalede standardvalg. Næsten-frontier kapabilitet, fuldt 1M-kontekstvindue til standardsatser og stærk caching-understøttelse.
Hvis du er omkostningssensitiv, og din arbejdsbyrde ligger under 200K kontekst, er Gemini 3.5 Flash den billigste troværdige flagskibsklasse-mulighed fra en større amerikansk udbyder.
Hvis din arbejdsbyrde er høj-volumen og prisdomineret, og DeepSeek’s dataresidens-holdning er acceptabel, ændrer V4 omkostningsligningen nok til at være værd at evaluere seriøst – især for batchformede arbejdsbyrder.

Vil du længere med omkostningsoptimering? Prisdatasættet ovenfor er fundamentet for routing: praksissen med at sende forskellige forespørgsler til forskellige modeller baseret på, hvem der kan håndtere dem til lavest omkostning. Søsterartiklen, Halvering af LLM API-omkostninger: En guide til modelrouting for produktions-arbejdsbyrder i 2026, gennemgår de routingmønstre, der omsætter denne prisliste til faktiske besparelser på din månedlige regning.