Prissammenligning af LLM API'er i 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4

CometAPI
AnnaMay 21, 2026
Prissammenligning af LLM API'er i 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4

Prissætning er den enkeltfaktor, der har størst betydning ved valget af en frontier‑LLM, og det er også den dimension, hvor de fleste offentliggjorte sammenligninger er forældede inden for et kvartal. Denne artikel skærer igennem det. Nedenfor er en aktuel, kildebelagt oversigt over priser pr. input‑ og outputtoken på de fire modeller, der står for størstedelen af frontier‑modeltrafikken i produktion i 2026 (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash og DeepSeek’s V4), sammen med de håndtag, der i skala reelt ændrer din regning: prompt‑caching, batchbehandling og tillæg for lang kontekst.

Artiklen er bygget op om to spørgsmål. For det første: Hvad koster hver model pr. million tokens til listepris, og hvordan står de anførte satser i forhold til de input og output, der faktisk driver en produktionsregning? For det andet: Når du anvender en repræsentativ arbejdsbelastning (100 millioner tokens om måneden, 80% input og 20% output, med realistiske cache‑hit‑rater), hvad er den månedlige regning i dollars for hver model? Det første svar fastlægger prislisten; det andet fortæller dig, hvad prislisten bliver til, når den møder et reelt produktionsmønster.

Hurtigt overblik: På tværs af de fire frontier‑modeller spænder listepriserne omtrent over to størrelsesordener. DeepSeek V4 er billigst med $0.435 pr. million inputtokens; Claude Opus 4.7 er dyrest med $5.00. Formen på din arbejdsbelastning, især din cache‑hit‑rate og dit forhold mellem input og output, ændrer hvilken model der er billigst i praksis – ofte mere end prislisten antyder.

Hvorfor en direkte prissammenligning er sværere, end den ser ud

Udbydernes prissider er skrevet til udbyderens egne kunder – ikke til nogen, der evaluerer fire muligheder side om side. Resultatet er, at sammenligning giver tre vedvarende faldgruber:

  • Tokens er ikke de samme på tværs af udbydere. Claude Opus 4.7 leveres med en ny tokenizer, der kan generere op til 35% flere tokens for den samme inputtekst end Opus 4.6. Geminis tokenizer adskiller sig fra OpenAI’s. Prislisterne er per million tokens, men tokenantallet for den identiske prompt varierer mellem udbydere, hvilket betyder, at overskriftsraten kun er en første tilnærmelse af relativ omkostning.
  • Prisniveauer for lang kontekst skaber omkostningskløfter. OpenAI’s GPT-5.5‑familie har separate satser for kort og lang kontekst, der træder i kraft omkring 270,000 tokens. Anthropic holder derimod den samme per‑token‑rate på hele sit 1M‑kontekstvindue. Arbejdsbelastninger, der ligger nær disse tærskler, prissættes meget anderledes end arbejdsbelastninger, der ligger komfortabelt indenfor dem.
  • Rabatter stables – de er ikke separate. Prompt‑caching, batchbehandling og udbyderspecifikke volumentrin kan hver især skære den effektive pris dramatisk – og de stables. En cachet batch‑anmodning hos Anthropic kan koste så lidt som 5% af en standardanmodning uden cache. En prissammenligning, der ignorerer disse håndtag, overvurderer listeprisen, nogle gange med en størrelsesorden.

Sammenligningen nedenfor normaliserer for disse faldgruber, hvor det er muligt, og flagger dem eksplicit, hvor det ikke er.

Prissammenligning for frontier‑LLM’er i 2026

Alle tal i amerikanske dollars pr. million tokens. Kilder: hver udbyders officielle prisside pr. maj 2026.

ModelInputOutputCachelagret inputBatch (50% rabat)KontekstvindueTillæg for lang kontekst
GPT-5.5$5.00$30.00$0.50$2.50 / $15.001MJa (~270K)
Claude Sonnet 4.6$3.00$15.00$0.30$1.50 / $7.501MIngen
Claude Opus 4.7$5.00$25.00$0.50$2.50 / $12.501MIngen
Gemini 3.5 Flash$1.50$9.00$0.15$1.00 / $6.001MJa (200K)
DeepSeek V4$0.435$0.87$0.0028Ikke tilbudt384KIngen

Sådan læses tabellen: Cachelagret input er satsen på tokens, der leveres fra prompt‑cachen (typisk systemprompter, få‑skuds‑eksempler eller dokument‑præfikser, der går igen på tværs af anmodninger). Batch er satsen for asynkrone arbejdsbelastninger med op til 24 timers latenstid. Tillæg for lang kontekst angiver, om udbyderen hæver satserne over en kontekstkørelængde‑tærskel; for dem, der gør, er tærsklen angivet i parentes.

Hvor hver model vinder

GPT-5.5: standardvalget med højest kapabilitet til svær ræsonnering og agentisk arbejde

GPT-5.5 er OpenAI’s frontier‑model til komplekse professionelle arbejdsbelastninger: kode‑agenter, flertrinsplanlægning, langvarig værktøjsbrug og dokumentanalyse, hvor dybderæsonnering er den dominerende faktor. Den er også den dyreste af de større amerikanske frontier‑modeller på input ($5.00 pr. million) og højest på output ($30.00 pr. million), hvilket betyder, at den fortjener sin position på arbejdsbelastninger, hvor alternativet er at betale en flagskibspris til en anden model, der løser problemet mindre pålideligt. GPT-5.5 understøtter caching med 90% rabat, batchbehandling med 50% rabat, og prissætning for lang kontekst aktiveres omkring 270K‑mærket, hvilket er relevant for meget store kodebaser eller hele repositories, men ikke for typiske RAG‑arbejdsbelastninger.

Claude Sonnet 4.6: det anbefalede standardvalg for det meste produktionstrafik

Sonnet 4.6 er Anthropics anbefalede model til størstedelen af produktionsarbejdsbelastningerne, og pris‑til‑kapabilitet‑forholdet er grunden. Med $3 for input og $15 for output pr. million tokens ligger den under GPT-5.5 på begge satser og leverer næsten Opus‑kvalitet på de arbejdsbelastninger, der dominerer de fleste produktioner: kodning, analyse, RAG‑pipelines, kundeorienteret chat og generering af struktureret output. Sonnets særlige prisfunktion er, at hele 1M‑kontekstvinduet er tilgængeligt til standardsatser (der er intet tillæg for lang kontekst), hvilket gør den til det billigste troværdige valg for arbejdsbelastninger, der lejlighedsvis har brug for at indlæse meget lange dokumenter eller hele repositories. Prompt‑caching reducerer cachelagret input til 10% af standard, hvilket er afgørende for enhver arbejdsbelastning med en stabil systemprompt.

Gemini 3.5 Flash: den mest aggressivt prissatte flagskibsmodel til arbejde med kort kontekst

Gemini 3.5 Flash er den billigste flagskibsklasse fra en større amerikansk udbyder på rå API‑priser med $1.50 for input og $9.00 for output pr. million tokens. For det meste produktionstrafik er det den relevante pris, og den underbyder væsentligt både GPT-5.5 og Claude Opus 4.7. Højere pris end tidligere Flash‑modeller fører til øgede samlede omkostninger i token‑tunge agentiske scenarier (5.5x Intelligence Index‑omkostning vs. Gemini 3 Flash pga. pris + forbrug). Geminis anden kendetegnende feature er den reelt gratis plan i Google AI Studio, som er nyttig til prototyper, men ikke relevant for produktions‑omkostningsmodeller.

DeepSeek V4: dramatisk billigere – med værd at kende forbehold

DeepSeek V4 er listet til $0.435 pr. million inputtokens og $0.87 pr. million outputtokens, hvilket er mellem fem og halvfjerds gange billigere end de amerikanske frontier‑modeller, afhængigt af hvad du sammenligner med. Selve modellen er konkurrencedygtig på mange benchmarks, især ræsonnering og kode. Forbeholdene er værd at sige højt: data behandles i Kina, hvilket er uacceptabelt for visse regulerede arbejdsbelastninger; kvaliteten på engelsk er stærk, men modellen er optimeret anderledes end de amerikanske frontier‑modeller, og direkte test på din specifikke arbejdsbelastning er afgørende frem for valgfri. For arbejdsbelastninger, hvor disse forbehold er acceptable, ændrer DeepSeek reelt omkostningsbilledet.

En bemærkning om Claude Opus 4.7 vs. Sonnet 4.6. Opus er medtaget for fuldstændighedens skyld, men for langt størstedelen af produktionstrafikken er Sonnet 4.6 det bedre økonomiske valg. Opus koster 1.67x af Sonnet på både input og output, og for arbejdsbelastninger hvor Sonnet er tilstrækkelig (hvilket de fleste er), har den præmie ingen opvejede fordele. Ræk ud efter Opus, når evalueringer viser, at Sonnet fejler på en specifik opgaveklasse: højt autonome kode‑agenter, langhorisont‑workflows i professionelle sammenhænge, og opgaver hvor instruktionsfølgning på marginalen er afgørende.

Regneeksempel: hvad 100 millioner tokens om måneden faktisk koster

Overskriftspriser pr. million tokens siger ikke meget, før de møder en repræsentativ arbejdsbelastning. Eksemplet nedenfor bruger en profil, der tilnærmer et ikke‑trivielt produktionssystem: 100 millioner tokens i alt pr. måned, fordelt 80% input (80M) og 20% output (20M), med 30% cache‑hit‑rate på inputdelen. Dette mønster er bredt repræsentativt for en kundeorienteret chat eller en RAG‑arbejdsbelastning med en stabil systemprompt og dokumentkontekst.

Regnestykket for hver model: omkostning til cachelagret input + omkostning til ikke‑cachelagret input + omkostning til output. Cachelagret input faktureres til 10% af standardsatsen hos de udbydere, der tilbyder caching.

ModelCachelagret input (24M)Ikke cachelagret input (56M)Output (20M)Samlet månedlig regning
GPT-5.5$12.00$280.00$600.00$892.00
Claude Sonnet 4.6$7.20$168.00$300.00$475.20
Claude Opus 4.7$12.00$280.00$500.00$792.00

Hvad dette fortæller dig. På en repræsentativ arbejdsbelastning er Sonnet 4.6 omtrent halv pris af GPT-5.5. DeepSeek befinder sig i en helt anden omkostningsliga. Dette er listepriser; ved at anvende batchbehandling, hvor det er muligt, halveres input‑ og outputdelen yderligere med 50% (dog ikke cache‑hits).

To observationer, der er værd at tage med. For det første: caching er det enkeltstående mest effektfulde håndtag, du kontrollerer. Eksemplet ovenfor antager en cache‑hit‑rate på 30%; hæver du den til 60% (helt opnåeligt for arbejdsbelastninger med en stabil systemprompt), falder de samlede omkostninger med cirka yderligere 25%. For det andet: forholdet mellem input og output betyder meget. Arbejdsbelastninger med tungt output (summering, langtids‑skrivning) favoriserer udbydere med billigere outputsatser, mens input‑tunge arbejdsbelastninger (langkontekst‑analyse, store RAG‑hentninger) favoriserer udbydere med billigere inputsatser og uden tillæg for lang kontekst.

De skjulte omkostninger, der ikke står på prissiden

Listepriser er gulvet, ikke loftet. Fem ekstra omkostninger er værd at budgettere eksplicit for, fordi de rutinemæssigt overrasker teams, der skalerer fra prototype til produktion:

  1. Ræsonnerings‑tokens. Modeller med udvidede ræsonneringstilstande (GPT-5.5 Thinking, DeepSeek V4 thinking mode) genererer intern ræsonneringsindhold, der tæller som outputtokens. Et enkelt højindsats‑kald på en lang prompt kan køre 20,000 ræsonnerings‑tokens, hvilket er $0.60 i outputomkostning på GPT-5.5, før det synlige svar er produceret. Budgettér pr. arbejdsbelastning, ikke pr. anmodning.
  2. Tillæg for lang kontekst. Både Gemini 3.5 Flash og GPT-5.5 hæver satserne over en kontekstlængde‑tærskel. RAG‑pipelines, der inkluderer store dokumenter, kan i det skjulte skubbe hver anmodning ind i den højere sats, uden at nogen bemærker det, før regningen kommer. Mål dine faktiske promptlængder i produktion, og tjek om du krydser tærsklen.
  3. Multiplikatorer for datahjemsted. Anthropic opkræver 10% præmie for kun‑USA‑inference på Opus 4.7 og Sonnet 4.6. OpenAI lægger 10% tillæg på datahjemsteds‑endpoints for GPT-5.4‑familien. For regulerede arbejdsbelastninger, hvor dette er vigtigt, indregn det i prislisten fra dag ét.
  4. Drift i output‑verbositet. Når en ny modelversion er mere grundig som standard (som Opus 4.7 efter sigende er i forhold til Opus 4.6), kan outputtokens pr. svar krybe op, selv hvis inputlængden er konstant. Output prissættes 5x højere end input hos Anthropic, så en 20% stigning i output‑verbositet er en 20% stigning i den dominerende omkostningsdriver.
  5. Mislykkede og genforsøgte anmodninger. De fleste udbydere fakturerer ikke for 4xx- og 5xx‑fejl, men de fakturerer for delvise genereringer og genforsøg, der lykkes i andet forsøg. I produktionssystemer med aktiv retry‑logik kan dette lægge et par procent til regningen. Godt at vide, når udbyderfakturaer afstemmes mod forventede omkostninger.

Hvordan CometAPI passer ind

Alle disse fire modeller plus 500+ andre er tilgængelige via CometAPI på et enkelt OpenAI‑kompatibelt endpoint, med én legitimationsnøgle, samlet fakturering og uden opsætning af konto pr. udbyder. Priser på CometAPI måles pr. token til de samme pr. model‑satser, som er offentliggjort af de underliggende udbydere, med kreditter købt på forhånd og anvendt på enhver model i kataloget. Værdien af at gå gennem CometAPI er operationel frem for per token: én legitimation at administrere, én faktura at afstemme og muligheden for at skifte fra GPT-5.5 til Claude Sonnet 4.6 til Gemini 3.5 Flash ved at ændre en enkelt streng i din kode.

Der findes arbejdsbelastninger, hvor direkte adgang til udbyderen er det rigtige. Hvis du kører en enkelt‑model‑arbejdsbelastning i meget høj volumen hos én udbyder med en forhandlet enterprise‑aftale, er stykomkostningerne bedre ved at gå direkte. Hvis din compliance‑profil kræver et specifikt leverandør‑forholdsforhold, komplicerer en aggregator snarere end forenkler den samtale. For størstedelen af teams, der kører produktionsarbejdsbelastninger med flere modeller, er den operationelle friktion ved at administrere tre eller fire direkte udbyderforhold i sig selv en meningsfuld omkostning – én, som prislisten ikke fanger.

Prøv sammenligningen på din arbejdsbelastning. Den gratis plan på CometAPI lader dig køre den samme prompt mod GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash og DeepSeek V4 fra et enkelt endpoint, uden separate tilmeldinger. Til en arbejdsbelastningsspecifik omkostningsbeslutning er den øvelse på én time mere værd end nogen prissammenligning, der nogensinde er publiceret.

Sådan bruger du denne sammenligning

Den rigtige model til din arbejdsbelastning afhænger af, hvilken dimension af prislisten der betyder mest for formen på din trafik. En praktisk beslutningsramme:

  • Hvis dybdegående ræsonnering er flaskehalsen (agentiske workflows, kompleks flertrinsplanlægning, de sværeste kodningsopgaver), start med GPT-5.5 eller Claude Opus 4.7. Præmien er reel, men fortjent på disse arbejdsbelastninger.
  • Hvis du vil have det bedste pris‑til‑kapabilitet‑forhold til generel produktionstrafik, er Claude Sonnet 4.6 det anbefalede standardvalg. Nær‑frontier‑kapabilitet, fuldt 1M‑kontekstvindue til standardsatser og stærk caching‑understøttelse.
  • Hvis du er prisfølsom, og din arbejdsbelastning ligger under 200K kontekst, er Gemini 3.5 Flash den billigste troværdige flagskibsklasse fra en større amerikansk udbyder.
  • Hvis din arbejdsbelastning er højvolumen og prisdomineret, og DeepSeeks dataplacering er acceptabel, ændrer V4 omkostningsbilledet nok til at være værd at evaluere seriøst, især for batch‑formede arbejdsbelastninger.

Vil du længere ned i omkostningsoptimering? Priserne ovenfor er fundamentet for routing: praksissen med at sende forskellige forespørgsler til forskellige modeller baseret på, hvem der kan håndtere dem til lavest pris. Makkerartiklen, At halvere LLM‑API‑omkostningerne: En guide til modelrouting for produktionsarbejdsbelastninger i 2026, gennemgår de routingmønstre, der omsætter denne prisliste til faktiske besparelser på din månedlige regning.

Klar til at skære AI-udviklingsomkostninger med 20%?

Kom gratis i gang på få minutter. Gratis prøvekreditter inkluderet. Intet kreditkort påkrævet.

Læs mere