De LLM-API-prijsvergelijking voor 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash en DeepSeek V4

Pricing is de belangrijkste beslissing bij het kiezen van een frontier-LLM, en het is ook de dimensie waarop de meeste gepubliceerde vergelijkingen binnen een kwartaal verouderd zijn. Dit artikel snijdt daar doorheen. Hieronder staat een actueel, met bronnen onderbouwd overzicht van de prijzen per token (invoer en uitvoer) voor de vier modellen die in 2026 het merendeel van het productiegebruik van frontier-modellen vertegenwoordigen (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash en DeepSeek’s V4), samen met de hefbomen die uw rekening op schaal daadwerkelijk veranderen: promptcaching, batchverwerking en toeslagen voor lange context.

Het stuk is opgebouwd rond twee vragen. Ten eerste: wat kost elk model tegen lijstprijs per miljoen tokens, en hoe verhouden de geoffreerde tarieven zich voor de invoer en uitvoer die een productierekening daadwerkelijk aansturen? Ten tweede: als u een representatieve workload toepast (100 miljoen tokens per maand, 80% invoer en 20% uitvoer, met realistische cache-hitpercentages), wat is dan de maandelijkse rekening in dollars voor elk model? Het eerste antwoord stelt de tarievenkaart vast; het tweede vertelt u wat die tarievenkaart wordt zodra die wordt toegepast op een echt productiepatroon.

Snel overzicht: Over de vier frontier-modellen beslaan de lijstprijzen grofweg twee ordes van grootte. DeepSeek V4 is het goedkoopst met $0.435 per miljoen invoertokens; Claude Opus 4.7 is het duurst met $5.00. De vorm van uw workload, met name uw cache-hitratio en uw invoer-naar-uitvoer-verhouding, bepaalt welk model in de praktijk het goedkoopst is, vaak meer dan de tarievenkaart suggereert.

Waarom een zuivere prijsvergelijking lastiger is dan het lijkt

Prijspagina’s van providers zijn geschreven voor de klanten van die provider, niet voor iemand die vier opties naast elkaar evalueert. Het resultaat is dat vergelijken drie hardnekkige valkuilen oplevert:

Tokens zijn niet hetzelfde bij alle providers. Claude Opus 4.7 levert een nieuwe tokenizer die tot 35% meer tokens kan produceren voor dezelfde invoertekst dan Opus 4.6. De tokenizer van Gemini verschilt van die van OpenAI. De tarievenkaart is per miljoen tokens, maar het aantal tokens voor een identieke prompt varieert per provider, waardoor het kop-tarief slechts een eerste benadering van relatieve kosten is.
Prijstiers voor lange context creëren kostenkliffen. De GPT-5.5-familie van OpenAI heeft aparte tarieven voor korte en lange context die ingaan rond 270.000 tokens. Anthropic hanteert daarentegen hetzelfde per-token-tarief over het volledige 1M-contextvenster. Workloads die in de buurt van deze drempels zitten, worden heel anders geprijsd dan workloads die er ruim onder blijven.
Kortingen stapelen, ze staan niet los. Promptcaching, batchverwerking en providerspecifieke volumetiers kunnen elk de effectieve kosten drastisch verlagen, en ze stapelen. Een gecachte batchaanvraag bij Anthropic kan slechts 5% van een standaard niet-gecachte aanvraag kosten. Een prijsvergelijking die deze hefbomen negeert, overschat de lijstprijs, soms met een orde van grootte.

De vergelijking hieronder normaliseert waar mogelijk voor deze valkuilen en markeert ze expliciet waar dat niet kan.

De frontier-LLM-prijsvergelijking voor 2026

Alle bedragen in Amerikaanse dollars per miljoen tokens. Herleid uit de officiële prijsdocumentatie van elke provider, mei 2026.

Model	Invoer	Uitvoer	Gecachte invoer	Batch (50% korting)	Contextvenster	Toeslag voor lange context
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Ja (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Geen
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Geen
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Ja (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Niet beschikbaar	384K	Geen

Toelichting bij de tabel: Gecachte invoer is het tarief dat wordt betaald voor tokens die uit de promptcache worden bediend (meestal systeem-prompts, few-shot-voorbeelden of documentprefixen die zich herhalen over aanvragen). Batch is het tarief dat wordt betaald voor asynchrone workloads met tot 24 uur latentie. Toeslag voor lange context geeft aan of de provider tarieven verhoogt boven een contextlengte-drempel; voor providers die dat doen, staat de drempel tussen haakjes.

Waar elk model uitblinkt

GPT-5.5: de capabelste standaard voor zwaar redeneren en agent-gedreven werk

GPT-5.5 is het frontier-model van OpenAI voor complexe professionele workloads: code-agents, meerstapsplanning, langlopende toolgebruik en documentanalyse waarbij redeneervermogen de dominante vereiste is. Het is ook het duurste van de grote Amerikaanse frontier-modellen op invoer ($5.00 per miljoen) en het hoogste op uitvoer ($30.00 per miljoen), wat betekent dat het zijn positie verdient op workloads waarbij het alternatief is dat u een vlaggenschiptarief betaalt aan een ander model dat het probleem minder betrouwbaar oplost. GPT-5.5 ondersteunt caching met 90% korting, batchverwerking met 50% korting, en tarieven voor lange context gaan in rond de 270K tokens, relevant voor zeer lange codebasissen of volledige repository-contexten maar niet voor typische RAG-workloads.

Claude Sonnet 4.6: de aanbevolen standaard voor het merendeel van het productieverkeer

Sonnet 4.6 is het aanbevolen model van Anthropic voor de meeste productie-workloads, en de reden is de prijs-vaardigheidsverhouding. Met $3 voor invoer en $15 voor uitvoer per miljoen tokens ligt het onder GPT-5.5 op beide tarieven, terwijl het bijna-Opus-kwaliteit levert op de workloads die de meeste productiesystemen domineren: coderen, analyse, RAG-pijplijnen, klantgerichte chat en gestructureerde outputgeneratie. Het onderscheidende prijskenmerk van Sonnet is dat het volledige contextvenster van 1M tokens beschikbaar is tegen standaardtarieven (er is geen toeslag voor lange context), waardoor het de goedkoopste geloofwaardige optie is voor workloads die af en toe zeer lange documenten of volledige repositories moeten inladen. Promptcaching brengt gecachte invoer terug tot 10% van standaard, wat beslissend is voor elke workload met een stabiele systeem-prompt.

Gemini 3.5 Flash: het meest agressief geprijsde vlaggenschip voor werk met korte context

Gemini 3.5 Flash is het goedkoopste model van vlaggenschipklasse van een grote Amerikaanse provider op ruwe API-prijzen, met $1.50 voor invoer en $9.00 voor uitvoer per miljoen tokens. Voor het grootste deel van het productieverkeer is dat de relevante prijstier, en die onderbiedt materieel zowel GPT-5.5 als Claude Opus 4.7. Een hogere prijs dan eerdere Flash-modellen leidt tot hogere totale kosten in token-zware agent-gedreven scenario’s (5,5x Intelligence Index-kosten vs. Gemini 3 Flash door prijs + gebruik). Gemini’s andere onderscheidende kenmerk is het daadwerkelijk gratis niveau in Google AI Studio, nuttig voor prototyping maar niet relevant voor productiekostenmodellen.

DeepSeek V4: dramatisch goedkoper, met kanttekeningen die het begrijpen waard zijn

DeepSeek V4 heeft $0.435 per miljoen invoertokens en $0.87 per miljoen uitvoertokens als lijstprijs, wat vijf tot zeventig keer goedkoper is dan de Amerikaanse frontier-modellen, afhankelijk van de vergelijking. Het model zelf is competitief op veel benchmarks, met name redeneren en code. De kanttekeningen moeten expliciet worden genoemd: gegevens worden in China verwerkt, wat voor sommige gereguleerde workloads onaanvaardbaar is; de Engelstalige kwaliteit is sterk, maar het model is anders geoptimaliseerd dan de Amerikaanse frontier-modellen, en rechtstreekse tests op uw specifieke workload zijn essentieel in plaats van optioneel. Voor workloads waar deze kanttekeningen acceptabel zijn, verandert DeepSeek de kostenequatie daadwerkelijk.

Een opmerking over Claude Opus 4.7 versus Sonnet 4.6. Opus is in de tabel opgenomen voor de volledigheid, maar voor het overgrote deel van het productieverkeer is Sonnet 4.6 de betere economische keuze. Opus kost 1,67x Sonnet op zowel invoer als uitvoer, en voor workloads waar Sonnet volstaat (wat de meeste zijn) heeft die premie geen compenserend voordeel. Kies voor Opus wanneer evaluaties aantonen dat Sonnet faalt op een specifieke klasse van taken: sterk autonome code-agents, langetermijn professionele workflows en taken waarbij instructievolging aan de marge beslissend is.

Voorbeeldberekening: wat 100 miljoen tokens per maand in werkelijkheid kost

Kopprijzen per miljoen tokens betekenen weinig totdat ze een representatieve workload raken. Het voorbeeld hieronder gebruikt een profiel dat een niet-triviaal productiesysteem benadert: 100 miljoen tokens per maand, verdeeld in 80% invoer (80M) en 20% uitvoer (20M), met een cache-hitratio van 30% op het invoergedeelte. Dit patroon is grofweg representatief voor een klantgerichte chat- of RAG-workload met een stabiele systeem-prompt en documentcontext.

De rekensom per model: kosten voor gecachte invoer + kosten voor niet-gecachte invoer + kosten voor uitvoer. Gecachte invoer wordt bij providers die caching aanbieden gefactureerd aan 10% van standaard.

Model	Gecachte invoer (24M)	Niet-gecachte invoer (56M)	Uitvoer (20M)	Totale maandelijkse rekening
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Wat dit betekent. Bij een representatieve workload is Sonnet 4.6 ongeveer de helft van de kosten van GPT-5.5. DeepSeek bevindt zich qua kosten in een geheel andere orde. Dit zijn lijstprijscijfers; toepassing van batchverwerking waar toegestaan halveert elk totaal nog eens voor de invoer en uitvoer (niet voor de cache-hits).

Twee observaties om mee te nemen. Ten eerste: caching is de meest impactvolle hefboom die u beheerst. Het bovenstaande voorbeeld gaat uit van een cache-hitratio van 30%; verhoogt u die naar 60% (volledig haalbaar voor workloads met een stabiele systeem-prompt), dan daalt de totale kost met grofweg nog eens 25%. Ten tweede: de invoer-naar-uitvoer-verhouding doet er veel toe. Workloads die uitvoer-zwaar zijn (samenvatting, longform schrijven) neigen naar providers met goedkopere uitvoertarieven, terwijl invoer-zware workloads (analyse met lange context, grote RAG-retrievals) neigen naar providers met goedkopere invoertarieven en zonder toeslag voor lange context.

De verborgen kosten die niet op de prijspagina staan

Lijstprijzen zijn de vloer, niet het plafond. Vijf extra kostenposten zijn het waard om expliciet in te calculeren, omdat ze teams die van prototype naar productie opschalen routinematig verrassen:

Redeneringstokens. Modellen met uitgebreide redeneermodi (GPT-5.5 Thinking, DeepSeek V4 thinking mode) genereren intern redeneringsmateriaal dat meetelt als uitvoertokens. Eén intensieve redeneringsaanvraag op een lange prompt kan 20.000 redeneringstokens verbruiken, wat $0.60 aan uitvoerkosten is op GPT-5.5 voordat de zichtbare respons wordt geproduceerd. Begroot per workload, niet per aanvraag.
Toeslagen voor lange context. Zowel Gemini 3.5 Flash als GPT-5.5 verhogen tarieven boven een contextlengte-drempel. RAG-pijplijnen die grote documenten opnemen, kunnen ongemerkt elke aanvraag in de hogere klasse duwen tot de rekening arriveert. Meet uw daadwerkelijke promptlengtes in productie en controleer of u de drempel overschrijdt.
Multipliers voor dataresidentie. Anthropic rekent een premie van 10% voor alleen-VS-inferentie op Opus 4.7 en Sonnet 4.6. OpenAI past een opslag van 10% toe op dataresidentie-endpoints voor de GPT-5.4-familie. Voor gereguleerde workloads waar dit relevant is, neem het vanaf dag één op in de tarievenkaart.
Toename in uitvoer-omvang. Wanneer een nieuwe modelversie standaard grondiger is (zoals Opus 4.7 naar verluidt is vergeleken met Opus 4.6), kan het aantal uitvoertokens per respons sluipend toenemen, zelfs als de invoerlengte constant blijft. Uitvoer is bij Anthropic 5x hoger geprijsd dan invoer, dus een toename van 20% in uitvoer-omvang is een toename van 20% in de dominante kostendrijver.
Mislukte en opnieuw uitgevoerde aanvragen. De meeste providers factureren niet voor 4xx- en 5xx-fouten, maar wel voor gedeeltelijke generaties en retries die bij de tweede poging slagen. In productiesystemen met actieve retry-logica kan dit een paar procent aan de rekening toevoegen. Goed om te weten bij het afstemmen van providerfacturen op de verwachte kosten.

Hoe CometAPI hierin past

Al deze vier modellen, plus 500+ andere, zijn beschikbaar via CometAPI op één OpenAI-compatibel endpoint, met één set inloggegevens, geünificeerde facturatie en geen accountsetup per provider. Prijzen op CometAPI worden per token gemeten tegen dezelfde modeltarieven als gepubliceerd door de onderliggende providers, met tegoed dat vooraf wordt gekocht en toegepast op elk model in de catalogus. De waarde van routeren via CometAPI is operationeel in plaats van per token: één set inloggegevens om te beheren, één factuur om af te stemmen, en de mogelijkheid om te wisselen van GPT-5.5 naar Claude Sonnet 4.6 naar Gemini 3.5 Flash door één string in uw code te wijzigen.

Er zijn workloads waarvoor directe provider-toegang de juiste keuze is. Als u een single-model-workload op zeer hoog volume bij één provider draait, met een uitonderhandeld enterprise-contract, zijn de eenheidskosten van rechtstreeks gaan beter. Als uw compliance-houding een specifieke vendor-of-record-relatie vereist, maakt een aggregator dat gesprek complexer in plaats van eenvoudiger. Voor de meeste teams die multi-model productie-workloads draaien, is de operationele frictie van het beheren van drie of vier directe providerrelaties echter zelf een betekenisvolle kost, een die de tarievenkaart niet vangt.

Probeer de vergelijking op uw eigen workload. De gratis laag op CometAPI laat u dezelfde prompt draaien tegen GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash en DeepSeek V4 vanaf één endpoint, zonder afzonderlijke aanmeldingen. Voor een werklastspecifieke kostenbeslissing is die oefening van één uur meer waard dan welke gepubliceerde prijsvergelijking dan ook.

Hoe u deze vergelijking gebruikt

Het juiste model voor uw workload hangt af van welke dimensie van de tarievenkaart het belangrijkst is voor de vorm van uw verkeer. Een praktisch besliskader:

**Als redeneringsdiepte de bottleneck is (**agent-gedreven workflows, complexe meerstapsplanning, de moeilijkste codeertaken), begin dan met GPT-5.5 of Claude Opus 4.7. De premie is echt maar verdiend op deze workloads.
Als u de beste prijs-vaardigheidsverhouding voor algemeen productieverkeer wilt, is Claude Sonnet 4.6 de aanbevolen standaard. Bijna-frontier-capaciteit, volledige 1M-context tegen standaardtarieven en sterke caching-ondersteuning.
Als u prijssensitief bent en uw workload onder 200K context blijft, is Gemini 3.5 Flash de goedkoopste geloofwaardige optie van vlaggenschipklasse van een grote Amerikaanse provider.
Als uw workload hoog volume en prijsgedreven is, en de dataresidentie-houding van DeepSeek acceptabel is, verandert V4 de kostenequatie genoeg om een serieuze evaluatie waard te zijn, met name voor batchvormige workloads.

Verder gaan met kostenoptimalisatie? De prijsdata hierboven is de basis voor routering: de praktijk waarbij u verschillende queries naar verschillende modellen stuurt op basis van welk model ze tegen de laagste kosten aankan. Het bijbehorende stuk, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, behandelt de routeringspatronen die deze tarievenkaart omzetten in daadwerkelijke besparingen op uw maandelijkse rekening.