Prijzen zijn de meest beslissende factor bij het kiezen van een frontier-LLM, en tegelijk de dimensie waarop de meeste gepubliceerde vergelijkingen binnen een kwartaal verouderd zijn. Dit artikel snijdt daar doorheen. Hieronder staat een actueel, met bronnen onderbouwd overzicht van de prijzen per invoer- en uitvoertoken voor de vier modellen die in 2026 het merendeel van het productieverkeer met frontier-modellen afhandelen (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash en DeepSeek’s V4), samen met de hefbomen die op schaal uw rekening wezenlijk veranderen: prompt-caching, batchverwerking en toeslagen voor lange context.
Het stuk draait om twee vragen. Ten eerste: wat kost elk model per miljoen tokens tegen lijstprijs, en hoe verhouden de genoteerde tarieven zich op de invoer en uitvoer die een productierekening daadwerkelijk aandrijven? Ten tweede: als u een representatieve workload toepast (100 miljoen tokens per maand, 80% invoer en 20% uitvoer, met realistische cache-hitpercentages), wat is dan de maandelijkse rekening in dollars per model? Het eerste antwoord stelt de tariefkaart vast; het tweede vertelt wat die tariefkaart wordt zodra deze een werkelijk productiepatroon raakt.
Snel overzicht: Over de vier frontier-modellen beslaan de lijstprijzen ruwweg twee ordes van grootte. DeepSeek V4 is het goedkoopst met $0.435 per miljoen invoertokens; Claude Opus 4.7 is het duurst met $5.00. De vorm van uw workload, met name uw cache-hitpercentage en uw verhouding tussen invoer en uitvoer, bepaalt welk model in de praktijk het goedkoopst is, vaak meer dan de tariefkaart doet vermoeden.
Waarom een appels-tot-appels prijsvergelijking lastiger is dan het lijkt
Prijzenpagina’s van aanbieders zijn geschreven voor de eigen klanten van die aanbieder, niet voor iemand die vier opties naast elkaar wil beoordelen. Het resultaat is dat vergelijken drie hardnekkige valkuilen oplevert:
- Tokens zijn niet hetzelfde bij alle aanbieders. Claude Opus 4.7 wordt geleverd met een nieuwe tokenizer die tot 35% meer tokens kan produceren voor dezelfde invoertekst dan Opus 4.6. De tokenizer van Gemini verschilt van die van OpenAI. De tariefkaart is per miljoen tokens, maar het aantal tokens voor exact dezelfde prompt varieert per aanbieder, waardoor het kopcijfer slechts een eerste benadering van de relatieve kosten is.
- Prijsniveaus voor lange context creëren kostenkliffen. De GPT-5.5-familie van OpenAI heeft aparte tarieven voor korte en lange context die ingaan rond 270.000 tokens. Anthropic hanteert daarentegen hetzelfde tarief per token over het volledige 1M-contextvenster. Workloads die dicht bij deze drempels zitten, worden heel anders geprijsd dan workloads die er ruim binnen blijven.
- Kortingen stapelen, ze zijn niet losstaand. Prompt-caching, batchverwerking en aanbieder-specifieke volumelagen kunnen elk de effectieve kosten drastisch verlagen, en ze stapelen. Een gecachte batchaanvraag bij Anthropic kan slechts 5% kosten van een standaard niet-gecachete aanvraag. Een prijsvergelijking die deze hefbomen negeert, overschat de lijstkosten, soms met een orde van grootte.
De vergelijking hieronder normaliseert waar mogelijk voor deze valkuilen, en markeert ze expliciet waar dat niet kan.
De frontier-LLM-prijsvergelijking voor 2026
Alle bedragen in Amerikaanse dollars per miljoen tokens. Afkomstig uit de officiële prijsdocumentatie van elke aanbieder per mei 2026.
| Model | Invoer | Uitvoer | Invoer uit cache | Batch (50% korting) | Contextvenster | Toeslag voor lange context |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Ja (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Geen |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Geen |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Ja (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Niet aangeboden | 384K | Geen |
De tabel lezen: Invoer uit cache is het tarief voor tokens die uit de promptcache worden geleverd (meestal systeem-prompts, few-shot-voorbeelden of documentprefixen die herhaald voorkomen). Batch is het tarief voor asynchrone workloads met tot 24 uur latentie. Toeslag voor lange context geeft aan of de aanbieder tarieven verhoogt boven een drempel voor contextlengte; voor degenen die dat doen, staat de drempel tussen haakjes.
Waar elk model in uitblinkt
GPT-5.5: de hoogst-capabele standaard voor zware redenering en agentisch werk
GPT-5.5 is OpenAI’s frontier-model voor complexe professionele workloads: codeeragenten, meerstapsplanning, langdurig toolgebruik en documentanalyse waarbij redeneerdiepte de dominante vereiste is. Het is ook het duurste van de grote Amerikaanse frontier-modellen op invoer ($5.00 per miljoen) en het hoogste op uitvoer ($30.00 per miljoen), wat betekent dat het zijn positie verdient op workloads waar het alternatief is dat u een vlaggenschip-tarief betaalt aan een ander model dat het probleem minder betrouwbaar oplost. GPT-5.5 ondersteunt caching met 90% korting, batchverwerking met 50% korting, en prijsstelling voor lange context gaat in rond de 270.000 tokens, relevant voor zeer grote codebases of volledige repository-contexten maar niet voor typische RAG-workloads.
Claude Sonnet 4.6: de aanbevolen standaard voor het merendeel van het productieverkeer
Sonnet 4.6 is het door Anthropic aanbevolen model voor de meerderheid van productie-workloads, en de prijs-prestatieverhouding is de reden. Met $3 invoer en $15 uitvoer per miljoen tokens zit het onder GPT-5.5 op beide tarieven, terwijl het bijna-Opus-kwaliteit levert op de workloads die de meeste productiesystemen domineren: coderen, analyse, RAG-pijplijnen, klantgerichte chat en gestructureerde outputgeneratie. Sonnet’s onderscheidende prijskenmerk is dat het volledige contextvenster van 1M tokens beschikbaar is tegen standaardtarieven (er is geen toeslag voor lange context), wat het de goedkoopste geloofwaardige optie maakt voor workloads die af en toe zeer lange documenten of volledige repositories moeten inlezen. Prompt-caching reduceert invoer uit cache tot 10% van standaard, wat doorslaggevend is voor elke workload met een stabiele systeem-prompt.
Gemini 3.5 Flash: het meest agressief geprijsde vlaggenschip voor werk met korte context
Gemini 3.5 Flash is het goedkoopste model van vlaggenschipklasse van een grote Amerikaanse aanbieder op ruwe API-prijsstelling, met $1.50 invoer en $9.00 uitvoer per miljoen tokens. Voor het meeste productieverkeer is dat de relevante prijsklasse, en het onderbiedt zowel GPT-5.5 als Claude Opus 4.7 aanzienlijk. Hogere prijs dan eerdere Flash-modellen leidt tot hogere totale kosten in token-intensieve agentische scenario’s (5.5x Intelligence Index-kosten vs. Gemini 3 Flash door prijsstelling + gebruik). Gemini’s andere onderscheidende kenmerk is de daadwerkelijk gratis laag in Google AI Studio, nuttig voor prototyping maar niet relevant voor productiekostenmodellen.
DeepSeek V4: dramatisch goedkoper, met kanttekeningen die u moet begrijpen
DeepSeek V4 noteert $0.435 per miljoen invoertokens en $0.87 per miljoen uitvoertokens, wat vijf tot zeventig keer goedkoper is dan de Amerikaanse frontier-modellen, afhankelijk van de vergelijking. Het model zelf is competitief op veel benchmarks, met name redeneren en code. De kanttekeningen zijn het vermelden waard: data wordt verwerkt in China, wat voor sommige gereguleerde workloads geen optie is; de kwaliteit in het Engels is sterk, maar het model is anders geoptimaliseerd dan de Amerikaanse frontier-modellen, en head-to-head-tests op uw specifieke workload zijn essentieel in plaats van optioneel. Voor workloads waar deze kanttekeningen acceptabel zijn, verandert DeepSeek de kostenvergelijking daadwerkelijk.
Een opmerking over Claude Opus 4.7 vs Sonnet 4.6. Opus is opgenomen in de tabel voor de volledigheid, maar voor het overgrote deel van het productieverkeer is Sonnet 4.6 de betere economische keuze. Opus kost 1,67x van Sonnet op zowel invoer als uitvoer, en voor workloads waar Sonnet volstaat (wat de meeste zijn), heeft die premie geen compenserend voordeel. Grijp naar Opus wanneer evaluaties aantonen dat Sonnet faalt op een specifieke taakklasse: sterk autonome codeeragenten, langetermijn professionele workflows en taken waar instructievolgen op het randje doorslaggevend is.
Voorbeeldberekening: wat 100 miljoen tokens per maand daadwerkelijk kost
Kopprijzen per miljoen tokens zeggen weinig totdat ze een representatieve workload raken. Het onderstaande voorbeeld gebruikt een profiel dat een niet-triviaal productiesysteem benadert: 100 miljoen totale tokens per maand, verdeeld in 80% invoer (80M) en 20% uitvoer (20M), met een cache-hitpercentage van 30% op het invoergedeelte. Dit patroon is grofweg representatief voor een klantgerichte chat of RAG-workload met een stabiele systeem-prompt en documentcontext.
De berekening per model: kosten invoer uit cache + kosten niet-gecachete invoer + kosten uitvoer. Invoer uit cache wordt in rekening gebracht tegen 10% van het standaardtarief bij aanbieders die caching bieden.
| Model | Invoer uit cache (24M) | Niet-gecachete invoer (56M) | Uitvoer (20M) | Totale maandelijkse rekening |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Wat dit u vertelt. Bij een representatieve workload is Sonnet 4.6 grofweg de helft van de kosten van GPT-5.5. DeepSeek zit in een geheel andere kostenuniversum. Dit zijn lijstprijzen; toepassing van batchverwerking waar mogelijk halveert elk totaal nog eens op de invoer en uitvoer (niet op de cache-hits).
Twee observaties om mee te nemen. Ten eerste: caching is de meest impactvolle hefboom die u controleert. Het voorbeeld hierboven gaat uit van een cache-hitpercentage van 30%; verhoogt u dit naar 60% (heel goed haalbaar voor workloads met een stabiele systeem-prompt), dan daalt de totale kost met grofweg nog eens 25%. Ten tweede: de verhouding tussen invoer en uitvoer is zeer belangrijk. Workloads die uitvoer-gedreven zijn (samenvatting, long-form schrijven) bevoordelen aanbieders met goedkopere uitvoertarieven, terwijl invoer-gedreven workloads (analyse met lange context, grote RAG-opvragingen) neigen naar aanbieders met goedkopere invoertarieven en zonder toeslag voor lange context.
De verborgen kosten die niet op de prijzenpagina staan
Lijstprijzen zijn de vloer, niet het plafond. Vijf extra kosten zijn het waard om expliciet voor te begroten, omdat ze teams die opschalen van prototype naar productie routinematig verrassen:
- Redeneertokens. Modellen met uitgebreide redeneermodi (GPT-5.5 Thinking, de denkmodus van DeepSeek V4) genereren interne redeneerinhoud die meetelt als uitvoertokens. Een enkele call met hoge inspanning voor redeneren op een lange prompt kan 20.000 redeneertokens opleveren, wat $0.60 aan uitvoerkosten is op GPT-5.5 voordat de zichtbare respons is geproduceerd. Begroot per workload, niet per request.
- Toeslagen voor lange context. Zowel Gemini 3.5 Flash als GPT-5.5 verhogen tarieven boven een drempel voor contextlengte. RAG-pijplijnen die grote documenten bevatten, kunnen ongemerkt elke aanvraag in de hogere klasse drukken zonder dat iemand het merkt totdat de rekening arriveert. Meet in productie uw daadwerkelijke promptlengtes en controleer of u de drempel overschrijdt.
- Multipliers voor dataresidentie. Anthropic rekent een opslag van 10% voor alleen-VS-inferentie op Opus 4.7 en Sonnet 4.6. OpenAI past een opslag van 10% toe op endpoints voor dataresidentie voor de GPT-5.4-familie. Voor gereguleerde workloads waar dit relevant is, neemt u dit vanaf dag één op in de tariefkaart.
- Drift in uitvoerwoordrijkheid. Wanneer een nieuwe modelversie standaard grondiger is (zoals Opus 4.7 naar verluidt is ten opzichte van Opus 4.6), kan het aantal uitvoertokens per respons oplopen, zelfs als de invoerlengte constant blijft. Aan de Anthropic-lijn is uitvoer 5x hoger geprijsd dan invoer, dus een toename van 20% in uitvoerwoordrijkheid is een toename van 20% in de dominante kostenpost.
- Mislukte en opnieuw uitgeprobeerde requests. De meeste aanbieders brengen geen kosten in rekening voor 4xx- en 5xx-fouten, maar wel voor gedeeltelijke generaties en retries die bij de tweede poging slagen. In productiesystemen met actieve retry-logica kan dit enkele procenten toevoegen aan de rekening. Handig om te weten bij het afstemmen van providerfacturen op de verwachte kosten.
Hoe CometAPI hierin past
Al deze vier modellen, plus 500+ andere, zijn beschikbaar via CometAPI op één OpenAI-compatibele endpoint, met één set inloggegevens, uniforme facturatie en geen per-aanbieder accountsetup. Prijzen op CometAPI worden per token gemeten tegen dezelfde per-modeltarieven als gepubliceerd door de onderliggende aanbieders, met credits die vooraf worden gekocht en toegepast op elk model in de catalogus. De waarde van routeren via CometAPI is operationeel in plaats van per token: één set inloggegevens om te beheren, één factuur om te reconciliëren en de mogelijkheid om van GPT-5.5 naar Claude Sonnet 4.6 naar Gemini 3.5 Flash te wisselen door in uw code één string te wijzigen.
Er zijn workloads waarbij rechtstreekse toegang tot de aanbieder de juiste keuze is. Als u een single-model-workload op zeer hoog volume bij één aanbieder draait, met een onderhanden enterprisecontract, zijn de unit economics van direct gaan beter. Als uw compliance-positie een specifieke vendor-of-record-relatie vereist, maakt een aggregator dat gesprek complexer in plaats van eenvoudiger. Voor de meerderheid van teams die multimodel productie-workloads draaien, is de operationele frictie van het beheren van drie of vier directe aanbiederrelaties op zichzelf een betekenisvolle kost, één die de tariefkaart niet vangt.
Probeer de vergelijking op uw eigen workload. De gratis laag op CometAPI laat u dezelfde prompt tegen GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash en DeepSeek V4 draaien vanaf één endpoint, zonder aparte aanmeldingen. Voor een werklastspecifieke kostenbeslissing is dat uurtje oefenen meer waard dan welke prijsvergelijking dan ook.
Hoe u deze vergelijking gebruikt
Het juiste model voor uw workload hangt af van welke dimensie van de tariefkaart het meest telt voor de vorm van uw verkeer. Een praktisch besliskader:
- Als redeneerdiepte de bottleneck is (agentic workflows, complexe meerstapsplanning, de zwaarste coderingstaken), begin met GPT-5.5 of Claude Opus 4.7. De premie is reëel maar verdiend op deze workloads.
- Als u de beste prijs-prestatieverhouding voor algemeen productieverkeer wilt, is Claude Sonnet 4.6 de aanbevolen standaard. Bijna-frontiercapaciteit, volledige 1M context tegen standaardtarieven en sterke cachingondersteuning.
- Als u kostenbewust bent en uw workload onder 200K context blijft, is Gemini 3.5 Flash de goedkoopste geloofwaardige optie van vlaggenschipklasse van een grote Amerikaanse aanbieder.
- Als uw workload een hoog volume heeft en prijs-gedomineerd is, en DeepSeek’s dataresidentiehouding acceptabel is, verandert V4 de kostendynamiek genoeg om een serieuze evaluatie waard te zijn, vooral voor batchachtige workloads.
Wilt u verder gaan met kostenoptimalisatie? De bovenstaande prijsdata vormen de basis voor routering: de praktijk om verschillende aanvragen naar verschillende modellen te sturen op basis van welk model ze tegen de laagste kosten aankan. Het zusterstuk, De LLM-API-kosten halveren: een gids voor modelroutering voor productie-workloads in 2026, loopt door de routeringspatronen die deze tariefkaart omzetten in daadwerkelijke besparingen op uw maandelijkse rekening.
