La tarification est la décision la plus déterminante dans le choix d’un LLM de pointe, et c’est aussi la dimension où la plupart des comparaisons publiées deviennent obsolètes en moins d’un trimestre. Cet article fait le tri. Vous trouverez ci‑dessous une vue à jour et sourcée des prix par token d’entrée et de sortie pour les quatre modèles qui représentent la majorité du trafic de modèles de pointe en production en 2026 (GPT‑5.5 d’OpenAI, Claude Sonnet 4.6 d’Anthropic, Gemini 3.5 Flash de Google et V4 de DeepSeek), ainsi que les leviers qui changent réellement votre facture à l’échelle : mise en cache des prompts, traitement par lots et surtaxes de long contexte.
L’article s’articule autour de deux questions. Premièrement : au prix catalogue, quel est le coût par million de tokens pour chaque modèle, et comment les tarifs annoncés se comparent‑ils pour les entrées et sorties qui constituent réellement une facture de production ? Deuxièmement : si l’on applique une charge représentative (100 millions de tokens par mois, 80 % en entrée et 20 % en sortie, avec des taux de cache réalistes), quelle est la facture mensuelle en dollars pour chaque modèle ? La première réponse établit la grille tarifaire ; la seconde montre ce que devient cette grille une fois confrontée à un schéma d’utilisation réel.
Lecture rapide : Parmi les quatre modèles de pointe, les prix catalogue couvrent près de deux ordres de grandeur. DeepSeek V4 est le moins cher à $0.435 par million de tokens d’entrée ; Claude Opus 4.7 est le plus cher à $5.00. La forme de votre charge, en particulier votre taux de réussite du cache et votre ratio entrée‑sortie, détermine quel modèle est le moins cher en pratique, souvent davantage que ne le suggère la grille tarifaire.
Pourquoi une comparaison de prix à périmètre constant est plus difficile qu’il n’y paraît
Les pages de tarification des fournisseurs sont rédigées pour leurs propres clients, pas pour quelqu’un qui évalue quatre options côte à côte. Il en résulte que les comparer crée trois pièges persistants :
- Les tokens ne sont pas identiques d’un fournisseur à l’autre. Claude Opus 4.7 est livré avec un nouveau tokenizer qui peut produire jusqu’à 35 % de tokens en plus pour le même texte d’entrée qu’Opus 4.6. Le tokenizer de Gemini diffère de celui d’OpenAI. La grille tarifaire est à l’unité de million de tokens, mais le nombre de tokens pour un prompt identique varie entre fournisseurs, ce qui signifie que le tarif affiché n’est qu’une première approximation du coût relatif.
- Les paliers de prix pour long contexte créent des falaises de coûts. La famille GPT‑5.5 d’OpenAI a des tarifs distincts pour courts et longs contextes qui s’appliquent autour de 270 000 tokens. Anthropic, à l’inverse, maintient le même tarif par token sur toute sa fenêtre de contexte de 1 M. Les charges qui se situent près de ces seuils sont facturées très différemment de celles qui restent confortablement en‑deçà.
- Les remises s’empilent, elles ne sont pas séparées. La mise en cache des prompts, le traitement par lots et les paliers de volume propres au fournisseur peuvent chacun réduire drastiquement le coût effectif, et ces effets s’additionnent. Une requête en lot mise en cache chez Anthropic peut coûter aussi peu que 5 % d’une requête standard non mise en cache. Une comparaison qui ignore ces leviers surestime le prix catalogue, parfois d’un ordre de grandeur.
La comparaison ci‑dessous normalise ces pièges lorsque c’est possible, et les signale explicitement quand ce ne l’est pas.
La comparaison des prix des LLM de pointe en 2026
Tous les montants sont en dollars US par million de tokens. Sources : documentation officielle de chaque fournisseur à mai 2026.
| Model | Input | Output | Cached input | Batch (50% off) | Context window | Long-context surcharge |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Oui (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Aucune |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Aucune |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Oui (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Non proposé | 384K | Aucune |
Lecture du tableau : “Cached input” est le tarif appliqué aux tokens servis depuis le cache de prompt (typiquement les prompts système, les exemples few‑shot ou les préfixes de documents qui reviennent d’une requête à l’autre). “Batch” est le tarif appliqué aux charges asynchrones avec une latence pouvant aller jusqu’à 24 heures. “Long‑context surcharge” indique si le fournisseur augmente ses tarifs au‑delà d’un certain contexte ; lorsque c’est le cas, le seuil est indiqué entre parenthèses.
Où chaque modèle l’emporte
GPT‑5.5 : le meilleur choix par défaut pour le raisonnement difficile et le travail agentique
GPT‑5.5 est le modèle de pointe d’OpenAI pour les charges professionnelles complexes : agents de code, planification multi‑étapes, utilisation d’outils longue durée, et analyse de documents où la profondeur de raisonnement est le critère dominant. C’est aussi le plus cher des grands modèles américains sur l’entrée ($5.00 par million) et le plus élevé sur la sortie ($30.00 par million), ce qui signifie qu’il mérite sa place pour les charges où l’alternative serait de payer un tarif phare à un autre modèle qui résout le problème avec moins de fiabilité. GPT‑5.5 prend en charge la mise en cache avec une remise de 90 %, le traitement par lots avec 50 % de réduction, et la tarification long contexte s’applique autour de 270 K tokens, pertinent pour de très grands bases de code ou des contextes de dépôt complet, mais pas pour les charges RAG typiques.
Claude Sonnet 4.6 : la recommandation par défaut pour la plupart du trafic de production
Sonnet 4.6 est le modèle recommandé par Anthropic pour la majorité des charges de production, et le rapport prix‑capacité en est la raison. À $3 en entrée et $15 en sortie par million de tokens, il se place sous GPT‑5.5 sur les deux taux tout en offrant une qualité proche d’Opus sur les charges qui dominent la plupart des systèmes de production : codage, analyse, pipelines RAG, chat client et génération de sorties structurées. La particularité tarifaire de Sonnet est que l’intégralité de la fenêtre de contexte 1 M est disponible au tarif standard (pas de surtaxe long contexte), ce qui en fait l’option crédible la moins chère pour les charges qui ont occasionnellement besoin d’ingérer de très longs documents ou des dépôts complets. La mise en cache ramène l’entrée mise en cache à 10 % du standard, décisif pour toute charge avec un prompt système stable.
Gemini 3.5 Flash : le modèle phare le plus agressif sur le prix pour les contextes courts
Gemini 3.5 Flash est le modèle de classe phare le moins cher parmi les grands fournisseurs américains en tarification API brute, à $1.50 en entrée et $9.00 en sortie par million de tokens. Pour la plupart du trafic de production, c’est le palier pertinent, et il sous‑coupe nettement GPT‑5.5 et Claude Opus 4.7. Un prix plus élevé que les modèles Flash précédents conduit à des coûts globaux accrus dans les scénarios agentiques très consommateurs de tokens (coût de l’Intelligence Index x5,5 vs Gemini 3 Flash en raison du prix + de l’usage). L’autre particularité de Gemini est le véritable palier gratuit dans Google AI Studio, utile pour le prototypage mais non pertinent pour les modèles de coûts en production.
DeepSeek V4 : spectaculairement moins cher, avec des précautions à comprendre
DeepSeek V4 est affiché à $0.435 par million de tokens d’entrée et $0.87 par million de tokens de sortie, soit entre cinq et soixante‑dix fois moins cher que les modèles américains de pointe selon la comparaison. Le modèle lui‑même est compétitif sur de nombreux benchmarks, en particulier le raisonnement et le code. Les réserves méritent d’être explicitées : les données sont traitées en Chine, ce qui est rédhibitoire pour certaines charges réglementées ; la qualité en anglais est solide mais le modèle est optimisé différemment des modèles américains, et des tests tête‑à‑tête sur votre charge spécifique sont essentiels plutôt qu’optionnels. Pour les charges où ces réserves sont acceptables, DeepSeek change réellement l’équation des coûts.
Note sur Claude Opus 4.7 vs Sonnet 4.6. Opus figure dans le tableau pour être complet, mais pour la grande majorité du trafic de production, Sonnet 4.6 est un meilleur choix économique. Opus coûte 1,67× Sonnet sur l’entrée comme sur la sortie, et pour les charges où Sonnet suffit (la plupart), cette prime n’a pas de bénéfice compensateur. Recourez à Opus lorsque les évaluations montrent que Sonnet échoue sur une classe précise de tâches : agents de code hautement autonomes, workflows professionnels de long horizon, et tâches où l’obéissance aux instructions à la marge est décisive.
Exemple chiffré : ce que 100 millions de tokens par mois coûtent réellement
Le prix par million de tokens signifie peu tant qu’il n’est pas confronté à une charge représentative. L’exemple ci‑dessous utilise un profil qui approche un système de production non trivial : 100 millions de tokens au total par mois, répartis à 80 % en entrée (80 M) et 20 % en sortie (20 M), avec un taux de réussite du cache de 30 % sur la partie entrée. Ce schéma est globalement représentatif d’un chat client ou d’une charge RAG avec un prompt système et un contexte documentaire stables.
Le calcul pour chaque modèle : coût des entrées mises en cache + coût des entrées non mises en cache + coût des sorties. L’entrée mise en cache est facturée à 10 % du standard chez les fournisseurs qui proposent la mise en cache.
| Model | Cached input (24M) | Uncached input (56M) | Output (20M) | Total monthly bill |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Ce que cela vous dit. Sur une charge représentative, Sonnet 4.6 coûte environ la moitié de GPT‑5.5. DeepSeek est dans un univers de coûts différent. Ces chiffres sont des prix catalogue ; l’application du traitement par lots lorsque c’est admissible réduit encore chaque total de 50 % sur les entrées et les sorties (mais pas sur les hits de cache).
Deux observations à retenir. Premièrement : la mise en cache est le levier le plus impactant que vous contrôlez. L’exemple ci‑dessus suppose un taux de réussite du cache de 30 % ; portez‑le à 60 % (parfaitement atteignable pour des charges avec un prompt système stable), et le coût total baisse d’environ 25 % supplémentaires. Deuxièmement : le ratio entrée‑sortie compte beaucoup. Les charges très sorties (résumés, rédaction longue) favorisent les fournisseurs aux tarifs de sortie plus bas, tandis que les charges très entrées (analyse long contexte, récupérations RAG volumineuses) favorisent les fournisseurs avec des tarifs d’entrée plus bas et sans surtaxe long contexte.
Les coûts cachés qui ne figurent pas sur la page de prix
Le prix catalogue est un plancher, pas un plafond. Cinq coûts additionnels méritent un budget explicite, car ils surprennent régulièrement les équipes qui passent du prototype à la production :
- Tokens de raisonnement. Les modèles avec modes de raisonnement étendus (GPT‑5.5 Thinking, mode “thinking” de DeepSeek V4) génèrent un contenu de raisonnement interne qui compte comme des tokens de sortie. Un appel de raisonnement à effort élevé sur un long prompt peut générer 20 000 tokens de raisonnement, soit $0.60 de coût de sortie sur GPT‑5.5 avant même la réponse visible. Budgétez par charge, pas par requête.
- Surtaxes long contexte. Gemini 3.5 Flash et GPT‑5.5 augmentent les tarifs au‑delà d’un certain seuil de longueur de contexte. Des pipelines RAG qui incluent de grands documents peuvent faire basculer silencieusement chaque requête dans le palier supérieur sans que personne ne le remarque avant la facture. Mesurez vos longueurs de prompts en production et vérifiez si vous franchissez le seuil.
- Multiplicateurs de résidence des données. Anthropic applique une majoration de 10 % pour l’inférence limitée aux États‑Unis sur Opus 4.7 et Sonnet 4.6. OpenAI applique une hausse de 10 % sur les endpoints à résidence des données pour la famille GPT‑5.4. Pour les charges réglementées concernées, intégrez‑le à la grille dès le premier jour.
- Dérive de verbosité des sorties. Lorsqu’une nouvelle version de modèle est plus exhaustive par défaut (comme Opus 4.7 l’est apparemment par rapport à Opus 4.6), les tokens de sortie par réponse peuvent augmenter même si la longueur d’entrée est constante. La sortie est facturée 5× plus cher que l’entrée sur la ligne Anthropic ; une hausse de 20 % de la verbosité des sorties est donc une hausse de 20 % du principal poste de coût.
- Requêtes échouées et relancées. La plupart des fournisseurs ne facturent pas les erreurs 4xx et 5xx, mais facturent les générations partielles et les relances qui réussissent au second essai. Dans des systèmes de production avec logique de relance active, cela peut ajouter quelques pourcents à la facture. Bon à savoir lorsque vous rapprochez les factures des coûts attendus.
La place de CometAPI
Ces quatre modèles, plus plus de 500 autres, sont disponibles via CometAPI sur un unique endpoint compatible OpenAI, avec une seule identité de connexion, une facturation unifiée et aucune configuration de compte par fournisseur. La tarification sur CometAPI est mesurée par token aux mêmes tarifs par modèle que ceux publiés par les fournisseurs sous‑jacents, avec des crédits achetés à l’avance et utilisables sur n’importe quel modèle du catalogue. La valeur d’un routage via CometAPI est opérationnelle plutôt que par token : une seule identité à gérer, une seule facture à rapprocher, et la possibilité de passer de GPT‑5.5 à Claude Sonnet 4.6 puis à Gemini 3.5 Flash en modifiant une seule chaîne dans votre code.
Il existe des charges où l’accès direct au fournisseur est le bon choix. Si vous exécutez une charge mono‑modèle à très fort volume sur un fournisseur, avec un contrat entreprise négocié, l’économie unitaire du direct est meilleure. Si votre posture de conformité exige une relation spécifique de vendeur officiel, un agrégateur complique plutôt qu’il ne simplifie la discussion. Pour la majorité des équipes qui exploitent des charges multi‑modèles en production, toutefois, la friction opérationnelle de gérer trois ou quatre relations directes fournisseurs est elle‑même un coût significatif, que la grille tarifaire ne capture pas.
Testez la comparaison sur votre charge. Le palier gratuit de CometAPI vous permet d’exécuter le même prompt sur GPT‑5.5, Sonnet 4.6, Gemini 3.5 Flash et DeepSeek V4 depuis un seul endpoint, sans inscriptions séparées. Pour une décision de coût spécifique à votre charge, cet exercice d’une heure vaut plus que n’importe quelle comparaison de prix jamais publiée.
Comment utiliser cette comparaison
Le bon modèle pour votre charge dépend de la dimension de la grille tarifaire qui compte le plus pour la forme de votre trafic. Un cadre de décision pratique :
- Si la profondeur de raisonnement est le goulot d’étranglement (workflows agentiques, planification complexe multi‑étapes, tâches de codage les plus difficiles), commencez par GPT‑5.5 ou Claude Opus 4.7. La prime est réelle mais méritée sur ces charges.
- Si vous voulez le meilleur rapport prix‑capacité pour du trafic de production généraliste, Claude Sonnet 4.6 est le choix recommandé par défaut. Capacités proches du niveau de pointe, fenêtre de contexte 1 M complète aux tarifs standard, et solide prise en charge de la mise en cache.
- Si vous êtes sensible aux coûts et que votre charge se situe sous 200 K de contexte, Gemini 3.5 Flash est l’option de classe phare la plus crédible et la moins chère parmi les grands fournisseurs américains.
- Si votre charge est à gros volume et dominée par le prix, et que la posture de résidence des données de DeepSeek est acceptable, V4 change suffisamment l’équation des coûts pour mériter une évaluation sérieuse, en particulier pour les charges en forme de lots.
Vous voulez aller plus loin sur l’optimisation des coûts ? Les données de prix ci‑dessus constituent la base du routage : la pratique qui consiste à envoyer des requêtes à différents modèles en fonction de celui qui peut les traiter au coût le plus bas. L’article compagnon, Réduire de moitié les coûts des API LLM : guide de routage de modèles pour les charges de production en 2026, décrit les schémas de routage qui transforment cette grille en économies concrètes sur votre facture mensuelle.
