Comparatif des tarifs des API LLM en 2026 : GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash et DeepSeek V4

La tarification est la décision la plus lourde de conséquences lorsqu’on choisit un LLM de pointe, et c’est aussi la dimension sur laquelle la plupart des comparaisons publiées deviennent obsolètes en moins d’un trimestre. Cet article va à l’essentiel. Ci-dessous, un état des lieux actuel et sourcé des prix par jeton d’entrée et de sortie pour les quatre modèles qui représentent la majorité du trafic de modèles de pointe en production en 2026 (GPT-5.5 d’OpenAI, Claude Sonnet 4.6 d’Anthropic, Gemini 3.5 Flash de Google et V4 de DeepSeek), ainsi que les leviers qui modifient réellement votre facture à grande échelle : mise en cache des prompts, traitement par lots et surcharges liées aux longs contextes.

L’article s’articule autour de deux questions. Premièrement : au prix catalogue, combien coûte chaque modèle par million de jetons, et comment les tarifs annoncés se comparent-ils sur les entrées et les sorties qui constituent réellement une facture de production ? Deuxièmement : en appliquant une charge représentative (100 millions de jetons par mois, 80 % d’entrée et 20 % de sortie, avec des taux de hit cache réalistes), quelle est la facture mensuelle en dollars pour chaque modèle ? La première réponse établit la grille tarifaire ; la seconde montre ce que devient cette grille une fois confrontée à un schéma d’usage en production.

Lecture rapide : Sur les quatre modèles de frontière, les prix catalogue s’étalent sur environ deux ordres de grandeur. DeepSeek V4 est le moins cher à $0.435 par million de jetons d’entrée ; Claude Opus 4.7 est le plus cher à $5.00. La forme de votre charge, notamment votre taux de hit cache et votre ratio entrée/sortie, détermine quel modèle est le moins cher en pratique, souvent plus que ne le suggère la grille tarifaire.

Pourquoi une comparaison de prix à périmètre constant est plus difficile qu’il n’y paraît

Les pages de tarification des fournisseurs sont écrites pour leurs propres clients, pas pour quelqu’un qui évalue quatre options côte à côte. Résultat : les comparer comporte trois écueils persistants :

Les jetons ne sont pas identiques d’un fournisseur à l’autre. Claude Opus 4.7 est livré avec un nouveau tokeniseur qui peut produire jusqu’à 35 % de jetons en plus pour le même texte d’entrée qu’Opus 4.6. Le tokeniseur de Gemini diffère de celui d’OpenAI. La grille est exprimée par million de jetons, mais le nombre de jetons pour un prompt identique varie selon le fournisseur, ce qui signifie que le tarif affiché n’est qu’une première approximation du coût relatif.
Les paliers de tarification pour longs contextes créent des falaises de coûts. La famille GPT-5.5 d’OpenAI a des tarifs distincts pour les contextes courts et longs qui s’appliquent autour de 270 000 jetons. Anthropic, à l’inverse, maintient le même tarif par jeton sur toute sa fenêtre de contexte de 1M. Les charges proches de ces seuils sont facturées très différemment de celles qui restent largement en deçà.
Les remises se cumulent, elles ne sont pas séparées. La mise en cache des prompts, le traitement par lots et les paliers de volume propres au fournisseur peuvent chacun réduire fortement le coût effectif, et ils se cumulent. Une requête en lot et mise en cache chez Anthropic peut coûter aussi peu que 5 % d’une requête standard non mise en cache. Une comparaison qui ignore ces leviers surestime le prix catalogue, parfois d’un ordre de grandeur.

La comparaison ci-dessous normalise ces écueils quand c’est possible, et les signale explicitement quand ça ne l’est pas.

La comparaison des prix des LLM de pointe en 2026

Tous les chiffres sont en dollars américains par million de jetons. Sources : documentation officielle de chaque fournisseur en mai 2026.

Modèle	Entrée	Sortie	Entrée mise en cache	Traitement par lots (50% de réduction)	Fenêtre de contexte	Surcharge pour long contexte
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Oui (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Aucune
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Aucune
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Oui (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Non proposé	384K	Aucune

Lecture du tableau : L’entrée mise en cache correspond au tarif payé sur les jetons servis depuis le cache de prompt (typiquement les prompts système, les exemples few-shot ou des préfixes de documents récurrents). Le tarif “par lots” correspond aux charges asynchrones avec une latence allant jusqu’à 24 heures. La colonne “Surcharge pour long contexte” indique si le fournisseur augmente ses tarifs au-delà d’un seuil de longueur de contexte ; pour ceux qui le font, le seuil est indiqué entre parenthèses.

Où chaque modèle l’emporte

GPT-5.5 : le choix par défaut le plus performant pour le raisonnement difficile et le travail agentique

GPT-5.5 est le modèle de pointe d’OpenAI pour les charges professionnelles complexes : agents de codage, planification multi-étapes, utilisation d’outils de longue durée, et analyse documentaire où la profondeur de raisonnement est le besoin dominant. C’est aussi le plus cher des grands modèles de pointe américains sur l’entrée ($5.00 par million) et le plus élevé sur la sortie ($30.00 par million), ce qui signifie qu’il gagne sa place sur les charges où l’alternative consiste à payer un tarif phare à un autre modèle qui résout le problème moins fiablement. GPT-5.5 prend en charge la mise en cache avec 90 % de remise, le traitement par lots avec 50 % de remise, et la tarification “long contexte” s’applique autour de 270K jetons, pertinente pour de très grands codebases ou des contextes de dépôt complet, mais pas pour des workloads RAG typiques.

Claude Sonnet 4.6 : le choix par défaut recommandé pour la majorité du trafic de production

Sonnet 4.6 est le modèle recommandé d’Anthropic pour la majorité des charges en production, et son ratio prix/capacité en est la raison. À $3 en entrée et $15 en sortie par million de jetons, il se situe sous GPT-5.5 sur les deux tarifs tout en offrant une qualité proche d’Opus sur les charges qui dominent la plupart des systèmes de production : codage, analyse, pipelines RAG, chat orienté client et génération de sorties structurées. La particularité tarifaire de Sonnet est que la fenêtre de contexte complète de 1M de jetons est disponible aux tarifs standard (pas de surcharge long contexte), ce qui en fait l’option crédible la moins chère pour les charges qui doivent occasionnellement ingérer de très longs documents ou des dépôts complets. La mise en cache réduit l’entrée mise en cache à 10 % du standard, ce qui est décisif pour toute charge avec un prompt système stable.

Gemini 3.5 Flash : le modèle phare le plus agressif sur le prix pour les contextes courts

Gemini 3.5 Flash est le modèle de classe phare le moins cher parmi les grands fournisseurs américains sur le prix API brut, à $1.50 en entrée et $9.00 en sortie par million de jetons. Pour la plupart du trafic de production, c’est le palier tarifaire pertinent, et il sous-tarie nettement GPT-5.5 et Claude Opus 4.7. Un prix plus élevé que les précédents modèles Flash conduit à une hausse des coûts globaux dans les scénarios agentiques gourmands en jetons (coût de l’Intelligence Index multiplié par 5.5 par rapport à Gemini 3 Flash en raison du prix + usage). L’autre particularité de Gemini est le niveau gratuit réel dans Google AI Studio, utile pour le prototypage mais non pertinent pour les modèles de coûts en production.

DeepSeek V4 : nettement moins cher, avec des mises en garde à comprendre

DeepSeek V4 affiche $0.435 par million de jetons d’entrée et $0.87 par million de jetons de sortie, soit entre cinq et soixante-dix fois moins cher que les modèles de pointe américains selon la comparaison. Le modèle lui-même est compétitif sur de nombreux benchmarks, en particulier le raisonnement et le code. Les mises en garde méritent d’être explicites : les données sont traitées en Chine, ce qui est rédhibitoire pour certaines charges régulées ; la qualité en anglais est solide mais le modèle est optimisé différemment des modèles de pointe américains, et des tests comparatifs sur votre charge spécifique sont essentiels, pas optionnels. Pour les charges où ces réserves sont acceptables, DeepSeek change réellement l’équation des coûts.

Remarque sur Claude Opus 4.7 vs Sonnet 4.6. Opus figure dans le tableau pour être exhaustif, mais pour la grande majorité du trafic en production, Sonnet 4.6 est le meilleur choix économique. Opus coûte 1,67x Sonnet en entrée comme en sortie, et pour les charges où Sonnet suffit (la plupart), cette prime n’a pas de contrepartie. Optez pour Opus lorsque les évaluations montrent que Sonnet échoue sur une classe de tâches spécifique : agents de codage très autonomes, workflows professionnels de long horizon, et tâches où le suivi d’instructions à la marge est décisif.

Exemple chiffré : ce que coûtent réellement 100 millions de jetons par mois

Les prix par million de jetons ne veulent pas dire grand-chose tant qu’ils ne sont pas appliqués à une charge représentative. L’exemple ci-dessous utilise un profil qui s’apparente à un système de production non trivial : 100 millions de jetons au total par mois, répartis en 80 % d’entrée (80M) et 20 % de sortie (20M), avec un taux de hit cache de 30 % sur la partie entrée. Ce schéma est largement représentatif d’un chat orienté client ou d’une charge RAG avec un prompt système et un contexte documentaire stables.

Le calcul pour chaque modèle : coût de l’entrée mise en cache + coût de l’entrée non mise en cache + coût de la sortie. L’entrée mise en cache est facturée à 10 % du standard pour les fournisseurs qui proposent la mise en cache.

Modèle	Entrée mise en cache (24M)	Entrée non mise en cache (56M)	Sortie (20M)	Facture mensuelle totale
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Ce que cela vous dit. Sur une charge représentative, Sonnet 4.6 coûte environ la moitié de GPT-5.5. DeepSeek est dans un autre univers de coûts. Ce sont des prix catalogue ; appliquer le traitement par lots là où il est éligible réduit encore chaque total de 50 % sur les entrées et les sorties (mais pas sur les hits de cache).

Deux observations à garder en tête. Premièrement : la mise en cache est le levier le plus impactant que vous contrôlez. L’exemple ci-dessus suppose un taux de hit cache de 30 % ; relevez-le à 60 % (parfaitement atteignable pour des charges avec un prompt système stable) et le coût total baisse d’environ 25 % supplémentaires. Deuxièmement : le ratio entrée/sortie compte beaucoup. Les charges orientées sortie (résumé, rédaction longue) favorisent les fournisseurs aux tarifs de sortie moins chers, tandis que les charges orientées entrée (analyse à long contexte, grands rappels RAG) favorisent les fournisseurs aux entrées moins chères et sans surcharge long contexte.

Les coûts cachés qui n’apparaissent pas sur la page de tarification

Le prix catalogue est le plancher, pas le plafond. Cinq coûts supplémentaires méritent d’être budgétés explicitement, car ils surprennent régulièrement les équipes qui passent du prototype à la production :

Jetons de raisonnement. Les modèles avec des modes de raisonnement étendu (GPT-5.5 Thinking, DeepSeek V4 thinking mode) génèrent un contenu de raisonnement interne compté comme des jetons de sortie. Un appel de raisonnement à fort effort sur un long prompt peut atteindre 20 000 jetons de raisonnement, soit $0.60 de sortie sur GPT-5.5 avant même la réponse visible. Budgétez par charge, pas par requête.
Surcharges pour longs contextes. Gemini 3.5 Flash et GPT-5.5 augmentent leurs tarifs au-delà d’un seuil de longueur de contexte. Des pipelines RAG qui incluent de grands documents peuvent faire basculer discrètement chaque requête dans la tranche supérieure sans que personne ne s’en aperçoive avant la facture. Mesurez la longueur réelle de vos prompts en production et vérifiez si vous franchissez le seuil.
Multiplicateurs liés à la localisation des données. Anthropic facture une majoration de 10 % pour l’inférence limitée aux États-Unis sur Opus 4.7 et Sonnet 4.6. OpenAI applique une majoration de 10 % sur les endpoints de résidence des données pour la famille GPT-5.4. Pour les charges régulées où cela compte, intégrez-le à la grille dès le premier jour.
Dérive de la verbosité de sortie. Lorsqu’une nouvelle version de modèle est plus exhaustive par défaut (comme Opus 4.7 le serait par rapport à Opus 4.6), le nombre de jetons de sortie par réponse peut augmenter même si la longueur de l’entrée reste constante. La sortie est facturée 5x plus cher que l’entrée chez Anthropic, donc une dérive de 20 % de la verbosité de sortie est une hausse de 20 % du principal poste de coût.
Requêtes échouées et retentées. La plupart des fournisseurs ne facturent pas les erreurs 4xx et 5xx, mais facturent les générations partielles et les retentatives qui aboutissent au second essai. Dans les systèmes de production avec logique de retentative active, cela peut ajouter quelques pourcents à la facture. Bon à savoir quand on rapproche les factures fournisseurs du coût attendu.

Où CometAPI s’inscrit

Ces quatre modèles, plus 500+ autres, sont disponibles via CometAPI sur un point de terminaison compatible OpenAI, avec une seule clé, une facturation unifiée, et sans configuration de compte par fournisseur. La tarification via CometAPI est mesurée par jeton aux mêmes tarifs par modèle que ceux publiés par les fournisseurs sous-jacents, avec des crédits achetés à l’avance et utilisables sur n’importe quel modèle du catalogue. La valeur d’un routage via CometAPI est opérationnelle plutôt qu’au jeton : une seule clé à gérer, une seule facture à rapprocher, et la possibilité de passer de GPT-5.5 à Claude Sonnet 4.6 puis à Gemini 3.5 Flash en changeant une seule chaîne dans votre code.

Il existe des charges où l’accès direct au fournisseur est le bon choix. Si vous exécutez une charge mono-modèle à très haut volume chez un seul fournisseur avec un contrat entreprise négocié, l’économie unitaire du direct est meilleure. Si votre posture de conformité nécessite une relation avec un fournisseur officiel spécifique, un agrégateur complique plutôt que de simplifier la discussion. Pour la majorité des équipes exploitant des charges multi-modèles en production, cependant, la friction opérationnelle de gérer trois ou quatre relations directes avec des fournisseurs est elle-même un coût non négligeable, que la grille tarifaire ne capture pas.

Testez la comparaison sur votre charge de travail. Le niveau gratuit de CometAPI vous permet d’exécuter le même prompt sur GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash et DeepSeek V4 depuis un seul endpoint, sans inscriptions séparées. Pour une décision de coût spécifique à une charge, cet exercice d’une heure vaut plus que n’importe quelle comparaison de prix jamais publiée.

Comment utiliser cette comparaison

Le bon modèle pour votre charge dépend de la dimension de la grille tarifaire qui compte le plus pour la forme de votre trafic. Un cadre décisionnel pratique :

**Si la profondeur de raisonnement est le goulot d’étranglement (**flux agentiques, planification multi-étapes complexe, les tâches de codage les plus difficiles), commencez par GPT-5.5 ou Claude Opus 4.7. La prime est réelle mais méritée sur ces charges.
Si vous voulez le meilleur ratio prix/capacité pour le trafic de production général, Claude Sonnet 4.6 est le choix par défaut recommandé. Capacités proches de la frontière, 1M de contexte complet aux tarifs standard, et solide prise en charge de la mise en cache.
Si vous êtes sensible aux coûts et que votre charge reste en dessous de 200K de contexte, Gemini 3.5 Flash est l’option crédible la moins chère de classe phare chez un grand fournisseur américain.
Si votre charge est à fort volume et dominée par le coût, et que la posture de résidence des données de DeepSeek vous convient, V4 change suffisamment l’équation des coûts pour valoir une évaluation sérieuse, en particulier pour des charges de type lots.

Vous voulez aller plus loin sur l’optimisation des coûts ? Les données de tarification ci-dessus sont la base du routage : la pratique consistant à envoyer différentes requêtes à différents modèles selon celui qui peut les traiter au moindre coût. L’article compagnon, Réduire de moitié les coûts des API LLM : guide de routage des modèles pour les charges de production en 2026, détaille les schémas de routage qui transforment cette grille en économies réelles sur votre facture mensuelle.