2026年のLLM APIの料金比較：GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash、DeepSeek V4

Pricing is the single most consequential decision in choosing a frontier LLM, and it is also the dimension where most published comparisons are out of date within a quarter. This article cuts through that. Below is a current, sourced view of input and output token pricing across the four models that account for the majority of production frontier-model traffic in 2026 (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash, and DeepSeek’s V4), together with the levers that meaningfully change your bill at scale: prompt caching, batch processing, and long-context surcharges.

The piece is built around two questions. First: at list price, what does each model cost per million tokens, and how do the quoted rates compare on the inputs and outputs that actually drive a production bill? Second: when you apply a representative workload (100 million tokens a month, 80% input and 20% output, with realistic cache hit rates), what is the monthly bill in dollars on each model? The first answer establishes the rate card; the second tells you what that rate card becomes once it touches a real production pattern.

要点: 4つのフロンティアモデル全体で、リスト価格はおよそ2桁のレンジにわたります。DeepSeek V4 は入力トークン100万あたり $0.435 が最安、Claude Opus 4.7 は $5.00 が最高です。実務的には、ワークロードの形（特にキャッシュヒット率と入力/出力比）が「実際にどのモデルが最安か」を変え、しばしば料金表が示す差以上の差を生みます。

なぜ「同条件での価格比較」は見た目以上に難しいのか

各社の料金ページはそのプロバイダの顧客向けに書かれており、4社を横並びで検討する人向けではありません。その結果、比較には次の3つの落とし穴がつきまといます。

プロバイダ間でトークンが同じではない。 Claude Opus 4.7 は新しいトークナイザを搭載し、同一テキストでも Opus 4.6 より最大35%多くのトークンを生成し得ます。Gemini のトークナイザは OpenAI のものと異なります。料金表は「100万トークンあたり」ですが、同一プロンプトのトークン数はプロバイダごとに異なるため、見出しの料金は相対コストの第一次近似にすぎません。
長コンテキストの価格階層は「コストの崖」を生む。 OpenAI の GPT-5.5 ファミリはおよそ 270,000 トークン前後で短コンテキスト/長コンテキストの別料金が適用されます。対照的に、Anthropic は 1M コンテキスト全域で同一のトークン単価です。しきい値付近にあるワークロードは、余裕をもってその内側に収まるワークロードとは価格が大きく異なります。
割引は「別々」ではなく「積み重ね」で効く。 プロンプトキャッシュ、バッチ処理、プロバイダ独自のボリューム階層はいずれも実効コストを大幅に下げ、しかも重ね掛け可能です。Anthropic のキャッシュ済みバッチリクエストは、標準の非キャッシュリクエストの 5% まで下がり得ます。これらのレバーを無視した比較はしばしばリスト価格を1桁以上過大評価します。

以下の比較は可能な範囲でこれらの落とし穴を正規化し、できない部分は明示的に注記します。

2026年フロンティア LLM 料金比較

すべて 100万トークンあたりの米ドル。2026年5月時点の各社公式ドキュメントに基づく。

Model	Input	Output	Cached input	Batch (50% off)	Context window	Long-context surcharge
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	あり（~270K）
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	なし
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	なし
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	あり（200K）
DeepSeek V4	$0.435	$0.87	$0.0028	提供なし	384K	なし

表の読み方: Cached input はプロンプトキャッシュから提供されたトークン（典型的にはシステムプロンプト、few-shot 例、リクエスト間で繰り返されるドキュメントのプレフィクス等）に対する単価です。Batch は最長24時間のレイテンシを許容する非同期ワークロードの単価です。Long-context surcharge は、コンテキスト長の閾値を超えると料金が上がるかどうかを示し、該当する場合はしきい値（括弧内）を記しています。

各モデルが強い領域

GPT-5.5: 困難な推論とエージェント的タスク向けの高性能デフォルト

GPT-5.5 は複雑なプロフェッショナル・ワークロード向けの OpenAI のフロンティアモデルです。コーディングエージェント、多段の計画、長時間のツール利用、推論の深さが支配的なドキュメント分析などに適しています。同時に、主要な米国フロンティアモデルの中では入力（$5.00/100万）と出力（$30.00/100万）が最も高価であり、別のモデルにフラッグシップ料金を払うよりも確実に問題を解く必要があるワークロードでこそ、その地位に値します。GPT-5.5 はキャッシュ適用で90%引き、バッチ処理で50%引きをサポートし、長コンテキスト料金はおよそ270Kトークン近辺で適用されます。これは非常に大きなコードベースやリポジトリ全体のコンテキストでは関係しますが、典型的な RAG ワークロードでは関係しません。

Claude Sonnet 4.6: 大半の本番トラフィックに推奨されるデフォルト

Sonnet 4.6 は大多数の本番ワークロードに対して Anthropic が推奨するモデルであり、その理由は価格対能力比にあります。入力 $3、出力 $15（いずれも100万トークンあたり）で、GPT-5.5 より両レートで低く、ほとんどの本番システムを占めるワークロード（コーディング、分析、RAG パイプライン、顧客向けチャット、構造化出力生成）で Opus に近い品質を提供します。価格面での特徴は、1M トークンのコンテキストウィンドウ全域が標準レート（長コンテキスト追加料金なし）で利用できる点であり、時折非常に長いドキュメントやリポジトリ全体を取り込む必要があるワークロードでは、最も安価な有力選択肢になります。プロンプトキャッシュによりキャッシュ入力は標準の10%となり、安定したシステムプロンプトを持つワークロードでは決定打になります。

Gemini 3.5 Flash: 短コンテキスト作業向けに最も攻めた価格のフラッグシップ

Gemini 3.5 Flash は主要な米国プロバイダの中で、生の API 価格が最も安いフラッグシップ級モデルで、入力 $1.50、出力 $9.00（いずれも100万トークンあたり）です。ほとんどの本番トラフィックではこの価格帯が relevant であり、GPT-5.5 と Claude Opus 4.7 の双方を実質的に下回ります。従来の Flash 系列より価格が高くなったため、トークン負荷の大きいエージェント的シナリオでは総コストが上昇します（価格と使用量の両面から、Gemini 3 Flash 対比で Intelligence Index コストが 5.5 倍）。Gemini のもう一つの特徴は Google AI Studio に真に無料のティアがあることですが、これはプロトタイピングには有用でも本番のコストモデルには関係しません。

DeepSeek V4: 劇的に安価だが理解すべき注意点あり

DeepSeek V4 の価格は入力 $0.435/100万、出力 $0.87/100万で、比較対象によっては米国フロンティアモデルより5〜70倍安価です。モデル自体は多くのベンチマーク、とりわけ推論とコードで競争力があります。注意点は明確にしておく価値があります。データは中国で処理されるため、規制が厳しい一部のワークロードでは選択肢になりえません。英語品質は高いものの、米国のフロンティアモデルとは最適化の方向性が異なるため、特定ワークロードでのA/Bテストは必須です。これらの注意点を受け入れられるワークロードでは、DeepSeek は本当にコスト構造を変えます。

Claude Opus 4.7 と Sonnet 4.6 に関する注記。 Opus は完全性のため表に含めていますが、大多数の本番トラフィックにおいては Sonnet 4.6 の方が経済的に優れています。Opus は入力・出力ともに Sonnet の 1.67 倍の価格で、Sonnet で十分な（ほとんどの）ワークロードでは、そのプレミアムに見合う便益がありません。Sonnet が特定のタスクで失敗することが評価で示されたときのみ Opus を選んでください。高自律のコーディングエージェント、長時間のプロフェッショナル・ワークフロー、微差の指示追従が決定的なタスクなどです。

事例: 月間1億トークンの実コスト

100万トークンあたりの見出し価格だけでは、代表的なワークロードに当てはめるまで大した意味はありません。以下の例は、非トリビアルな本番システムを近似したプロファイルを使います。月間合計1億トークン、入力80%（80M）、出力20%（20M）、入力部のキャッシュヒット率30%。これは、安定したシステムプロンプトとドキュメント文脈を持つ顧客向けチャットや RAG ワークロードの一般的なパターンです。

各モデルの計算式: キャッシュ入力コスト + 非キャッシュ入力コスト + 出力コスト。キャッシュ入力は、キャッシュを提供するプロバイダでは標準料金の10%で課金されます。

Model	Cached input (24M)	Uncached input (56M)	Output (20M)	Total monthly bill
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

これが示すこと。 代表的なワークロードでは、Sonnet 4.6 は GPT-5.5 の約半額です。DeepSeek はコスト面でまったく別世界です。これらはリスト価格の数字であり、適用可能な箇所にバッチ処理を適用すれば、入力と出力に対してさらに50%下がります（キャッシュヒット分は対象外）。

覚えておきたい2点。第一に、キャッシュはあなたが制御できるレバーの中で最もインパクトが大きいということ。上の例はキャッシュヒット率30%を仮定していますが、これを60%に上げる（安定したシステムプロンプトのワークロードなら十分達成可能）と、総コストはさらに約25%下がります。第二に、入力/出力比は非常に重要です。出力寄り（要約、長文生成）のワークロードは出力単価の安いプロバイダに分があります。一方、入力寄り（長コンテキスト分析、大規模 RAG 取得）は、入力単価が安く長コンテキスト追加料金のないプロバイダに分があります。

料金ページには載っていない隠れたコスト

リスト価格は下限であって上限ではありません。プロトタイプから本番にスケールする際にしばしばチームを驚かせる、明示的に予算化すべき追加コストを5つ挙げます。

Reasoning tokens. 拡張推論モード（GPT-5.5 Thinking、DeepSeek V4 thinking mode など）では、内部推論コンテンツが出力トークンとしてカウントされます。長いプロンプトに対する高負荷の推論コールは2万トークンの推論を生むことがあり、可視の応答を生成する前に GPT-5.5 では出力コスト $0.60 に相当します。リクエスト単位ではなくワークロード単位で予算化してください。
長コンテキストの追加料金。 Gemini 3.5 Flash と GPT-5.5 はコンテキスト長のしきい値を超えるとレートが上がります。大きなドキュメントを含む RAG パイプラインでは、誰も気づかないうちにすべてのリクエストが高い料金帯に押し上げられ、請求時に発覚することがあります。本番での実際のプロンプト長を計測し、しきい値を越えていないか確認してください。
データレジデンシの上乗せ。 Anthropic は Opus 4.7 と Sonnet 4.6 の米国内限定推論に10%のプレミアムを課します。OpenAI は GPT-5.4 ファミリのデータレジデンシエンドポイントで10%の上乗せを適用します。これが重要な規制ワークロードでは、初日から料金表に織り込んでください。
出力冗長化の漂流。 新しいモデルバージョンがデフォルトでより丁寧（Opus 4.7 は Opus 4.6 と比べその傾向があると報じられています）な場合、入力長が一定でも応答あたりの出力トークンがじわじわ増えます。Anthropic 系では出力は入力の5倍の価格であるため、出力冗長化が20%増えると支配的なコストドライバーがそのまま20%増えます。
失敗および再試行リクエスト。 多くのプロバイダは 4xx/5xx エラーに課金しませんが、部分生成や2回目で成功した再試行には課金します。再試行ロジックを有効にした本番システムでは、これが数%の上振れを生むことがあります。プロバイダの請求を期待コストと照合する際に知っておく価値があります。

CometAPI の位置づけ

これら4つのモデルに加え500以上のモデルが、CometAPI で OpenAI 互換の単一エンドポイントから、1つの資格情報、統合課金、プロバイダごとの個別アカウント設定なしで利用できます。CometAPI の料金は、基礎となる各プロバイダが公開するモデル単位のトークン課金と同一で、前払いのクレジットを購入し、カタログ内の任意のモデルで消費できます。CometAPI 経由の価値はトークン単価ではなく運用面にあります。管理する資格情報は1つ、照合する請求書も1つ、そしてコード中の1つの文字列を変更するだけで GPT-5.5 から Claude Sonnet 4.6、Gemini 3.5 Flash へと切り替えられます。

直契約が適切なケースもあります。単一モデルを特定のプロバイダで非常に大規模に回し、エンタープライズ契約を交渉している場合は、直契約の方がユニットエコノミクスで有利です。コンプライアンス上、特定のベンダー・オブ・レコード関係が必要な場合、アグリゲータは話を複雑にします。とはいえ、複数モデルを本番で運用する大多数のチームにとって、3〜4社と直接関係を管理する運用上の負担自体が料金表には現れない意味のあるコストです。

あなたのワークロードで比較を試してみてください。 CometAPI の無料ティアでは、別個のサインアップなしに単一エンドポイントから GPT-5.5、Sonnet 4.6、Gemini 3.5 Flash、DeepSeek V4 に対して同一プロンプトを実行できます。ワークロード固有のコスト判断には、その1時間の演習が、これまでに公開されたどの価格比較よりも価値があります。

この比較の使い方

あなたのワークロードに最適なモデルは、トラフィックの形に対して料金表のどの次元が最も重要かに依存します。実践的な意思決定フレームワークは次のとおりです。

If reasoning depth is the bottleneck (agentic workflows, complex multi-step planning, the hardest coding tasks), は GPT-5.5 か Claude Opus 4.7 から始めてください。これらのワークロードではプレミアムは実在し、支払う価値があります。
一般的な本番トラフィックで価格対能力比を最重視するなら、 Claude Sonnet 4.6 が推奨デフォルトです。フロンティア級に近い能力、1M コンテキストの標準料金提供、強力なキャッシュ対応。
コストに敏感で、ワークロードが 200K コンテキスト未満に収まるなら、 Gemini 3.5 Flash は主要米国プロバイダの中で最も安価な信頼できるフラッグシップ級オプションです。
ワークロードが高ボリュームで価格支配的、かつ DeepSeek のデータレジデンシ方針が許容できるなら、 V4 はコスト構造を大きく変えるため、特にバッチ型ワークロードで真剣に評価する価値があります。

コスト最適化をさらに進めたいですか？ 上の価格データはルーティング（どの問い合わせをどのモデルに送れば最も低コストで処理できるかに基づいて振り分ける実践）の土台です。姉妹編の Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026 では、この料金表を実際の月次請求の節約に変えるルーティング手法を解説しています。

2026年のLLM APIの料金比較：GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash、DeepSeek V4

なぜ「同条件での価格比較」は見た目以上に難しいのか

2026年フロンティア LLM 料金比較

各モデルが強い領域

GPT-5.5: 困難な推論とエージェント的タスク向けの高性能デフォルト

Claude Sonnet 4.6: 大半の本番トラフィックに推奨されるデフォルト

Gemini 3.5 Flash: 短コンテキスト作業向けに最も攻めた価格のフラッグシップ

DeepSeek V4: 劇的に安価だが理解すべき注意点あり

事例: 月間1億トークンの実コスト

料金ページには載っていない隠れたコスト

CometAPI の位置づけ

この比較の使い方

AI開発コストを20%削減する準備はできていますか？

もっと読む

2026年のLLM APIの料金比較：GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash、DeepSeek V4

なぜ「同条件での価格比較」は見た目以上に難しいのか

2026年 フロンティア LLM 料金比較

各モデルが強い領域

GPT-5.5: 困難な推論とエージェント的タスク向けの高性能デフォルト

Claude Sonnet 4.6: 大半の本番トラフィックに推奨されるデフォルト

Gemini 3.5 Flash: 短コンテキスト作業向けに最も攻めた価格のフラッグシップ

DeepSeek V4: 劇的に安価だが理解すべき注意点あり

事例: 月間1億トークンの実コスト

料金ページには載っていない隠れたコスト

CometAPI の位置づけ

この比較の使い方

AI開発コストを20%削減する準備はできていますか？

もっと読む

2026年フロンティア LLM 料金比較