2026年のLLM API料金比較:GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash と DeepSeek V4

CometAPI
AnnaMay 21, 2026
2026年のLLM API料金比較:GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash と DeepSeek V4

価格設定はフロンティアモデルを選ぶうえで最も影響の大きい意思決定であり、また四半期以内に多くの公開比較が陳腐化する領域でもあります。本稿はその混乱を解消します。以下では、2026年の本番環境におけるフロンティアモデルのトラフィックの大半を占める4つのモデル(OpenAIのGPT-5.5、AnthropicのClaude Sonnet 4.6、GoogleのGemini 3.5 Flash、DeepSeekのV4)について、入出力トークンの最新かつ出典に基づく料金を提示し、請求額をスケールで有意に変えるレバー(プロンプトキャッシュ、バッチ処理、長コンテキストの追加料金)も併記します。

本稿は2つの問いを核に構成されています。第一に、公示価格で各モデルの100万トークン当たりのコストはいくらで、実際に本番の請求を左右する入力と出力の料金はどう比較できるのか。第二に、代表的なワークロード(1カ月100万トークン、入力80%・出力20%、現実的なキャッシュヒット率)を適用したとき、各モデルの月額請求はドルでいくらになるのか。前者は標準料金表を確立し、後者はそれが実運用パターンに適用された際にどう変わるかを示します。

クイックリード: 4つのフロンティアモデルにわたる公示価格は、おおよそ2桁の幅に及びます。DeepSeek V4は100万入力トークンあたり$0.435で最安、Claude Opus 4.7は$5.00で最も高価です。ワークロードの特性、特にキャッシュヒット率と入力対出力比が、実際にどのモデルが最も安価かを変え、しばしば料金表が示す以上に差が生じます。

同条件での価格比較が見かけ以上に難しい理由

各社の価格ページは自社顧客向けに書かれており、4つの選択肢を横並びで評価する人向けではありません。その結果、比較には次の3つの恒常的な落とし穴が生じます。

  • トークンはプロバイダー間で同一ではない。 Claude Opus 4.7は新しいトークナイザーを搭載し、同一入力テキストに対してOpus 4.6より最大35%多くのトークンを生成し得ます。GeminiのトークナイザーはOpenAIのものと異なります。料金表は100万トークン当たりですが、同一プロンプトのトークン数はプロバイダー間で変わるため、見出しの単価は相対的コストの第一近似に過ぎません。
  • 長コンテキストの料金階層はコストの崖を生む。 OpenAIのGPT-5.5ファミリーは約270,000トークン付近で短コンテキストと長コンテキストの料金が分かれます。対照的にAnthropicは1Mのコンテキストウィンドウ全域でトークン単価が一定です。これらの閾値付近にあるワークロードは、閾値より十分下にあるワークロードとはまったく異なる価格になります。
  • 割引は独立ではなく積み重なる。 プロンプトキャッシュ、バッチ処理、プロバイダー固有のボリュームティアはそれぞれ実効コストを大きく下げ、しかも重複適用されます。Anthropicのキャッシュ済みバッチリクエストは、非キャッシュ標準リクエストの5%まで下がり得ます。これらのレバーを無視した比較は、公示価格を過大に評価し、場合によっては1桁分見誤ります。

以下の比較では、可能な範囲でこれらの落とし穴を正規化し、できない箇所は明示的に警告します。

2026年のフロンティアモデル価格比較

すべての数値は米ドル建ての100万トークン当たり。2026年5月時点の各社公式価格情報に基づく。

ModelInputOutputCached inputBatch (50% off)Context windowLong-context surcharge
GPT-5.5$5.00$30.00$0.50$2.50 / $15.001Mあり (~270K)
Claude Sonnet 4.6$3.00$15.00$0.30$1.50 / $7.501Mなし
Claude Opus 4.7$5.00$25.00$0.50$2.50 / $12.501Mなし
Gemini 3.5 Flash$1.50$9.00$0.15$1.00 / $6.001Mあり (200K)
DeepSeek V4$0.435$0.87$0.0028提供なし384Kなし

表の読み方: Cached inputはプロンプトキャッシュから提供されるトークン(通常、システムプロンプト、少数例、またはリクエスト間で繰り返し登場する文書の接頭部分)に対する料金です。Batchは最大24時間の遅延を許容する非同期ワークロードに対する料金です。Long-context surchargeは、コンテキスト長の閾値を超えた際に料金が上がるかどうかを示します。該当する場合、閾値を括弧内に示します。

それぞれのモデルが強みを発揮する場面

GPT-5.5: 困難な推論とエージェント的作業における最高能力のデフォルト

GPT-5.5は複雑なプロフェッショナルなワークロード向けのOpenAIのフロンティアモデルです。コーディングエージェント、多段階計画、長時間のツール利用、推論の深さが主要要件となる文書分析などが該当します。入力(100万トークンあたり$5.00)・出力($30.00)の両方で主要な米国フロンティアモデルの中で最も高価であるため、他モデルにフラッグシップ料金を支払いながらも問題解決の確度が低いケースに比べ、このモデルが選ばれるのはそうしたワークロードにおいて信頼性で優位に立つためです。キャッシュは90%割引、バッチ処理は50%オフに対応し、長コンテキスト料金は約27万トークン付近で適用されます。これは非常に大規模なコードベースやリポジトリ全体のコンテキストでは関係しますが、一般的なRAGワークロードでは関係しません。

Claude Sonnet 4.6: 本番トラフィックの大半に推奨されるデフォルト

Sonnet 4.6は大多数の本番ワークロードに推奨されるAnthropicのモデルで、その価格対能力比が理由です。入力$3、出力$15(いずれも100万トークン当たり)で、GPT-5.5より安価でありながら、多くの本番システムで主流のワークロード(コーディング、分析、RAGパイプライン、顧客対応チャット、構造化出力生成)でOpusに近い品質を発揮します。価格面の特筆点は、100万トークンのコンテキストウィンドウ全域が標準料金で利用可能(長コンテキストの追加料金なし)なことです。プロンプトキャッシュによりキャッシュ済み入力は標準の10%まで下がり、安定したシステムプロンプトを持つワークロードでは決定的に効きます。

Gemini 3.5 Flash: 短コンテキスト作業で最も攻めた価格設定のフラッグシップ

Gemini 3.5 Flashは純粋なAPI料金では主要米国プロバイダーのフラッグシップ級モデルの中で最も安価で、入力$1.50・出力$9.00(いずれも100万トークン当たり)です。多くの本番トラフィックではこの料金ティアが該当し、GPT-5.5やClaude Opus 4.7を実質的に下回ります。旧Flashモデルより高い価格により、トークン集約型のエージェントシナリオでは全体コストが増加(価格と使用量の影響により、Gemini 3 Flash比でインテリジェンス・インデックス費用が5.5倍).. Geminiのもう一つの特筆点はGoogle AI Studioにおける真に無料のティアですが、プロトタイピングには有用でも本番のコストモデルには関係しません。

DeepSeek V4: 極めて安価だが理解すべき但し書きあり

DeepSeek V4の公示価格は入力100万トークンあたり$0.435、出力$0.87で、比較対象によっては米国のフロンティアモデルに比べ5〜70倍安価です。モデル自体は多くのベンチマーク、特に推論とコードで競争力があります。ただし明示しておくべき但し書きがあります。データは中国で処理されるため、規制のあるワークロードでは最初から選択肢にならない場合があります。英語の品質は高いものの、米国フロンティアモデルとは最適化の方向性が異なるため、特定のワークロードでは直接比較テストが必須です。これらの但し書きが許容できるワークロードでは、DeepSeekは本当にコスト構造を変えてしまいます。

Claude Opus 4.7とSonnet 4.6に関する注記。 表には完全を期すためOpusを含めていますが、本番トラフィックの大半ではSonnet 4.6が経済的により適切な選択です。Opusは入力・出力ともにSonnetの1.67倍のコストであり、Sonnetで十分なワークロード(ほとんどが該当)では、その上乗せ料金に相殺される利点はありません。評価でSonnetが特定のタスク(高度に自律的なコーディングエージェント、長期的な専門ワークフロー、微妙な指示遵守が決定的となるタスク)で失敗する場合にのみOpusを選びましょう。

具体例: 月間1億トークンの場合の真のコスト

見出しの単価は、代表的なワークロードに当てはめるまで意味が薄いものです。以下の例は、ある程度複雑な本番システムを近似しています。月間合計1億トークン、内訳は入力80%(8000万)・出力20%(2000万)、入力側のキャッシュヒット率は30%。これは安定したシステムプロンプトと文書コンテキストを持つ顧客対応チャットやRAGワークロードの一般的なパターンです。

各モデルの計算方法: キャッシュ済み入力コスト + 非キャッシュ入力コスト + 出力コスト。キャッシュを提供するプロバイダーでは、キャッシュ済み入力は標準の10%で計上されます。

ModelCached input (24M)Uncached input (56M)Output (20M)Total monthly bill
GPT-5.5$12.00$280.00$600.00$892.00
Claude Sonnet 4.6$7.20$168.00$300.00$475.20
Claude Opus 4.7$12.00$280.00$500.00$792.00

これが示すもの。 代表的なワークロードでは、Sonnet 4.6はGPT-5.5のほぼ半額です。DeepSeekはコスト次元がまったく別です。これらは公示価格の試算であり、バッチ処理を適用すると入力と出力の合計がさらに50%削減されます(キャッシュヒットは対象外)。

今後に引き継ぐべき所見が2点あります。第一に、キャッシュはコントロール可能なレバーの中で最も影響が大きいということ。上の例ではキャッシュヒット率を30%と仮定していますが、これを60%に上げる(安定したシステムプロンプトを持つワークロードでは十分達成可能)と、総コストはさらに約25%低下します。第二に、入力対出力比の影響は大きいということ。出力中心(要約、長文ライティング)のワークロードは出力単価の低いプロバイダーに有利に働き、入力中心(長コンテキスト分析、大規模RAGの取得)のワークロードは入力単価が低く、長コンテキストの追加料金がないプロバイダーに有利です。

価格ページに載っていない隠れたコスト

公示価格は下限であって上限ではありません。試作から本番へスケールする際によくチームを驚かせる、明示的に予算化すべき追加コストが5つあります。

  1. 推論トークン。 拡張推論モード(GPT-5.5 Thinking、DeepSeek V4 thinking mode)は、出力トークンとして計上される内部推論コンテンツを生成します。長いプロンプトに対する高負荷の推論呼び出し1回で推論トークンが2万に達することがあり、可視の応答が生成される前にGPT-5.5では$0.60の出力コストになります。予算はリクエスト単位ではなくワークロード単位で見積もりましょう。
  2. 長コンテキストの追加料金。 Gemini 3.5 FlashとGPT-5.5は、コンテキスト長の閾値を超えると料金が上がります。大規模文書を含むRAGパイプラインは、知らぬ間にすべてのリクエストを高額帯へ押し上げる可能性があります。本番での実際のプロンプト長を測定し、閾値を超えていないか確認しましょう。
  3. データレジデンシの上乗せ。 AnthropicはOpus 4.7とSonnet 4.6で米国限定推論に10%の上乗せを課します。OpenAIはGPT-5.4ファミリーのデータレジデンシエンドポイントで10%の上乗せを適用します。これが重要な規制ワークロードでは、初期から料金表に織り込んでおきましょう。
  4. 出力の冗長性ドリフト。 新しいモデルバージョンが既定でより詳細になると(報告ではOpus 4.7はOpus 4.6よりその傾向がある)、入力長が一定でもレスポンス当たりの出力トークンがじわりと増えます。Anthropic系では出力は入力の5倍の単価なので、出力の冗長性が20%増えると、主要なコストドライバーが20%増加します。
  5. 失敗と再試行のリクエスト。 多くのプロバイダーは4xxや5xxエラーに課金しませんが、部分生成や再試行で2回目に成功した分には課金します。再試行ロジックが有効な本番システムでは、これが請求額に数パーセント上乗せされることがあります。プロバイダーの請求書と予想コストを照合する際に知っておきましょう。

CometAPIの位置づけ

これら4つのモデルに加え500以上のモデルが、CometAPIで単一のOpenAI互換エンドポイントから利用でき、認証情報は1つ、請求は統合され、プロバイダーごとのアカウント設定も不要です。CometAPIの料金は、基盤プロバイダーが公開する各モデルの単価と同じトークン単位のメータ課金で、クレジットは前払いで購入し、カタログ内の任意のモデルに跨って適用されます。CometAPI経由の価値はトークン単価ではなく運用面にあります。管理する認証情報が1つ、照合する請求書が1つで済み、コード中の文字列を1つ差し替えるだけでGPT-5.5からClaude Sonnet 4.6、Gemini 3.5 Flashへと切り替えられます。

直接プロバイダーアクセスが適切なワークロードもあります。特定のプロバイダーで単一モデルの超高ボリュームを運用し、企業契約を交渉済みの場合は、直接契約のユニットエコノミクスの方が有利です。コンプライアンス上、特定の記録上のベンダー関係が必要な場合は、アグリゲーターはその議論を単純化するどころか複雑化させます。ただし複数モデルの本番ワークロードを運用する多数のチームにとっては、3〜4社の直接関係を管理する運用の摩擦自体が意味のあるコストであり、料金表には現れません。

自分のワークロードで比較を試す。 CometAPIの無料ティアを使えば、単一のエンドポイントからGPT-5.5、Sonnet 4.6、Gemini 3.5 Flash、DeepSeek V4に同じプロンプトを投げられ、個別の登録は不要です。ワークロード固有のコスト判断において、その1時間の実験は過去に公開されたあらゆる価格比較より価値があります。

この比較の活用方法

適切なモデルは、レートカードのどの次元がトラフィックの形状に最も重要かによって決まります。実践的な意思決定フレームワーク:

  • 推論の深さがボトルネック(agentic ワークフロー、複雑な多段階計画、最難度のコーディングタスク)の場合は、GPT-5.5またはClaude Opus 4.7から始める。プレミアムは現実だが、これらのワークロードではそれに見合う。
  • 一般的な本番トラフィックにおける価格対能力比を最重視するなら、 Claude Sonnet 4.6が推奨デフォルト。フロンティア級に近い能力、100万コンテキストの標準料金、強力なキャッシュ対応。
  • コスト重視でワークロードが20万トークン未満のコンテキストに収まるなら、 Gemini 3.5 Flashは主要米国プロバイダーのフラッグシップ級として最も安価で信頼できる選択肢。
  • ワークロードが高ボリュームでコストが支配的であり、DeepSeekのデータレジデンシ方針が許容可能なら、 V4はコスト構造を大きく変える。特にバッチ型ワークロードでは真剣な評価に値する。

コスト最適化をさらに進めたい場合? 上記の価格データはルーティング(どの問い合わせをどのモデルに送れば最も低コストで処理できるかを選択する実践)の基盤です。併載記事『LLM APIコストを半減する:2026年本番ワークロード向けモデルルーティングガイド』では、このレートカードを月次請求の実際の節約へと転換するルーティングパターンを解説します。

AI開発コストを20%削減する準備はできていますか?

数分で無料スタート。無料トライアルクレジット付き。クレジットカード不要。

もっと読む