2026 年 LLM API 定價比較：GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash 和 DeepSeek V4

定價是在選擇前沿 LLM 時最具影響力的決策，同時也是已發布比較在一個季度內就會過時的維度。本文旨在直切重點。以下提供截至 2026 年覆蓋大多數生產級前沿模型流量的四個模型（OpenAI’s GPT-5.5、Anthropic’s Claude Sonnet 4.6、Google’s Gemini 3.5 Flash、以及 DeepSeek’s V4）之輸入與輸出 token 定價的最新、可溯源視圖，並說明在規模下能實質改變帳單的槓桿：提示快取、批次處理與長上下文附加費。

本文圍繞兩個問題構建。其一：在標價下，每個模型每百萬 tokens 的成本是多少？在實際驅動生產帳單的輸入與輸出維度上，報價如何比較？其二：當你套用一個具代表性的工作負載（每月 1 億 tokens，80% 輸入、20% 輸出，並具備合理的快取命中率）時，各模型的每月美元帳單是多少？第一個答案建立價目表；第二個答案告訴你當它接觸到真實的生產模式後，價目表會變成什麼。

快速閱讀： 橫跨四個前沿模型，標價大致跨越兩個數量級。DeepSeek V4 以每百萬輸入 tokens $0.435 為最便宜；Claude Opus 4.7 以 $5.00 為最昂貴。你的工作負載形狀，特別是快取命中率與輸入對輸出比，會改變哪個模型在實務上最便宜，且往往比價目表所暗示的差異更大。

為何同類對比的定價比較比想像更難

供應商的定價頁是為該供應商自身的客戶而寫，而不是為要將四個選項並排評估的人而寫。結果是，進行比較時會出現三個持續的陷阱：

不同供應商之間的 tokens 並不相同。 Claude Opus 4.7 隨附新的分詞器，對相同輸入文本可比 Opus 4.6 產生多達 35% 的 tokens。Gemini 的分詞器與 OpenAI 的不同。價目表是按每百萬 tokens 計價，但對相同提示詞，各供應商的 token 計數不同，意味著標題費率只是相對成本的第一近似。
長上下文分級定價會造成成本懸崖。 OpenAI 的 GPT-5.5 系列在約 270,000 tokens 位置有短上下文與長上下文的不同費率。相對地，Anthropic 在其完整 1M 上下文視窗內保持相同的每 token 費率。位於這些門檻附近的工作負載，其定價與位於門檻內側的工作負載非常不同。
折扣是可疊加，而非彼此獨立。 提示快取、批次處理，以及供應商特定的量階，都可以大幅降低有效成本，且這些折扣可以疊加。在 Anthropic 上，帶快取的批次請求成本最低可達標準非快取請求的 5%。忽略這些槓桿的定價比較會高估標價成本，有時高估一個數量級。

下方的比較在能標準化之處已進行，無法之處則明確標註。

2026 年前沿 LLM 定價比較

所有數字以每百萬 tokens 的美元計價。資料來源為各供應商截至 2026 年 5 月的官方定價文件。

模型	輸入	輸出	快取的輸入	批次（五折）	上下文視窗	長上下文附加費
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	是（~270K）
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	無
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	無
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	是（200K）
DeepSeek V4	$0.435	$0.87	$0.0028	未提供	384K	無

表格解讀： 「快取的輸入」指從提示快取提供的 tokens（通常是系統提示詞、few-shot 範例或在請求間重複出現的文件前綴）所支付的費率。「批次」為具備最長 24 小時延遲的非同步工作負載所支付的費率。「長上下文附加費」表示供應商是否會在超過某個上下文長度門檻後提高費率；對於會提高者，括號內為門檻。

各模型的優勢

GPT-5.5：針對高難度推理與 agentic 工作的最高能力預設選擇

GPT-5.5 是 OpenAI 面向複雜專業工作負載的前沿模型：程式碼代理、多步規劃、長時工具使用，以及以推理深度為主導需求的文件分析。它同時也是美系主要前沿模型中輸入最昂貴（每百萬 $5.00）且輸出最高（每百萬 $30.00）者，這意味著它的定位是在那些即便改用他款旗艦也得支付旗艦價、但更不可靠地解題的工作負載上贏得其價值。GPT-5.5 支援 90% 折扣的快取、50% 折扣的批次處理，且長上下文定價在約 270K tokens 處生效，這對非常長的程式碼庫或整個版本庫上下文相關，但對典型的 RAG 工作負載則不太相關。

Claude Sonnet 4.6：大多數生產流量的推薦預設

Sonnet 4.6 是 Anthropic 對大多數生產工作負載的推薦模型，原因在於其性價比。以每百萬 $3 的輸入、$15 的輸出計價，它在兩個費率上都低於 GPT-5.5，同時在主導大多數生產系統的工作負載上提供近 Opus 等級的品質：編碼、分析、RAG 管線、面向客戶的聊天，以及結構化輸出生成。Sonnet 的定價特徵在於完整 1M token 上下文以標準費率可用（無長上下文附加費），這讓其在偶爾需要攝入超長文件或整個版本庫的工作負載上成為最便宜且可信的選項。提示快取將快取的輸入降至標準的 10%，對於具穩定系統提示詞的任何工作負載而言至關重要。

Gemini 3.5 Flash：短上下文工作的定價最具競爭力之旗艦

Gemini 3.5 Flash 是美系主要供應商中原生 API 定價最便宜的旗艦級模型，每百萬 tokens 輸入 $1.50、輸出 $9.00。對大多數生產流量而言，這就是相關的定價層級，且明顯低於 GPT-5.5 與 Claude Opus 4.7。相較先前的 Flash 模型更高的價格，會在 token 密集的 agentic 情境中推高整體成本（5.5x Intelligence Index cost vs. Gemini 3 Flash due to pricing + usage).. Gemini 的另一個定價特徵是 Google AI Studio 中真正的免費層，對原型製作有用，但對生產成本模型並不相關。

DeepSeek V4：成本大幅更低，但有需理解的注意事項

DeepSeek V4 的標價為每百萬輸入 tokens $0.435、輸出 tokens $0.87，與美系前沿模型相比，便宜幅度介於五倍到七十倍之間，取決於對照對象。該模型本身在許多基準上具競爭力，尤其在推理與程式碼方面。需要明確說明的注意事項是：資料在中國境內處理，對某些受監管的工作負載而言不可接受；英文品質很強，但模型的優化方向與美系前沿模型不同，因此針對你具體工作負載的對比測試是必需而非可選。對於能接受這些注意事項的工作負載，DeepSeek 的確改變了成本方程式。

關於 Claude Opus 4.7 與 Sonnet 4.6 的說明。 將 Opus 納入表格是為了完整性，但對絕大多數生產流量而言，Sonnet 4.6 是更好的經濟選擇。Opus 在輸入與輸出上皆為 Sonnet 的 1.67 倍，而對 Sonnet 足以勝任的工作負載（也就是大多數情況），這個溢價沒有可抵銷的收益。當評估顯示 Sonnet 在特定任務類型上失誤時再選擇 Opus：高度自主的編碼代理、長週期的專業工作流程，以及那些在邊際上指令遵循能力決定成敗的任務。

實算範例：每月 1 億 tokens 的實際成本

每百萬 tokens 的標價在沒有接觸一個具代表性的工作負載前意義有限。下例使用一個近似非 trivially 規模生產系統的輪廓：每月總計 1 億 tokens，80% 輸入（8,000 萬）、20% 輸出（2,000 萬），輸入部分有 30% 的快取命中率。此模式大致代表具穩定系統提示詞與文件上下文的面向客戶聊天或 RAG 工作負載。

各模型的計算：快取的輸入成本 + 未快取的輸入成本 + 輸出成本。對提供快取的供應商，快取的輸入按標準的 10% 計費。

模型	快取的輸入（24M）	未快取的輸入（56M）	輸出（20M）	每月總帳單
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

這告訴你什麼。 在一個具代表性的工作負載上，Sonnet 4.6 的成本約為 GPT-5.5 的一半。DeepSeek 則處於完全不同的成本宇宙。以上為標價數字；在可用之處套用批次處理可進一步將輸入與輸出部分各減 50%（但不包括快取命中的部分）。

兩點可供延伸的觀察。其一：快取是你可控的單一最有影響力槓桿。上述範例假設 30% 的快取命中率；若將其提高到 60%（對具穩定系統提示詞的工作負載完全可達），總成本還會再下降約 25%。其二：輸入對輸出比非常重要。輸出占比較高的工作負載（摘要、長文生成）偏向輸出費率較低的供應商；輸入占比較高的工作負載（長上下文分析、大規模 RAG 擷取）則偏向輸入費率較低且無長上下文附加費的供應商。

定價頁上看不到的隱藏成本

標價是地板，不是天花板。還有五項成本值得明確編列預算，因為團隊從原型擴展到生產時常被它們驚訝到：

推理 tokens。 具擴展推理模式的模型（GPT-5.5 Thinking、DeepSeek V4 thinking mode）會生成計入輸出 tokens 的內部推理內容。一個對長提示詞的高強度推理呼叫可能產生 20,000 個推理 tokens，在 GPT-5.5 上光是這部分就要 $0.60，還沒包含可見回應。請按工作負載，而非按請求來做預算。
長上下文附加費。 Gemini 3.5 Flash 與 GPT-5.5 皆會在超過某個上下文長度門檻後提高費率。包含大型文件的 RAG 管線可能會悄悄把每個請求推到較高費率區間，直到帳單出現才有人注意。在生產中測量你的實際提示詞長度，並檢查是否跨越門檻。
資料駐留加成。 Anthropic 對 Opus 4.7 與 Sonnet 4.6 的 US-only 推理收取 10% 溢價。OpenAI 對 GPT-5.4 系列的資料駐留端點施加 10% 加成。對在意此事的受監管工作負載，從第一天起就將其納入價目表考量。
輸出冗長度漂移。 當新模型版本預設更為詳盡（據稱 Opus 4.7 相較 Opus 4.6 如此），即便輸入長度不變，每次回應的輸出 tokens 也可能逐步上升。在 Anthropic 線上，輸出單價是輸入的 5 倍，因此輸出冗長度增加 20%，就等同主導成本驅動因子增加 20%。
失敗與重試請求。 多數供應商不會對 4xx 與 5xx 錯誤計費，但會對部分生成與第二次嘗試成功的重試計費。在具有主動重試邏輯的生產系統中，這可能讓帳單增加數個百分點。當你對照供應商發票與預期成本時，值得留意。

CometAPI 的定位

上述四個模型，再加上 500+ 其他模型，均可透過 CometAPI 以單一、與 OpenAI 相容的端點取得，使用一組憑證、統一計費，且無需逐一設立供應商帳戶。CometAPI 的計價按 token 計量，採用各底層供應商對應模型的相同費率，並以預購點數的方式在目錄中的任何模型上抵扣。透過 CometAPI 的價值在於營運層面而非每 token：一組憑證可管理、單一發票可對帳，並可在程式碼中只改一個字串就從 GPT-5.5 換到 Claude Sonnet 4.6 或 Gemini 3.5 Flash。

也有工作負載情境下，直接使用供應商是正解。若你在單一供應商上以非常高的量運行單模型工作負載，且有經協商的企業合約，直接走供應商的單位經濟更好。若你的合規要求需要特定的 vendor-of-record 關係，聚合商會讓該討論更複雜而非更簡單。然而，對多數運行多模型生產工作負載的團隊而言，管理三到四個直接供應商關係的營運摩擦本身就是一項不在價目表上的實質成本。

在你的工作負載上試試這份比較。 CometAPI 的免費層讓你可在單一端點上對 GPT-5.5、Sonnet 4.6、Gemini 3.5 Flash 與 DeepSeek V4 執行相同提示詞，無需分別註冊。對於特定工作負載的成本決策而言，那一小時的實作價值勝過任何發表過的定價比較。

如何使用這份比較

對你的工作負載而言，正確的模型取決於在你的流量形狀中，價目表的哪個維度最重要。一個務實的決策框架：

若推理深度是瓶頸（agentic workflows、複雜的多步規劃、最困難的程式設計任務），請從 GPT-5.5 或 Claude Opus 4.7 開始。溢價是真實存在的，但在這些工作負載上物有所值。
若你追求一般生產流量的最佳性價比， Claude Sonnet 4.6 是推薦預設。近前沿的能力、完整 1M 上下文且無附加費，以及強大的快取支援。
若你對成本敏感且工作負載的上下文低於 200K， Gemini 3.5 Flash 是美系主要供應商中最便宜且具可信度的旗艦級選項。
若你的工作負載量大且由價格主導，且能接受 DeepSeek 的資料駐留立場， V4 在成本方程式上的改變足以值得認真評估，特別是對批次形態的工作負載。

想在成本優化上走得更遠？ 上述定價數據是路由的基礎：根據哪個模型能以最低成本完成任務，將不同查詢送往不同模型。配套文章 Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026 逐步講解如何將這份價目表轉化為每月帳單上的實際節省。