2026 年 LLM API 定價比較:GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash 與 DeepSeek V4

CometAPI
AnnaMay 21, 2026
2026 年 LLM API 定價比較:GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash 與 DeepSeek V4

在選擇前沿 LLM 時,定價是影響最大的一項決策,而且這也是公開比較最容易在一季之內過時的維度。本文直指核心。下文提供截至 2026 年在生產前沿模型流量中占多數的四個模型(OpenAI 的 GPT-5.5、Anthropic 的 Claude Sonnet 4.6、Google 的 Gemini 3.5 Flash,以及 DeepSeek 的 V4)在輸入與輸出 token 上的最新、可溯源定價視圖,並同時說明在規模上會顯著改變你帳單的槓桿:提示快取、批次處理與長上下文附加費。

本文圍繞兩個問題構建。其一:按牌價計,每個模型每百萬 token 的成本是多少?在實際驅動生產帳單的輸入與輸出上,報價如何比較?其二:在一個具有代表性的工作負載下(每月 1 億個 token,80% 輸入與 20% 輸出,具備現實的快取命中率),各模型每月實際要花多少美元?第一個問題建立價格卡(rate card);第二個問題則告訴你,當它接觸到真實生產模式後,這張價格卡會變成什麼樣。

快速瀏覽: 在四個前沿模型中,牌價大致相差兩個數量級。DeepSeek V4 以每百萬輸入 token $0.435 最便宜;Claude Opus 4.7 以 $5.00 最昂貴。你的工作負載形態——特別是快取命中率與輸入對輸出的比例——會改變實際上最便宜的是哪個模型,而且常常比牌價所暗示的差異更大。

為何做出真正對等的定價比較沒有那麼容易

各家提供商的定價頁面是寫給其自家客戶看的,不是為了讓你把四個選項放在一塊比較。於是橫向比較時會出現三個持續性的陷阱:

  • 不同提供商的 token 並不相同。 Claude Opus 4.7 帶有新的分詞器(tokenizer),針對相同輸入文本可比 Opus 4.6 多產生最多 35% 的 token。Gemini 的分詞器也與 OpenAI 的不同。牌價是「每百萬 token」,但相同提示詞在不同提供商下的 token 計數不同,意味著標題價格只是相對成本的第一近似。
  • 長上下文定價級距會形成成本斷崖。 OpenAI 的 GPT-5.5 系列在約 270,000 token 處設有短上下文與長上下文的不同費率。相反地,Anthropic 在其完整的 1M 上下文視窗內採用相同每 token 費率。貼近這些門檻的工作負載,其定價與穩穩落在門檻之內的負載截然不同。
  • 折扣是可疊加的,而非彼此獨立。 提示快取、批次處理與提供商特定的用量級距都能大幅降低實際成本,且可以相互疊加。在 Anthropic 上,一個已快取的批次請求成本可低至標準非快取請求的 5%。忽略這些槓桿的比較會高估牌價,有時甚至一個數量級。

下文的比較在可行處對上述陷阱進行了規範化,無法規範化之處則明確標示。

2026 年前沿 LLM 定價比較

所有數據以美元/每百萬 token 計價。來源為截至 2026 年 5 月各提供商的官方定價文件。

ModelInputOutputCached inputBatch (50% off)Context windowLong-context surcharge
GPT-5.5$5.00$30.00$0.50$2.50 / $15.001M是(~270K)
Claude Sonnet 4.6$3.00$15.00$0.30$1.50 / $7.501M
Claude Opus 4.7$5.00$25.00$0.50$2.50 / $12.501M
Gemini 3.5 Flash$1.50$9.00$0.15$1.00 / $6.001M是(200K)
DeepSeek V4$0.435$0.87$0.0028未提供384K

閱讀此表: Cached input 指的是從提示快取中提供的 token(通常是系統提示、少量示例或在請求間重複出現的文檔前綴)所適用的費率。Batch 指的是對於可容忍最長 24 小時延遲的非同步工作負載所適用的費率。Long-context surcharge 表示提供商是否在超過某個上下文長度門檻後提高費率;對於會提高者,括號中給出門檻。

各模型的優勢所在

GPT-5.5:在艱深推理與代理式工作上的最高能力預設選擇

GPT-5.5 是 OpenAI 面向複雜專業工作負載的前沿模型:編碼代理、多步規劃、長時間工具調用,以及以推理深度為主導需求的文檔分析。它同時也是主要美國前沿模型中輸入最昂貴者(每百萬 $5.00)與輸出最高者(每百萬 $30.00),這意味著它在那些若改用其他旗艦也要支付旗艦價、但解決問題的可靠性更差的工作負載上贏得了其定位。GPT-5.5 支援快取(九折折讓至 10% 成本)、批次處理五折,且長上下文定價會在約 270K token 處生效——對極長代碼庫或整個倉庫級上下文相關,但對典型的 RAG 工作負載則未必。

Claude Sonnet 4.6:大多數生產流量的推薦預設

Sonnet 4.6 是 Anthropic 對多數生產工作負載的推薦模型,關鍵在於其性價比。以每百萬 token 輸入 $3、輸出 $15 的價格,它在兩項費率上均低於 GPT-5.5,同時在主導大多數生產系統的工作負載上提供接近 Opus 的品質:編碼、分析、RAG 流水線、面向客戶的聊天,以及結構化輸出生成。Sonnet 在定價上的區別在於其完整 1M token 上下文視窗均以標準費率提供(沒有長上下文附加費),這使它成為那些偶爾需要引入極長文檔或整個代碼庫的工作負載中最便宜且可信的選擇。提示快取可將已快取輸入降至標準的 10%,對任何擁有穩定系統提示的工作負載而言都極具決定性。

Gemini 3.5 Flash:短上下文工作中定價最具進攻性的旗艦

Gemini 3.5 Flash 在原始 API 定價上是主要美國提供商中最便宜的旗艦級模型,每百萬 token 輸入 $1.50、輸出 $9.00。對於大多數生產流量而言,這就是相關的定價級距,且明顯低於 GPT-5.5 與 Claude Opus 4.7。相較於先前的 Flash 模型,更高的價格會在 token 密集的代理式場景中推升整體成本(相較 Gemini 3 Flash,因定價與用量綜合導致 Intelligence Index 成本為 5.5 倍)。Gemini 的另一個區別在於 Google AI Studio 中確實存在的免費層,這對原型開發有用,但與生產級成本模型不直接相關。

DeepSeek V4:成本劇降,但有必要理解的注意事項

DeepSeek V4 的牌價為每百萬輸入 token $0.435、輸出 token $0.87,視比較對象不同,這比美國前沿模型便宜五到七十倍。該模型本身在多項基準測試上具有競爭力,尤其是推理與代碼。值得明確的注意事項包括:數據於中國處理,對某些受監管工作負載而言不可接受;英文品質很強,但模型的優化方向與美國前沿模型不同,因此針對你的特定工作負載進行正面測試是必需而非可選。對於這些注意事項可接受的工作負載,DeepSeek 的確會改變成本方程。

關於 Claude Opus 4.7 與 Sonnet 4.6 的說明。 將 Opus 列入表格是為了完整性,但對絕大多數生產流量而言,Sonnet 4.6 是更好的經濟選擇。Opus 在輸入與輸出上均為 Sonnet 的 1.67 倍;對於 Sonnet 足以勝任的工作負載(大多數情況),這一溢價沒有可抵消的收益。當評估顯示 Sonnet 在特定任務類別上失誤時再考慮 Opus:高度自主的編碼代理、長周期的專業工作流程,以及在邊界上嚴格遵循指令決定勝負的任務。

範例演算:每月 1 億個 token 的實際成本

每百萬 token 的標價直到接觸到具有代表性的工作負載才有意義。下列示例使用一個近似非平凡生產系統的輪廓:每月總計 1 億個 token,其中輸入 80%(8,000 萬),輸出 20%(2,000 萬),輸入部分有 30% 的快取命中率。此模式大致代表具有穩定系統提示與文檔上下文的面向客戶聊天或 RAG 工作負載。

各模型的計算:已快取輸入成本 + 未快取輸入成本 + 輸出成本。對提供快取機制的提供商而言,已快取輸入按標準費率的 10% 計費。

ModelCached input (24M)Uncached input (56M)Output (20M)Total monthly bill
GPT-5.5$12.00$280.00$600.00$892.00
Claude Sonnet 4.6$7.20$168.00$300.00$475.20
Claude Opus 4.7$12.00$280.00$500.00$792.00

這意味著什麼。 在一個具有代表性的工作負載上,Sonnet 4.6 的成本約為 GPT-5.5 的一半。DeepSeek 則在完全不同的成本宇宙中。上述為牌價數字;在符合條件之處套用批次處理,可將輸入與輸出的各自總額再減少 50%(但不適用於快取命中的部分)。

有兩個值得記住的觀察。其一:快取是你可控的影響最大槓桿。上例假設 30% 的快取命中率;若提升至 60%(對擁有穩定系統提示的工作負載完全可達),總成本大約還可再降 25%。其二:輸入對輸出的比例影響很大。輸出密集的工作負載(摘要、長篇寫作)偏向於選擇輸出費率更便宜的提供商;輸入密集的工作負載(長上下文分析、大規模 RAG 檢索)則偏向於選擇輸入費率更低且沒有長上下文附加費的提供商。

價格頁面看不到的隱性成本

牌價是地板,不是天花板。還有五項成本值得明確預算,因為從原型擴展到生產時它們經常讓團隊意外:

  1. 推理 token。 具有擴展推理模式的模型(如 GPT-5.5 Thinking、DeepSeek V4 thinking mode)會生成計入輸出 token 的內部推理內容。針對一個長提示的高強度推理調用,其推理 token 可達 20,000——在 GPT-5.5 上,僅此就相當於 $0.60 的輸出成本,且在產生可見回應之前就已發生。請按工作負載而非請求次數來做預算。
  2. 長上下文附加費。 Gemini 3.5 Flash 與 GPT-5.5 都會在超過某一上下文長度門檻後提高費率。包含大文檔的 RAG 流水線可能會悄然讓每個請求都跨入更高級距,直到帳單出來才被注意。請在生產中衡量實際提示長度,並檢查是否跨過門檻。
  3. 資料駐留加價。 Anthropic 對 Opus 4.7 與 Sonnet 4.6 的「僅限美國」推理收取 10% 溢價。OpenAI 對 GPT-5.4 系列的資料駐留端點加收 10%。對於要求嚴格合規的工作負載,請從第一天起就將其納入價格卡。
  4. 輸出冗長度漂移。 當新模型版本預設更為詳盡(據稱 Opus 4.7 相較於 Opus 4.6 即是如此)時,即使輸入長度不變,每次回應的輸出 token 也可能逐步增加。在 Anthropic 的定價線上,輸出的定價是輸入的 5 倍,因此輸出冗長度上升 20%,就會導致主導成本因子增加 20%。
  5. 失敗與重試的請求。 大多數提供商不會對 4xx 與 5xx 錯誤計費,但會對部分生成與第二次重試成功的請求計費。在具有主動重試邏輯的生產系統中,這可能讓帳單增加幾個百分點。當對照提供商發票與預期成本時要知道這點。

CometAPI 的定位

這四個模型,加上 500+ 其他模型,都可透過單一的 CometAPI 以相容 OpenAI 的端點取得,使用一組憑證、統一計費,且無需逐一設置各提供商帳戶。CometAPI 的計費以 token 為單位,按底層提供商公布的每模型相同費率計量,並以預先購買的點數套用到目錄中的任何模型。通過 CometAPI 的價值在於運營層面而非每 token 成本:只需管理一組憑證、對應一張發票,並且只需在代碼中改一個字串就能在 GPT-5.5、Claude Sonnet 4.6 與 Gemini 3.5 Flash 之間切換。

也有適合直接使用提供商的情境。如果你在單一提供商上以非常大的規模運行單模型工作負載,並簽有企業合約,那麼直接接入的單位經濟性更佳。如果你的合規立場要求特定的記名供應商關係,使用聚合器會讓那場對話更複雜而非更簡單。不過,對多數運行多模型生產工作負載的團隊而言,管理三到四個直接提供商關係本身就是一項不容忽視的成本,而這並不在價格卡上呈現。

在你的工作負載上試試這份比較。 CometAPI 的免費層允許你從單一端點對 GPT-5.5、Sonnet 4.6、Gemini 3.5 Flash 與 DeepSeek V4 運行相同提示,且無需分別註冊。對於工作負載特定的成本決策而言,那一小時的實測價值勝過任何已發布的定價比較。

如何使用這份比較

適合你工作負載的正確模型取決於在你的流量形態中,價格卡的哪個維度最重要。以下是一個實用的決策框架:

  • **如果推理深度是瓶頸(**代理式工作流程、複雜的多步規劃、最困難的編碼任務),請從 GPT-5.5 或 Claude Opus 4.7 開始。這種溢價是真實存在的,但在這些工作負載上是值得的。
  • **如果你想在一般生產流量中獲得最佳性價比,**Claude Sonnet 4.6 是推薦預設。接近前沿的能力、完整 1M 上下文按標準費率、並具備強大的快取支援。
  • **如果你對成本敏感且工作負載低於 200K 上下文,**Gemini 3.5 Flash 是主要美國提供商中最便宜、且可信的旗艦級選項。
  • **如果你的工作負載是高流量且由價格主導,且 DeepSeek 的資料駐留姿態可接受,**V4 足以大幅改變成本方程,特別是在批次型工作負載中值得嚴肅評估。

還想在成本優化上更進一步? 上述定價數據是路由(routing)的基礎:根據哪個模型能以最低成本處理請求,將不同查詢分派到不同模型的做法。配套文章 將 LLM API 成本減半:2026 年生產工作負載的模型路由指南 會講解如何把這張價格卡轉化為你每月帳單上的實際節省。

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多