GPT-5 有多少參數？以下是我們實際發現的結果

在 Google 輸入 "GPT-5 parameters"，你會被互相矛盾的數字淹沒。2 兆？5 兆？令人目眩神迷的 52.5 兆？我們花了三週來分析答案——這樣你就不用。

GPT-5 於 2025 年 8 月 7 日發佈，堪稱自 GPT-4 以來 OpenAI 最大的版本。然而與以往不同，這一代的內部細節被刻意保持不透明。在歷經三週對 API 延遲模式的分析、將基準測試分數與已知規模的模型交叉比對、並諮詢在大規模環境下壓力測試 GPT-5 的工程師後，以下是我們真正有把握的結論——以及業界仍在猜測的部分。

GPT-5 有多少參數

AI 產業裡最公開的祕密：沒人真的知道 GPT-5 有多大。

Reddit 貼文自信地引述 52.5 兆參數。來自 SemiCon Taiwan 的三星簡報外洩稱為 3–5 兆。產業分析師則保守地說「預估 2–5T 範圍」。OpenAI 的官方文件？故意保持沉默。記者追問時，他們的開發者關係團隊禮貌地表示：「基於競爭理由，我們不披露架構細節。」

所以我們做了：自己動手分析。

[FULL DISCLOSURE: What follows is investigative analysis, not confirmed fact. OpenAI has not verified any parameter counts for GPT-5. We’ve synthesized findings from benchmark databases, leaked hardware specs, API performance patterns, and interviews with ML engineers running GPT-5 in production. Treat our conclusions as informed detective work, not gospel truth.]

為何「52.5 兆參數」在技術上可行、在實務上卻意義不大

想像一下：你雇用 100 位專家顧問，但每個專案只付其中 4 位的費用。你的組織架構圖列出 100 名員工。你的財務部只為 4 人開帳單。哪個數字可定義你的公司規模？

兩者都算。也都不算。歡迎來到 Mixture of Experts 悖論。

「52.5T」指的是 Mixture-of-Experts（MoE）架構中的總參數容量，而非「被啟用」的參數。可以把它想像成你的圖書館總館藏與你針對某個研究問題實際翻閱的 3–5 本書之別。完整目錄影響能力上限；被啟用的子集決定成本。

決定性線索：GPT-OSS 揭示了 OpenAI 的 MoE 策略

OpenAI 不小心露了底。

GPT-OSS-120b 擁有 1170 億總參數，但每次查詢僅有 51 億參數被啟用。這是 23:1 的「館藏對實際查閱」比例。

把這個比例往前套算。如果 GPT-5 每次請求啟用 2–5 兆參數（產業共識估計），且採用類似的 MoE 比例，總參數容量可能達到 46–115 兆。

突然之間，52.5T 不再像網路傳聞——更像是有人洩漏了「總專家池規模」，而其他人報的是「啟用參數」。同一模型，不同量測口徑，標題差很大。

這種架構轉變為何改變一切

MoE 架構讓模型在預訓練期間大幅降低計算成本，並在推理時達成更快的效能。對任何在 GPT-5 上打造產品的人來說，這不只是學術問題——它改寫了經濟學：

傳統稠密模型的成本：

每個查詢都命中全部 175B 參數（GPT-3 風格）
線性擴張：參數 10 倍＝計算 10 倍＝價格 10 倍
定價簡單，可預測但昂貴

MoE 如何改變計算方式：

一個路由器會根據對話類型、複雜度與使用者意圖，決定啟用哪些專家

50T 的總容量，帳單可能只計 2T 的啟用參數
能力龐大、成本分攤——但價格變得與提示詞相關

實證：

啟用延伸推理的 GPT-5 相較於類似模型，使用少 50–80% 的 token。那不只是壓縮——而是更聰明的路由，避免不必要的專家啟用。

代價？ 你的提示工程會直接影響哪些專家被喚醒。要求「快速分類」可能啟用輕量專家。請求「仔細思考這個多步驟證明」則可能喚起重度推理叢集。同一模型，成本可差 3–5 倍。

重點： 在評估 GPT-5 定價時，別再看參數總數。用你的實際提示測量 token 消耗——MoE 讓理論規格對成本預測幾乎無用。

產業分析師如何逆向推導 OpenAI 不公開的資訊

既然 OpenAI 不發佈規格，研究者發展出鑑識式的方法來估算模型大小。想像是給神經網路做 CSI。

方法一：基準表現回歸

分析師透過將表現與已知規模的模型比對，使用排行榜資料做統計回歸，來估計參數。

流程：抓取像 Artificial Analysis、Chatbot Arena、HumanEval 等平台的分數。把已知模型（Llama 3 405B、Claude Sonnet 等）放在「表現 vs 參數」圖上。將 GPT-5 的基準分數帶入回歸曲線，會落在 2–5T 的叢集。

可信度：中等。 假設擴展定律成立，但在架構創新下未必可靠。

方法二：硬體鑑識

三星在 SemiCon Taiwan 的分析估計 GPT-5 有 3–5T 參數，訓練於 7,000× NVIDIA B100 GPU 上

當硬體夥伴流出訓練叢集規格，ML 工程師會反推：

NVIDIA B100 記憶體容量：已知
訓練時間估計：在產業管道外流
參數數量＝f(GPU-months、記憶體頻寬、訓練效率)

此法得到「3–5T」的估計，並成為產業共識。

可信度：對啟用參數為高。 三星沒有捏造動機，而且計算可對上。

方法三：API 效能指紋

這招就巧妙了。模型架構會留下效能指紋：

GPT-5 輸出 87.4 tokens/second，首個 token 時間 84.78s

延遲模式暗示 MoE 路由開銷（稠密模型的首 token 較快）
token 吞吐量會根據已知模型，與啟用參數數互相對應

在生產環境運行的工程師會執著追蹤這些指標。與開源模型公開規格交叉比對，即可逆向推導出大致架構。

可信度：架構類型中等、精確規格低。 效能受參數之外的多種因素影響。

方法四：群體智慧

多個獨立分析一致時，信心上升。現況如下：

三星外洩： 3–5T 參數
統計擴展定律： 2–5T 範圍
R-bloggers 社群分析： 最低約 2T，基於能力需求
Encord 技術拆解： 採用 MoE 架構，總參數容量達多兆級

產業共識將 GPT-5 定位在採用 MoE 架構、啟用參數 2–5 兆之間。不是因為某一來源權威，而是因為多種方法相互印證。

可信度光譜

坦白說，我們真正知道的是：

分析師共識：

「或許 OpenAI 有改變擴展數學的祕技——這可能。但這些估計大概不會離現實太遠。」

GPT 的演進：從蠻力到智能路由

要理解 GPT-5 的架構，必須看到這些模型在短短五年內有多劇烈的演變。

GPT-3（2020）：最後一次誠實的規格表

1750 億參數，每次查詢都全數啟用

稠密 Transformer 架構——美而簡單，卻殘酷昂貴
訓練於約 3000 億字的網路文本
劃時代成就：首次在大規模上展現少樣本學習

OpenAI 將一切公開。參數數、訓練資料量、架構圖。這是我們最後一次獲得完整透明。

GPT-4（2023）：多模態的飛躍與祕密

參數數量：

估計約 1.8 兆，OpenAI 未證實

架構：被懷疑是早期 MoE 實作（未被驗證）
變革者：原生視覺理解，無需獨立圖像模型

在事實準確度基準上比 GPT-3 高 40%

從此 OpenAI 停止分享技術細節。沒有架構論文。沒有參數確認。產業根據表現推測從 GPT-3 成長約 10 倍參數，但沒有證據佐證。

GPT-5（2025）：效率革命

參數：

產業估計範圍為 2–5 兆啟用參數

架構：高階 MoE 與智能路由（根據行為推斷，未被證實）
統一系統，包含快速模型、深度推理模式（GPT-5 thinking）與即時路由器
效能指紋：

輸出 87.4 tokens/sec，首個 token 時間 84.78 秒

脈絡很明顯：GPT-3 → GPT-4 是 10 倍參數躍進。GPT-4 → GPT-5 的啟用參數或許只增至 2–3 倍，但架構精密度呈指數級增長。

競爭格局：大家都在玩同一個保密遊戲

OpenAI 並未開創參數保密——他們只是跟上產業趨勢：

Claude（Anthropic）：

參數未公開，獨立分析估計 1–3T 範圍

Gemini Ultra（Google）：

訓練規模與參數數未公開

Llama 3（Meta）： 唯一仍公開規格的主要開源玩家（最大變體 405B 參數）

時間線視覺化：

*僅計啟用參數

總 MoE 容量：高出 10–25 倍（未證實）

如果你在 GPT-5 上構建產品，這才是重點

參數之謎很適合科技媒體。但如果你是評估 AI 部署的產品經理，或在構建生產系統的工程師，以下才是實際重要的事：

重新思考你的成本模型

傳統 AI 定價假設參數與成本線性相關。MoE 完全打破這個模型。

舊的心智模型（GPT-3 時代）：

簡單查詢：175B 參數 × 費率＝ $X

複雜查詢：175B 參數 × 費率＝ $X

（可預測、無聊、昂貴）

新現實（GPT-5 MoE）：

分類任務：啟用約 1–2T ＝ $X

深度推理：啟用約 4–5T ＝ $4–5X

延伸思考模式：專家數量可變＝ ???

GPT-5 的路由器會根據對話類型、複雜度、工具需求與明確的使用者意圖選擇專家。翻譯：你的提示措辭會直接影響計費。

可行的最佳化：

用明確的複雜度訊號測試提示（「快速分類……」 vs 「逐步思考……」）
監控哪些措辭會觸發延伸推理模式
對高量任務，設計提示以避免不必要的專家啟用

我們訪談的一個團隊，僅僅將分類提示中的「解釋你的推理」移除，就把 GPT-5 API 成本降了 40%。準確度相同，專家啟用成本降至 60%。

應用架構策略

不是每個任務都需要 GPT-5 的全體專家出動。將工作負載對應到合適的模型層級：

何時該用 GPT-5：

多領域推理（程式碼 → 商業邏輯 → UI 設計）
需要在對話中切換專業的任務
小模型無法完成的複雜問題分解
準確度比每次查詢成本更重要的情境

何時小模型更勝：

高量的分類/抽取
模式可預測的簡單聊天介面
延遲敏感的應用（MoE 路由會增加 50–100ms）
成本受限、追求「夠好」而非「最佳」的產品

多模型策略

聰明的團隊不是在 GPT-5、Claude、Gemini 之間二選一——他們在策略性地同時使用三者。這正是像 CometAPI 這類平台變得關鍵的原因。

想像管理三個不同 API：不同驗證方式、不一致的回應格式、各自分離的帳單儀表板。再把這個情境乘上所有模型變體（GPT-5、Claude Opus4.7、Gemini 3.1 Pro……）。

CometAPI 透過抽象化整合層來解決：

統一存取： 單一 API 端點依你的邏輯路由到 GPT-5、Claude、Gemini 或開源模型 自動成本 最佳化：把簡單查詢路由到更便宜的模型，複雜推理則交給 GPT-5 A/B 測試框架：

以你的實際工作負載做經驗性評測——在具代表性的提示上，比較延遲、吞吐、成本與準確度

GPT-5 的 API 引入新參數，包括冗長度控制與推理努力程度設定。CometAPI 提供經過驗證的設定範本，讓你不必盲目試驗。

真心話： 我們見過團隊花 2–3 個月打造內部路由邏輯，而 CometAPI 開箱即用。除非多模型編排是你的核心競爭力，否則用現成的抽象層吧。

文件問題（與合規頭痛）

法務、採購與企業架構團隊需要具體規格。「產業估計 2–5T 參數」在供應商資格審查表單上行不通。

在文件中說明參數時，要註明你是參考總容量（與儲存/授權相關）還是每個 token 的啟用參數（與執行時計算相關）。

官方文件的範本語言：

「OpenAI GPT-5 的啟用參數估計為 2–5 兆，基於獨立業界分析（來源：三星 SemiCon 簡報、統計擴展模型、效能評測）。若使用 Mixture-of-Experts 架構，總參數容量可能高出 10–25×。OpenAI 尚未公開確認這些規格。估計資料截至 2026 年 4 月。」

附上來源引用、標註時間並標記不確定性。當（而非如果）有人要求「官方確認」時，升級至 OpenAI 的企業銷售——對大型合約，他們有時會在 NDA 下提供有限架構細節。

真相：為何參數數已是昨日黃花

對「GPT-5 有多少參數」的執念，就像那些很快過時的科技辯論：

2000 年代：相機畫素大戰（12MP vs 16MP vs 20MP！）
- 現實：感光元件品質與鏡頭光學更重要
2010 年代：CPU GHz 大戰（3.2GHz vs 3.8GHz！）
- 現實：架構效率與多核心設計取勝
2020 年代：AI 參數數大戰（175B vs 1.8T vs 52.5T！）
- 現實：架構、路由智慧與任務最佳化更重要

啟用推理模式的 GPT-5 在產生少 50–80% 輸出 token 的同時，仍優於更大的模型。這不只是效率——這證明「更聰明勝過更龐大」。

我們可以有信心斷言的事

GPT-5 使用 Mixture-of-Experts 架構 —— 由 GPT-OSS 的平行實作與效能指紋證實
啟用參數可能在 2–5T 範圍 —— 多個獨立估算一致
總專家池可能達 10–50T+ —— 依 MoE 比例外推，未證實
OpenAI 不會確認細節 —— 出於競爭與安全策略
表現超過參數規模的預測 —— 基準分數顯示除了規模之外還有架構優勢

對你的 AI 策略真正有用的事

別再為頭條規格最佳化。開始測量你實際要付的錢與使用者實際感受到的體驗：

任務專屬評測： 用你的實際提示跑 GPT-5、Claude、Gemini。最懂你領域的模型未必是最大那個。

每單位有用輸出的成本： 一次就給出完美答案的模型，勝過需要三次追問的便宜模型。

負載下的延遲剖面： 以規模測試。MoE 路由開銷可能會毀掉延遲敏感應用的表現。

失敗模式分析： 模型在哪裡產生幻覺或拒絕任務？邊界情境比平均基準更重要。

52.5 兆之謎，答案如下

GPT-5 真的有 52.5 兆參數嗎？

也許，如果你是計「MoE 總專家容量」，而且某些內部規格被準確洩漏。很可能不是，如果你談的是每次查詢的啟用參數。絕對有誤導性，如果你把它拿去跟 GPT-3 的 175B 稠密架構比較。

這個數字不是錯——只是你不該在意的那個數字。

MoE 總參數對儲存與授權討論有用，而啟用參數才是執行時計算成本的關鍵。

問「GPT-5 有多大」而不說清楚口徑，就像問「圖書館有多大」——你是在量架位、流通量，還是總館藏？

未來：準備面對更多而非更少的保密

OpenAI 的參數封鎖不會是暫時的。可以預期：

競爭加劇 → 各實驗室更強的架構保密
能力導向行銷 → 以「在 X 任務上提升 Y%」取代參數數
黑箱式評測 → 第三方評估成為唯一透明來源

Meta 的 Llama 系列是最後一個主要公開規格的玩家。其他人都跟著 OpenAI 邁向不透明。

對開發者與產品團隊而言，這意味著：

✅ 建立模型不可知的系統 —— 別把架構綁死在可能變動的 GPT-5 細節上

✅ 使用抽象層 —— 像 CometAPI 這樣的平台可讓你免受供應商更迭之苦

✅ 持續評測 —— 今天最優的，半年後可能不是

✅ 聚焦成果 —— 規格表會消失；效能指標不會

關鍵收斂

參數之謎終究會水落石出——透過外洩、競情，或 OpenAI 最終的透明。但等到我們拿到確鑿答案時，GPT-6 可能已在私測，目標又移動了。

讓你的競爭對手去爭論到底是 2T 還是 52.5T。你該做的是把產品上線。

我們有信心斷言：

GPT-5 很大（多兆級參數）
它很聰明（MoE 架構高效路由）
它很不透明（OpenAI 不會確認細節）
它很有效（表現超出參數規模預測）

你不能測參數數。但你可以測量：

在 GPT-5, Claude Opus 4.7、Gemini 3.1 Pro 上的任務成功率
針對你的特定工作負載，每 1K 請求的成本
流量高峰時的 P95 延遲
你邊界案例上的模型準確度

CometAPI：統一的 AI 模型 API 匯流排——一把 API 金鑰即可存取來自 OpenAI、Anthropic、Google 等 500+ 模型，價格比官方低 20%。

5 分鐘跨模型測試 → 從免費點數開始