訓練 GPT-5 需要多少 GPU？你需要知道的一切

訓練像 GPT-5 這樣最先進的大型語言模型 (LLM) 是一項浩大的工程、後勤和財務任務。關於使用了多少 GPU 的報導和傳言千差萬別——從幾萬到幾十萬不等——部分原因在於硬體的更新換代、軟體效率的提升，以及公司很少發布完整的訓練遙測數據。在本文中，我將解釋估算方法，並重點介紹決定最終數字的限制。

訓練 GPT-5 需要幾個 GPU？

簡短回答： 沒有單一的數字。公開訊號和技術擴展公式給出的合理答案從幾千（對於緊湊、時間靈活的訓練運行）到幾十萬（如果你堅持使用商用 GPU 在短時間內訓練一個非常龐大、密集的模型）不等。最終結果取決於 模型尺寸, 訓練計算預算（FLOPs）, 使用的代幣, 每個 GPU 的持續吞吐量, 時間預算，以及您使用的是較新的機架式 Blackwell 硬體還是較舊的 A100/H100 機器。 OpenAI 表示，GPT-5 是在 Microsoft Azure 超級電腦上訓練的（並非精確的 GPU 數量），其餘部分則由外部覆蓋範圍和工程粗略估計提供。

OpenAI（與大多數組織一樣）不會發布其最大模型的精確訓練 FLOP 計數或原始 GPU 小時分類賬，因此我們結合供應商規格、先前模型觀察到的歷史 GPU 使用模式以及縮放法則來產生可防禦範圍。

什麼基本規則將模型大小與 GPU 數量連結起來？

您可以使用的核心公式

NVIDIA 的 Megatron 團隊提供了一個實用且廣泛使用的端對端訓練時間近似值：training_time (s)≈8⋅T⋅PN⋅X\text{training\_time (s)} \approx 8 \cdot \frac{T \cdot P⋅}{N \cdot X}≈ining_time (XTs)≈

其中：

PPP = 模型參數數（權重）
TTT = 訓練令牌的數量
NNN = GPU 數量
XXX = 每 GPU 持續吞吐量（以 FLOP/秒為單位，通常表示為 teraFLOP）
因子 8 來自於計算前向 + 後向 + 最佳化器以及 Transformer FLOPs 近似值中的其他常數。

重新排列以估計目標計劃的 GPU：N≈8⋅T⋅PX⋅training_time (s)N \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{training\_time (s)}}N≈8⋅X⋅training_time (s)T⋅PPic

這是將運算預算（FLOP）轉換為 GPU 佇列大小的最重要的工程公式，也是我們開始任何 GPU 數量估算的地方。

重要警告

「X」（每 GPU 持續 TFLOP）是最難確定的數字。 由於記憶體流量、通訊和管線泡沫等因素，理論峰值 FLOP（規格）通常遠高於實際訓練任務的水平。 NVIDIA 報告稱實現在端到端大型模型訓練實驗中，每塊 A100 GPU 的吞吐量約為 163 TFLOP；H100 和 Blackwell 設備的理論峰值要高得多，但可實現的持續吞吐量取決於軟體堆疊、模型並行配置和通訊結構。預算時，請以保守的吞吐量為準。
代幣預算 TTT 並非標準化。 NVIDIA 針對 1 兆參數範例使用了約 450 億個 token；其他團隊使用不同的 token/參數比率（合成 token 的使用也越來越多）。務必明確說明 token 假設。
記憶體和拓撲約束 （每個 GPU 的記憶體、NVLink 架構、管線/張量並行度限制）會使某些 GPU 類型更適合大型、緊密分片的模型，即使它們的 FLOP 數量相近。像 NVIDIA 的 GB300/GB300 NVL72 這樣的機架級系統會改變 FLOP 和記憶體之間的實際平衡。

前幾代使用了多少 GPU

歷史錨點：GPT-3 和 GPT-4 報告

產業報告和技術評論反覆使用早期模型的 GPU 數量來錨定後期模型的估計值。多家可靠媒體和產業觀察家估計，GPT-4 的預訓練耗費了數萬塊 A100 GPU，耗時數週甚至數月。例如，同期報告顯示，GPT-4 的訓練佔用量約為 10 萬到 25 萬塊 A100 GPU，具體取決於計算的是峰值 GPU 庫存還是預訓練期間同時活動的 GPU。這些歷史錨定值非常有用，因為它們顯示了數量級以及硬體代次（A100 → H100 / Blackwell）如何改變每個裝置的吞吐量。

意義： 如果 GPT-4 使用了約 10 萬到 25 萬個 A100 處理器，那麼 GPT-5（如果規模擴大一個或多個數量級，或使用更多 token 進行訓練）將需要顯著增加的計算總量。但硬體（H100/Blackwell/TPU）和軟體（優化器/精度/混合專家、數據效率）的改進可以減少提供相同或更大運算能力所需的實體設備數量。

對於不同的 GPT-5 規模場景，需要多少個 GPU？

下面我將運行三個特定的場景計算——相同的方法，不同的假設——以便您了解 GPU 數量如何隨模型大小、硬體和時間預算的變化而變化。我明確說明了假設，以便您可以重複或調整它們。

使用的假設（明確）

核心 FLOP 公式： N≈8⋅T⋅PX⋅timeN \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{time}}N≈8⋅X⋅timeT⋅P。（參見 NVIDIA Megatron。）
令牌計數縮放： 我以 NVIDIA 的範例為例，每 1T 個參數約 450 億個 token（因此 T≈0.45⋅PT \approx 0.45 \cdot PT≈0.45⋅P）作為基準，並針對這些場景根據參數線性縮放 token。這是一個合理但並非普遍適用的選擇——有些團隊每個參數使用的 token 數量會更多或更少。
訓練窗口： 90 天（≈ 7,776,000 秒）。較短的調度時間所需的 GPU 數量相應較多；較長的調度時間則需要較少的 GPU 數量。
每個 GPU 的持續吞吐量（X，TFLOP）： 展現敏感度的三個實用層面：

保守/較老的 A100 級實現了： 163 TFLOPs 每個 GPU（NVIDIA 在 1T 範例中測量的吞吐量）。
現代高階H100級有效吞吐量： ~600 TFLOP （在考慮系統級低效率後，H100 理論 Tensor-core 峰值的保守、可實現部分）。
機架式 Blackwell/GB300 有效： ~2,000 TFLOP 每個 GPU（代表積極的下一代 Blackwell/GB300 機架效率和 FP4/最佳化優勢；實際持續的數字將因工作負載和拓撲而異）。

請注意： 這些 X 值假設對於工程圖來說，把它們當作可以調整的旋鈕。重點在於展示數量級。

結果（四捨五入）

使用上述公式和假設，對於為期 90 天的訓練運行，其中令牌的比例為 T=0.45⋅PT=0.45\cdot PT=0.45⋅P：

1兆個參數（1T）：

- 163 TFLOP/GPU → ≈ 2,800 個 GPU.
- 600 TFLOP/GPU → ≈ 770 個 GPU.
- 2,000 TFLOP/GPU → ≈ 230 個 GPU.

3兆個參數（3T）：

- 163 TFLOP/GPU → ≈ 25,600 個 GPU.
- 600 TFLOP/GPU → ≈ 6,900 個 GPU.
- 2,000 TFLOP/GPU → ≈ 2,100 個 GPU.

10兆個參數（10T）：

- 163 TFLOP/GPU → ≈ 284,000 個 GPU.
- 600 TFLOP/GPU → ≈ 77,000 個 GPU.
- 2,000 TFLOP/GPU → ≈ 23,000 個 GPU.

這些解釋了為什麼人們的估計差異如此之大：每個 GPU 的持續吞吐量（硬體和軟體）或所需的訓練時間的變化都會顯著改變 GPU 數量。一個規模擴大十倍的模型需要十倍的 PPP 參數，而且由於 token 通常也會隨著模型大小而縮放，因此在保持固定時間預算的情況下，總 FLOP（以及 GPU 需求）會超線性增長。

GPT-5（合成）的最佳努力範圍：

下限（計算效率高的方法 + Blackwell/H100 級吞吐量）： 數月內部署約 10,000–25,000 個 H100 等效 GPU（如果模型使用顯著的演算法效率提升和更少的參數數量以及積極的資料增強/微調）。
中心（合理的主流情境）： 約 25,000–80,000 個 H100 等效 GPU（與 GPT-4 報告的數萬個 GPU 相比有所提升，以應對更大的計算預算和令牌數量）。
上限（非常大的、數萬億參數模型，使用少量演算法捷徑進行訓練）： 峰值時有 80,000–150,000+ 個 H100 等效 GPU（如果團隊追求非常短的掛鐘時間並並行使用許多設備）。

這些範圍與目前供應商的吞吐量、早期模型的歷史 GPU 使用情況以及報告的行業群集規模一致。它們是估計並非 OpenAI 的直接承認。 GPT-5 的具體數字仍屬保密。

除了原始的預訓練運行之外，還有什麼會增加 GPU 費用？

增加設備數量的因素

參數數量和令牌方面的目標： 加倍參數通常意味著令牌的相應增加以保持計算最優。
希望縮短掛鐘時間： 要在幾週而不是幾個月內完成訓練，需要按比例增加並發 GPU 數量。
大型驗證或 RLHF 制度： 大量的訓練後 RLHF 或人工回饋循環在基礎預訓練 FLOP 之外增加了有意義的 GPU 使用率。
網路和基礎設施效率低： 互連擴充性差或使用率低會導致實現廣告吞吐量所需的實體 GPU 數量增加。

RLHF、微調和評估

強化學習人工回饋 (RLHF) 階段、多階段微調、紅隊測試以及大規模評估掃描會在「預訓練」 FLOP 的基礎上增加大量額外計算。這些後續階段通常需要高效的策略訓練循環和大規模重複推理（由其他 GPU 叢集提供），因此項目 GPU 佔用空間大於單次預訓練的估計值。 OpenAI 的 GPT-5 開發明確引用了複雜的安全和評估流程，這些流程在預訓練之外增加了運算能力。

數據生成和合成代幣

由於大規模高品質代幣的稀缺性，團隊會產生合成代幣（自對弈、模型生成的延續），而這些代幣本身需要計算資源來產生和審核。考慮到該流程，模型專案期間使用的 GPU 和總運算資源會增加。

為艦隊的啟動和迭代提供服務

向數百萬用戶發布模型需要獨立於訓練集群的大型推理集群。有報導稱，OpenAI 擁有數十萬到數百萬個線上 GPU（包括服務能力）。這與訓練集群的預算有所不同，但在公開討論中經常被混為一談。

結論

關於「訓練 GPT-5 需要多少 GPU」這個問題，並沒有一個明確的公開數字，因為答案取決於模型的參數化、訓練方案，以及優先考慮的是實際時間還是總成本。以公開的供應商規格、縮放律研究和行業報告為依據，最可靠的方法是公眾估計 GPT-5 類訓練可能需要 數萬個 H100 級 GPU 處於峰值（合理的中心範圍： 約 25 萬至 80 萬 H100 等價物)，其中總 GPU 小時數 數百萬 的範圍。

在哪裡訪問 GPT-5

如果您想要透過程式存取或將 GPT-5 Pro 嵌入到產品中，請使用 API。 OpenAI、CometAPI 等包含 GPT-5 系列的模型名稱（gpt-5-pro / gpt-5-pro-2025-10-06)，並按使用的令牌計費。此 API 支援進階功能，例如工具支援的執行、更長的上下文視窗、串流回應以及用於控制推理工作量/冗長程度的模型參數。

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 GPT-5 專業版透過 CometAPI，最新型號版本始終與官方網站同步更新。首先，探索該模型的功能游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

準備出發了嗎？ → 立即註冊 CometAPI !