GPT-5のトレーニングに必要なGPUの数は?知っておくべきことすべて

CometAPI
AnnaDec 2, 2025
GPT-5のトレーニングに必要なGPUの数は?知っておくべきことすべて

GPT-5のような最先端の大規模言語モデル(LLM)の学習は、エンジニアリング、ロジスティクス、そして資金面で膨大な作業となります。使用されたGPUの数に関する報道や噂は、数万から数十万まで大きく異なります。こうしたばらつきの一部は、ハードウェア世代の変化、ソフトウェアの効率向上、そして企業が完全な学習テレメトリを公開することがほとんどないという事実に起因しています。この記事では、推定値の導出方法を説明し、最終的な数値を決定する制約について解説します。

GPT-5 をトレーニングするには GPU がいくつ必要ですか?

最初に簡単に答えます: 単一の数字はありません。公開されているシグナルや技術的なスケーリング式から、数千単位(コンパクトで時間的に柔軟なトレーニングランの場合)から、非常に大規模で高密度なモデルをコモディティGPUで短期間でトレーニングする必要がある場合の数十万単位まで、妥当な答えが導き出されます。その範囲のどの端に落ち着くかは、以下の要素に依存します。 モデルサイズ, トレーニング計算予算(FLOP), 使用されたトークン, GPUあたりの持続スループット, 時間予算、そして新しいラックスケールのBlackwellハードウェアを使用するか、それとも古いA100/H100マシンを使用するか。OpenAIによると、GPT-5はMicrosoft Azureスーパーコンピューターで学習されたとのこと(正確なGPU数は不明)。残りの詳細は、外部の報道やエンジニアリングによる概算から得られている。

OpenAI は (ほとんどの組織と同様に) 最大のモデルの正確なトレーニング FLOP 数や生の GPU 時間台帳を公開していないため、ベンダーの仕様、以前のモデルの観測された過去の GPU 使用パターン、スケーリング則を組み合わせて、防御可能な範囲を生成します。

モデルのサイズと GPU の数を結び付ける基本的なルールは何ですか?

使用できるコアフォーミュラ

NVIDIA の Megatron チームは、エンドツーエンドのトレーニング時間の実用的で広く使用されている近似値を提供しています: training_time (s)≈8⋅T⋅PN⋅X\text{training\_time (s)} \approx 8 \cdot \frac{T \cdot P}{N \cdot X}training_time (s)≈8⋅N⋅XT⋅P​

ここで、

  • PPP = モデルパラメータ(重み)の数
  • TTT = トレーニングトークンの数
  • NNN = GPUの数
  • XXX = GPU あたりの持続スループット(FLOP/秒、通常は teraFLOP で表されます)
  • 係数 8 は、トランスフォーマー FLOP 近似における前方 + 後方 + オプティマイザーおよびその他の定数をカウントすることから生じます。

ターゲットスケジュールの GPU を推定するために並べ替えると、N≈8⋅T⋅PX⋅training_time (s)N \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{training\_time (s)}}N≈8⋅X⋅training_time (s)T⋅P​

これは、コンピューティング バジェット (FLOP) を GPU フリート サイズに変換するための最も重要なエンジニアリング式であり、GPU 数の見積りを開始する場所です。

重要な注意点

  • 「X」(GPU あたりの持続 TFLOP)は、特定するのが最も難しい数値です。 理論上のピークFLOPS(スペック)は、メモリトラフィック、通信、パイプラインバブルの影響で、実際のトレーニングジョブで達成される値よりもはるかに高いのが一般的です。NVIDIAは、 達成 エンドツーエンドの大規模モデルトレーニング実験において、A100 GPU 1台あたり約163 TFLOPのスループットを達成しました。H100およびBlackwellデバイスは理論上のピーク値がはるかに高いものの、達成可能な持続スループットはソフトウェアスタック、モデル並列構成、および通信ファブリックに依存します。予算策定の際は、控えめな達成スループットを使用してください。
  • トークン予算 TTT 標準化されていません。NVIDIAは1兆パラメータのサンプルに約450億トークンを使用しましたが、他のチームは異なるトークン/パラメータ比率を使用しています(合成トークンの使用も増加しています)。トークンの仮定は常に明示的に示してください。
  • メモリとトポロジの制約 (GPUあたりのメモリ、NVLinkファブリック、パイプライン/テンソル並列処理の制限など)によって、たとえFLOP値が同程度であっても、特定のGPUタイプは大規模で密にシャーディングされたモデルに適している場合があります。NVIDIAのGB300/GB300 NVL72のようなラックスケールシステムでは、FLOPとメモリの実際のバランスが変わります。

以前の世代ではGPUがいくつ使用されていましたか

歴史的アンカー: GPT-3 および GPT-4 レポート

業界レポートや技術解説では、以前のモデルのGPU数を、後続モデルの推定値として繰り返し使用してきました。複数の信頼できるメディアや業界関係者は、GPT-4の事前トレーニングには数週間から数ヶ月にわたって数万基のA100 GPUが使用されたと推定しています。例えば、同時期のレポートでは、GPT-4のトレーニングフットプリントは、ピーク時のGPU在庫をカウントするか、事前トレーニング中に同時にアクティブになったGPUをカウントするかによって、約1万基から2万5千基のA100 GPUの範囲であるとされています。これらの過去のアンカーは、ハードウェア世代(A100 → H100 / Blackwell)がデバイスあたりのスループットをどのように変化させるかを示すため、有用です。

含意: GPT-4が約1万~2万5千個のA100を使用していた場合、GPT-5は(1桁以上大きい場合、またはより多くのトークンでトレーニングする場合)、はるかに多くの計算量を必要とします。しかし、ハードウェア(H100/Blackwell/TPU)とソフトウェア(最適化装置/精度/専門家の混合、データ効率)の改良により、同等以上の計算量を実現するために必要な物理デバイスの数を削減できます。


さまざまな GPT-5 スケールのシナリオに必要な GPU の数はいくつですか?

以下では、同じ手法を用いながらも異なる仮定のもと、3つの具体的なシナリオ計算を実行します。これにより、モデルのサイズ、ハードウェア、そして実行時間に応じてGPU数がどのように変化するかを確認できます。仮定は明示的に記載しているので、繰り返し実行したり調整したりすることができます。

使用された仮定(明示的)

  1. コア FLOP の計算式: N≈8⋅T⋅PX⋅timeN \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{time}}N≈8⋅X⋅timeT⋅P​。(NVIDIA Megatron を参照。)
  2. トークン数のスケーリング: NVIDIAの例である1Tパラメータあたり約450Bトークン(つまりT≈0.45⋅PT \approx 0.45 \cdot PT≈0.45⋅P)を​​基準として、これらのシナリオではパラメータに応じてトークンを線形にスケーリングします。これは妥当な選択ですが、普遍的なものではありません。チームによっては、パラメータあたりのトークン数をこれより多くしたり少なくしたりする場合があります。
  3. トレーニングウィンドウ: 90日間(≈ 7,776,000秒)。スケジュールが短いほど、比例して多くのGPUが必要になります。スケジュールが長いほど、必要なGPUは少なくなります。
  4. GPU あたりの持続スループット (X、TFLOP): 感受性を示す3つの実用的なレベル:
  • 保守的/古いA100クラスが達成: 163 TFLOPs GPU あたり (NVIDIA が 1T の例で測定した達成スループット)。
  • 最新のハイエンドH100クラスの実効スループット: 〜600 TFLOP (システムレベルの非効率性を考慮した後の、H100 理論上の Tensor コア ピークの控えめで達成可能な割合)。
  • ラックスケール Blackwell/GB300 有効: 〜2,000 TFLOP GPU あたり (積極的な次世代 Blackwell/GB300 ラック効率と FP4/最適化のメリットを表します。実際の持続数値はワークロードとトポロジによって異なります)。

注意: これらのX値は 前提条件 エンジニアリングの図解では、調整可能なノブとして使ってください。重要なのは、桁数を示すことです。

結果(四捨五入)

上記の式と仮定を使用して、トークンがT = 0.45⋅PT = 0.45\cdot PT = 0.45⋅Pとしてスケーリングされた90日間のトレーニング実行の場合:

1兆個のパラメータ(1T):

  • 163 TFLOPS/GPU≈ 2,800 GPU.
  • 600 TFLOPS/GPU≈ 770 GPU.
  • 2,000 TFLOPS/GPU≈ 230 GPU.

3兆個のパラメータ(3T):

  • 163 TFLOPS/GPU≈ 25,600 GPU.
  • 600 TFLOPS/GPU≈ 6,900 GPU.
  • 2,000 TFLOPS/GPU≈ 2,100 GPU.

10兆個のパラメータ(10T):

  • 163 TFLOPS/GPU≈ 284,000 GPU.
  • 600 TFLOPS/GPU≈ 77,000 GPU.
  • 2,000 TFLOPS/GPU≈ 23,000 GPU.

これらは、人々の見積もりがなぜこれほど大きく異なるのかを示しています。GPUあたりの持続スループット(ハードウェアとソフトウェア)または必要なトレーニング時間のいずれかの変化によって、GPU数は劇的に変化します。モデルが10倍大きくなると、パラメータPPPも10倍必要になります。また、トークンは通常、モデルサイズに応じてスケーリングされるため、時間予算を一定に保つと、総FLOP(ひいてはGPUの必要性)は超線形に増加します。

GPT-5(合成)のベストエフォート範囲:

  • 下限(計算効率の高いレシピ + Blackwell/H100クラスのスループット): 数か月かけて約 10,000~25,000 個の H100 相当の GPU を展開します (モデルが積極的なデータ拡張/微調整により大幅なアルゴリズム効率の向上とパラメータ数の削減を実現した場合)。
  • 中央(主流のシナリオとして妥当と思われるもの): 約 25,000~80,000 個の H100 相当 GPU (より大きな計算予算とトークン数に対応するため、GPT-4 で報告された数万個から増加)。
  • 上限(アルゴリズムのショートカットをほとんど使用せずにトレーニングされた、非常に大規模な数兆パラメータモデル): ピーク時には 80,000~150,000 個以上の H100 相当の GPU (チームが非常に短いウォールクロック時間を求め、多数のデバイスを並列に使用した場合)。

これらの範囲は、現在のベンダーのスループット、以前のモデルのGPU使用率の履歴、および業界で報告されているクラスタサイズと一致しています。 見積もりOpenAIからの直接の承認ではありません。GPT-5の正確な数値は依然非公開です。

生の事前トレーニング実行以外に GPU の請求額に追加されるものは何ですか?

デバイス数を増やす要因

  • パラメータ数とトークンの野心: 通常、パラメータを 2 倍にすると、計算を最適化し続けるためにトークンも同程度増加します。
  • 短い壁時計時間への欲求: トレーニングを数か月ではなく数週間で完了するには、同時実行 GPU の数を比例して増やす必要があります。
  • 大規模検証またはRLHFレジーム: トレーニング後の実質的な RLHF または人間のフィードバック サイクルにより、基本的なトレーニング前 FLOP を超えて、意味のある GPU 使用量が追加されます。
  • ネットワークとインフラストラクチャの非効率性: 相互接続のスケーリングが不十分であったり、使用率が低いと、宣伝されているスループットを実現するために必要な物理 GPU の数が増えてしまいます。

RLHF、微調整、評価

人間のフィードバックからの強化学習(RLHF)フェーズ、多段階のファインチューニング、レッドチーム演習、大規模な評価スイープは、「事前学習」のFLOPに加えて、相当な計算負荷を追加します。これらの後続フェーズでは、効率的なポリシー学習ループと大規模な推論の繰り返し(他のGPUクラスターで提供される)が必要になることが多いため、 プロジェクト GPUフットプリントは、事前学習の単一の推定値よりも大きくなります。OpenAIのGPT-5開発では、事前学習を超える計算能力を追加する高度な安全性と評価のプロセスを明示的に参照しています。

データ生成と合成トークン

大規模環境での高品質トークンの不足により、チームは合成トークン(セルフプレイ、モデル生成継続)を生成することになり、その生成と検証には計算処理が必要となります。このパイプラインを考慮すると、モデルプロジェクト中に使用されるGPUと実時間計算の総量が増加します。

ローンチとイテレーションのためのサービス艦隊

数百万人規模のユーザーにモデルを公開するには、トレーニングクラスタとは別に大規模な推論クラスタが必要です。OpenAIがオンライン状態のGPUを数十万から100万台以上保有しているという報告には、サービスキャパシティも含まれています。これはトレーニングクラスタとは異なる予算項目ですが、公の議論ではしばしば混同されています。

結論

「GPT-5を訓練するのに必要なGPUの数」について、明確な公式の数字は存在しません。なぜなら、その答えはモデルのパラメータ化、訓練レシピ、そして実時間か総コストのどちらを優先するかによって異なるからです。ベンダーの公開仕様、スケーリング則の研究、業界レポートを参考にすると、最も説得力のある 公共 GPT-5クラスのトレーニングが必要になる可能性が高いと推定される 数万個のH100相当GPU ピーク時(妥当な中心範囲: 約25~80 H100相当)、GPU時間の合計は 数百万

GPT-5にアクセスする場所

プログラムによるアクセスやGPT-5 Proを製品に組み込む場合は、APIを使用してください。OpenAI、CometAPIなどには、GPT-5ファミリーのモデル名が含まれています(gpt-5-pro / gpt-5-pro-2025-10-06)で、課金は使用したトークンごとに行われます。API により、ツール対応の実行、より長いコンテキストウィンドウ、ストリーミング応答、推論の労力と冗長性を制御するモデルパラメータなどの高度な機能が利用可能になります。

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

開発者はアクセスできる GPT-5 プロ CometAPIを通じて、 最新モデルバージョン 公式ウェブサイトで常に更新されています。まずは、モデルの機能について調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

準備はいいですか?→ 今すぐCometAPIに登録しましょう !

SHARE THIS BLOG

1つのAPIで500以上のモデル

最大20%オフ