Melatih model bahasa besar (LLM) terkini seperti GPT-5 ialah usaha kejuruteraan, logistik dan kewangan yang besar. Tajuk dan khabar angin tentang bilangan GPU yang digunakan berbeza-beza — daripada beberapa puluh ribu hingga beberapa ratus ribu — dan sebahagian daripada varians itu datang daripada perubahan generasi perkakasan, peningkatan kecekapan dalam perisian dan hakikat bahawa syarikat jarang menerbitkan telemetri latihan penuh. Dalam artikel ini saya menerangkan cara anggaran diperoleh dan menyerlahkan kekangan yang menentukan nombor akhir.
Berapakah bilangan GPU yang diperlukan untuk melatih GPT-5?
Jawapan ringkas di hadapan: tiada nombor tunggal. Isyarat awam dan formula penskalaan teknikal meletakkan jawapan yang munasabah di mana-mana sahaja daripada ribuan rendah (untuk larian latihan padat dan fleksibel masa) sehingga ratusan ribu rendah jika anda berkeras untuk melatih model yang sangat besar dan padat dalam tetingkap pendek dengan GPU komoditi. Penghujung julat itu bergantung pada anda saiz model, belanjawan pengiraan latihan (FLOP), token yang digunakan, pemprosesan berterusan per-GPU, bajet masa, dan sama ada anda menggunakan perkakasan Blackwell skala rak yang lebih baharu atau mesin A100/H100 yang lebih lama. OpenAI mengatakan GPT-5 telah dilatih pada superkomputer Microsoft Azure (bukan kiraan GPU yang tepat), dan liputan luar dan anggaran sampul belakang kejuruteraan memberikan gambaran yang selebihnya.
OpenAI (seperti kebanyakan organisasi) tidak menerbitkan kiraan FLOP latihan yang tepat atau lejar jam GPU mentah untuk model terbesarnya, jadi kami menggabungkan spesifikasi vendor, corak penggunaan GPU sejarah yang diperhatikan untuk model terdahulu dan undang-undang penskalaan untuk menghasilkan julat yang boleh dipertahankan.
Apakah peraturan asas yang mengikat saiz model dengan kiraan GPU?
Formula teras yang boleh anda gunakan
Pasukan Megatron NVIDIA menyediakan anggaran praktikal yang digunakan secara meluas untuk masa latihan hujung ke hujung: masa_latihan≈8⋅T⋅PN⋅X\text{masa latihan\_masa (s)} \lebih kurang 8 \cdot \frac{T \cdot P}{N \cdot X}masa_latihan≈8⋅≈8XT
di mana:
- PPP = bilangan parameter model (berat)
- TTT = bilangan token latihan
- NNN = bilangan GPU
- XXX = daya tampung per-GPU yang berterusan (dalam FLOP/saat, selalunya dinyatakan sebagai teraFLOP)
- faktor 8 datang daripada mengira ke hadapan+belakang + pengoptimum dan pemalar lain dalam anggaran FLOP pengubah.
Disusun semula untuk menganggarkan GPU untuk jadual sasaran: N≈8⋅T⋅PX⋅training_time (s)N \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{training\_time (s)}}N≈8⋅X⋅training_time (s)T
Ini ialah satu-satunya formula kejuruteraan yang paling penting untuk menukar belanjawan pengiraan (FLOP) kepada saiz kumpulan GPU, dan di situlah tempat kita memulakan sebarang anggaran kiraan GPU.
Kaveat penting
- “X” (TFLOP per-GPU berkekalan) ialah nombor yang paling sukar untuk disematkan. FLOP puncak teoritis (spesifikasi) biasanya jauh lebih tinggi daripada apa yang dicapai oleh kerja latihan sebenar kerana trafik memori, komunikasi dan gelembung saluran paip. NVIDIA melaporkan sebuah dicapai daya pemprosesan ~163 TFLOP bagi setiap GPU A100 dalam eksperimen latihan model besar hujung ke hujung; Peranti H100 dan Blackwell mempunyai kemuncak teori yang lebih tinggi, tetapi daya tampung yang boleh dicapai bergantung pada susunan perisian, konfigurasi selari model dan fabrik komunikasi. Gunakan daya pengeluaran yang dicapai secara konservatif semasa membuat belanjawan.
- Bajet token TTT tidak diseragamkan. NVIDIA menggunakan ~450B token untuk contoh parameter 1 trilion; pasukan lain menggunakan nisbah token/parameter yang berbeza (dan token sintetik semakin digunakan). Sentiasa nyatakan andaian token secara eksplisit.
- Kekangan memori dan topologi (memori per-GPU, fabrik NVLink, had selari saluran paip/tensor) boleh menjadikan jenis GPU tertentu lebih sesuai untuk model yang besar dan berpecah-belah walaupun mempunyai nombor FLOP yang serupa. Sistem skala rak seperti GB300/GB300 NVL72 NVIDIA mengubah keseimbangan praktikal antara FLOP dan memori.
Berapa banyak GPU yang digunakan oleh generasi terdahulu
Sauh sejarah: pelaporan GPT-3 dan GPT-4
Pelaporan industri dan ulasan teknikal telah berulang kali menggunakan kiraan GPU yang dilaporkan untuk model terdahulu untuk melabuhkan anggaran untuk yang kemudian. Berbilang kedai yang boleh dipercayai dan pemerhati industri menganggarkan bahawa pralatihan GPT-4 melibatkan puluhan ribu GPU A100 selama beberapa minggu hingga bulan. Sebagai contoh, pelaporan kontemporari meletakkan jejak latihan GPT-4 dalam julat ~10k–25k A100 bergantung pada sama ada seseorang mengira inventori GPU puncak atau GPU secara serentak aktif semasa pralatihan. Penambat sejarah tersebut berguna kerana ia menunjukkan susunan magnitud dan cara generasi perkakasan (A100 → H100 / Blackwell) mengubah daya pemprosesan setiap peranti.
Implikasi: jika GPT-4 menggunakan ~10k–25k A100s, maka GPT-5—jika lebih besar dengan satu atau lebih susunan magnitud, atau dilatih menggunakan lebih banyak token—akan memerlukan pengiraan agregat yang lebih ketara. Tetapi penambahbaikan dalam perkakasan (H100/Blackwell/TPU) dan perisian (pengoptimum/ketepatan/campuran-pakar, kecekapan data) boleh mengurangkan bilangan peranti fizikal yang diperlukan untuk menyampaikan pengiraan yang sama atau lebih besar.
Berapakah bilangan GPU yang anda perlukan untuk senario skala GPT-5 yang berbeza?
Di bawah ini saya menjalankan tiga pengiraan senario konkrit—kaedah yang sama, andaian berbeza—jadi anda boleh melihat cara kiraan GPU bergerak dengan saiz model, perkakasan dan belanjawan masa. Saya menyatakan andaian secara eksplisit supaya anda boleh mengulangi atau melaraskannya.
Andaian yang digunakan (eksplisit)
- Formula teras FLOPs: N≈8⋅T⋅PX⋅masaN \lebih kurang 8 \cdot \frac{T \cdot P}{X \cdot \text{masa}}N≈8⋅X⋅masaT⋅P. (Lihat NVIDIA Megatron.)
- Penskalaan kiraan token: Saya menggunakan contoh NVIDIA bagi token ~450B setiap parameter 1T (jadi T≈0.45⋅PT \lebih kurang 0.45 \cdot PT≈0.45⋅P) sebagai token garis dasar dan skala secara linear dengan parameter untuk senario ini. Itu pilihan yang munasabah tetapi bukan universal—sesetengah pasukan menggunakan lebih atau kurang token bagi setiap parameter.
- Tetingkap latihan: 90 hari (≈ 7,776,000 saat). Jadual yang lebih pendek memerlukan lebih banyak GPU secara proporsional; jadual yang lebih panjang memerlukan lebih sedikit.
- Daya pemprosesan berterusan per-GPU (X, TFLOP): tiga tahap pragmatik untuk menunjukkan sensitiviti:
- Kelas A100 konservatif / lama dicapai: 163 TFLOPs setiap GPU (daya pemprosesan yang diukur NVIDIA dalam contoh 1T).
- Daya pengeluaran berkesan kelas H100 mewah moden: ~600 TFLOP (sebahagian kecil yang konservatif dan boleh dicapai daripada puncak Tensor-teras teori H100 selepas mengambil kira ketidakcekapan peringkat sistem).
- Blackwell/GB300 skala rak berkesan: ~2,000 TFLOP setiap GPU (mewakili kecekapan rak Blackwell/GB300 generasi seterusnya yang agresif dan faedah FP4/pengoptimuman; nombor berterusan sebenar akan berbeza mengikut beban kerja dan topologi).
Catatan: nilai X ini ialah andaian untuk ilustrasi kejuruteraan—gunakannya sebagai tombol yang boleh anda ubah. Intinya adalah untuk menunjukkan susunan magnitud.
Keputusan (bulat)
Menggunakan formula dan andaian di atas, untuk latihan selama 90 hari dengan token berskala sebagai T=0.45⋅PT=0.45\cdot PT=0.45⋅P:
1 trilion parameter (1T):
- bersama 163 TFLOPs/GPU → ≈ 2,800 GPU.
- bersama 600 TFLOPs/GPU → ≈ 770 GPU.
- bersama 2,000 TFLOPs/GPU → ≈ 230 GPU.
3 trilion parameter (3T):
- bersama 163 TFLOPs/GPU → ≈ 25,600 GPU.
- bersama 600 TFLOPs/GPU → ≈ 6,900 GPU.
- bersama 2,000 TFLOPs/GPU → ≈ 2,100 GPU.
10 trilion parameter (10T):
- bersama 163 TFLOPs/GPU → ≈ 284,000 GPU.
- bersama 600 TFLOPs/GPU → ≈ 77,000 GPU.
- bersama 2,000 TFLOPs/GPU → ≈ 23,000 GPU.
Ini menunjukkan sebab anggaran orang ramai berbeza-beza: perubahan sama ada dalam pemprosesan berterusan per-GPU (perkakasan dan perisian) atau masa untuk latihan yang dikehendaki mengubah kiraan GPU secara mendadak. Model yang sepuluh kali lebih besar memerlukan PPP sepuluh kali lebih banyak parameter, dan kerana token biasanya juga berskala dengan saiz model, jumlah FLOP (dan oleh itu keperluan GPU) meningkat secara superlinear jika anda mengekalkan belanjawan masa tetap.
Julat usaha terbaik untuk GPT-5 (sintesis):
- Batas bawah (resipi cekap pengiraan + pemprosesan kelas Blackwell/H100): ~10,000–25,000 GPU setara H100 digunakan selama berbulan-bulan (jika model menggunakan keuntungan kecekapan algoritmik yang ketara dan kiraan parameter yang lebih kecil dengan penambahan / penalaan halus data yang agresif).
- Tengah (senario arus perdana yang munasabah): ~25,000–80,000 GPU setara H100 (memadankan peningkatan daripada puluhan ribu GPT-4 yang dilaporkan untuk mengambil kira belanjawan pengiraan dan kiraan token yang lebih besar).
- Sempadan atas (model parameter berbilang trilion yang sangat besar dilatih dengan beberapa pintasan algoritma): 80,000–150,000+ GPU setara H100 pada puncaknya (jika pasukan mencari masa jam dinding yang sangat singkat dan menggunakan banyak peranti secara selari).
Julat ini konsisten dengan daya pemprosesan semasa vendor, penggunaan GPU sejarah untuk model terdahulu dan saiz kelompok industri yang dilaporkan. Mereka adalah anggaran, bukan kemasukan langsung daripada OpenAI. Nombor tepat untuk GPT-5 kekal proprietari.
Apa lagi yang menambah bil GPU selain larian pra-latihan mentah?
Faktor yang meningkatkan bilangan peranti
- Cita-cita dalam kiraan parameter dan token: Parameter penggandaan biasanya membayangkan peningkatan yang setanding dalam token untuk kekal optimum pengiraan.
- Keinginan untuk masa jam dinding yang singkat: Untuk melengkapkan latihan dalam beberapa minggu dan bukannya bulan memerlukan peningkatan berkadar dalam kiraan GPU serentak.
- Pengesahan besar atau rejim RLHF: RLHF selepas latihan yang besar atau kitaran maklum balas manusia menambahkan penggunaan GPU yang bermakna melebihi FLOP pralatihan asas.
- Ketidakcekapan rangkaian dan infrastruktur: Skala antara sambungan yang lemah atau penggunaan yang rendah meningkatkan bilangan GPU fizikal yang diperlukan untuk merealisasikan daya pengeluaran yang diiklankan.
RLHF, penalaan halus dan penilaian
Pembelajaran pengukuhan daripada fasa maklum balas manusia (RLHF), penalaan halus berbilang peringkat, larian berpasukan merah dan sapuan penilaian yang besar menambahkan pengiraan tambahan yang besar di samping FLOP "pra-latihan". Fasa susulan ini selalunya memerlukan gelung latihan dasar yang cekap dan inferens berulang pada skala (yang disampaikan pada kluster GPU lain), jadi projek Jejak GPU lebih besar daripada anggaran pra-latihan tunggal. Pembangunan GPT-5 OpenAI secara eksplisit merujuk kepada proses keselamatan dan penilaian yang canggih yang menambahkan pengiraan melangkaui pra-latihan.
Penjanaan data dan token sintetik
Kekurangan token berkualiti tinggi pada skala yang sangat besar menyebabkan pasukan menjana token sintetik (main sendiri, sambungan yang dijana model) yang sendiri memerlukan pengiraan untuk dihasilkan dan diperiksa. Perakaunan untuk saluran paip itu meningkatkan keseluruhan pengiraan GPU dan jam dinding yang digunakan semasa projek model.
Menyediakan armada untuk pelancaran dan lelaran
Melancarkan model kepada berjuta-juta pengguna memerlukan kumpulan inferens yang besar yang berasingan daripada kelompok latihan. Laporan bahawa OpenAI mempunyai ratusan ribu hingga sejuta+ GPU dalam talian termasuk kapasiti penyajian. Itu adalah garis belanjawan yang berbeza daripada kelompok latihan, tetapi ia sering digabungkan dalam perbincangan awam.
Kesimpulan
Tiada nombor awam muktamad tunggal untuk "berapa banyak GPU untuk melatih GPT-5" kerana jawapannya bergantung pada parameterisasi model, resipi latihan dan sama ada keutamaan ialah masa jam dinding atau jumlah kos. Menggunakan spesifikasi vendor awam, penyelidikan undang-undang skala dan pelaporan industri sebagai sauh, yang paling boleh dipertahankan awam anggaran ialah latihan kelas GPT-5 mungkin diperlukan berpuluh-puluh ribu GPU setara H100 pada puncak (julat tengah yang munasabah: ~25k–80k H100-setara), dengan agregat GPU-jam dalam berjuta-juta pelbagai.
Di mana untuk Mengakses GPT-5
Jika anda mahukan akses terprogram atau membenamkan GPT-5 Pro ke dalam produk, gunakan API. OpenAI, CometAPI dll termasuk nama model untuk keluarga GPT-5 (gpt-5-pro / gpt-5-pro-2025-10-06) dan pengebilan adalah setiap token yang digunakan. API mendayakan ciri lanjutan seperti pelaksanaan yang didayakan alat, tetingkap konteks yang lebih panjang, respons penstriman dan parameter model untuk mengawal usaha penaakulan/verbositi.
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Pembangun boleh mengakses GPT-5 Pro melalui CometAPI, versi model terkini sentiasa dikemas kini dengan laman web rasmi. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
Bersedia untuk Pergi?→ Daftar untuk CometAPI hari ini !
