Việc đào tạo một mô hình ngôn ngữ lớn (LLM) tiên tiến như GPT-5 là một dự án khổng lồ về mặt kỹ thuật, hậu cần và tài chính. Các tiêu đề và tin đồn về số lượng GPU được sử dụng rất khác nhau — từ vài chục nghìn đến vài trăm nghìn — và một phần của sự khác biệt đó đến từ việc thay đổi thế hệ phần cứng, hiệu suất phần mềm được cải thiện, và thực tế là các công ty hiếm khi công bố dữ liệu đo từ xa đầy đủ trong quá trình đào tạo. Trong bài viết này, tôi sẽ giải thích cách ước tính được đưa ra và nêu bật những hạn chế quyết định con số cuối cùng.
Cần bao nhiêu GPU để đào tạo GPT-5?
Trả lời ngắn gọn ở phía trước: không có con số duy nhất. Các tín hiệu công khai và công thức tính toán kỹ thuật đưa ra những câu trả lời hợp lý từ hàng nghìn (cho một lần chạy huấn luyện nhỏ gọn, linh hoạt về thời gian) cho đến hàng trăm nghìn nếu bạn muốn huấn luyện một mô hình rất lớn, dày đặc trong một khoảng thời gian ngắn với GPU thông dụng. Bạn sẽ đạt đến giới hạn nào của khoảng đó phụ thuộc vào kích thước mô hình, ngân sách tính toán đào tạo (FLOP), mã thông báo được sử dụng, thông lượng duy trì trên mỗi GPU, ngân sách thời gianvà liệu bạn có sử dụng phần cứng Blackwell mới hơn, quy mô lớn hơn hay máy A100/H100 cũ hơn không. OpenAI cho biết GPT-5 được đào tạo trên siêu máy tính Microsoft Azure (không phải số lượng GPU chính xác), và phạm vi phủ sóng bên ngoài cùng các ước tính sơ bộ về kỹ thuật sẽ cung cấp phần còn lại của bức tranh.
OpenAI (giống như hầu hết các tổ chức) không công bố số lượng FLOP đào tạo chính xác hoặc sổ cái giờ GPU thô cho các mô hình lớn nhất của mình, vì vậy chúng tôi kết hợp các thông số kỹ thuật của nhà cung cấp, các mô hình sử dụng GPU đã quan sát được trong lịch sử đối với các mô hình trước đó và các quy luật mở rộng để tạo ra các phạm vi có thể bảo vệ được.
Quy tắc cơ bản nào liên kết kích thước mô hình với số lượng GPU?
Công thức cốt lõi bạn có thể sử dụng
Nhóm Megatron của NVIDIA cung cấp một phép tính gần đúng thực tế, được sử dụng rộng rãi cho thời gian đào tạo đầu cuối: training_time (giây)≈8⋅T⋅PN⋅X\text{training\_time (giây)} \approx 8 \cdot \frac{T \cdot P}{N \cdot X}training_time (giây)≈8⋅N⋅XT⋅P
Trong đó:
- PPP = số lượng tham số mô hình (trọng số)
- TTT = số lượng mã thông báo đào tạo
- NNN = số lượng GPU
- XXX = thông lượng duy trì trên mỗi GPU (tính bằng FLOP/giây, thường được biểu thị bằng teraFLOP)
- hệ số 8 xuất phát từ việc đếm tiến + lùi + bộ tối ưu hóa và các hằng số khác trong phép tính xấp xỉ FLOP của máy biến áp.
Sắp xếp lại để ước tính GPU cho một lịch trình mục tiêu: N≈8⋅T⋅PX⋅thời gian đào tạo (giây)N \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{thời gian đào tạo (giây)}}N≈8⋅X⋅thời gian đào tạo (giây)T⋅P
Đây là công thức kỹ thuật quan trọng nhất để chuyển đổi ngân sách tính toán (FLOP) thành quy mô đội GPU và là nơi chúng ta bắt đầu bất kỳ ước tính số lượng GPU nào.
Cảnh báo quan trọng
- “X” (TFLOPs duy trì trên mỗi GPU) là con số khó xác định nhất. FLOP đỉnh lý thuyết (thông số kỹ thuật) thường cao hơn nhiều so với những gì một công việc đào tạo thực tế đạt được do lưu lượng bộ nhớ, giao tiếp và bong bóng đường ống. NVIDIA đã báo cáo một đạt được Thông lượng ~163 TFLOPs trên mỗi GPU A100 trong một thí nghiệm huấn luyện mô hình lớn đầu cuối; các thiết bị H100 và Blackwell có đỉnh lý thuyết cao hơn nhiều, nhưng thông lượng duy trì có thể đạt được phụ thuộc vào ngăn xếp phần mềm, cấu hình song song mô hình và nền tảng giao tiếp. Hãy sử dụng thông lượng đạt được một cách thận trọng khi lập ngân sách.
- Ngân sách mã thông báo TTT không được chuẩn hóa. NVIDIA đã sử dụng ~450 tỷ token cho ví dụ tham số 1 nghìn tỷ; các nhóm khác sử dụng tỷ lệ token/tham số khác nhau (và token tổng hợp đang ngày càng được sử dụng rộng rãi). Luôn nêu rõ giả định về token.
- Ràng buộc về bộ nhớ và cấu trúc (bộ nhớ trên mỗi GPU, cấu trúc NVLink, giới hạn song song pipeline/tensor) có thể giúp một số loại GPU phù hợp hơn với các mô hình lớn, phân mảnh chặt chẽ, ngay cả khi chúng có số FLOP tương đương nhau. Các hệ thống rack-scale như GB300/GB300 NVL72 của NVIDIA thay đổi sự cân bằng thực tế giữa FLOP và bộ nhớ.
Các thế hệ trước đã sử dụng bao nhiêu GPU
Mỏ neo lịch sử: Báo cáo GPT-3 và GPT-4
Báo cáo ngành và bình luận kỹ thuật đã nhiều lần sử dụng số lượng GPU được báo cáo cho các mô hình trước đó để làm cơ sở cho ước tính cho các mô hình sau này. Nhiều nguồn tin đáng tin cậy và các nhà quan sát trong ngành ước tính rằng quá trình tiền huấn luyện của GPT-4 liên quan đến hàng chục nghìn GPU A100 trong nhiều tuần đến nhiều tháng. Ví dụ: báo cáo đồng thời đặt dấu chân huấn luyện của GPT-4 vào khoảng ~10–25 A100 tùy thuộc vào việc tính lượng GPU tồn kho cao nhất hay GPU hoạt động đồng thời trong quá trình tiền huấn luyện. Những điểm neo lịch sử này rất hữu ích vì chúng cho thấy thứ tự cường độ và cách các thế hệ phần cứng (A100 → H100 / Blackwell) thay đổi thông lượng trên mỗi thiết bị.
Hàm ý: Nếu GPT-4 sử dụng khoảng 10–25 A100, thì GPT-5—nếu lớn hơn một hoặc nhiều bậc độ lớn, hoặc được huấn luyện trên nhiều token hơn—sẽ đòi hỏi khả năng tính toán tổng hợp lớn hơn đáng kể. Tuy nhiên, những cải tiến về phần cứng (H100/Blackwell/TPU) và phần mềm (trình tối ưu hóa/độ chính xác/hỗn hợp chuyên gia, hiệu quả dữ liệu) có thể giảm số lượng thiết bị vật lý cần thiết để cung cấp cùng một khả năng tính toán hoặc lớn hơn.
Bạn cần bao nhiêu GPU cho các tình huống khác nhau ở quy mô GPT-5?
Dưới đây tôi chạy ba phép tính kịch bản cụ thể—cùng phương pháp, nhưng giả định khác nhau—để bạn có thể thấy số lượng GPU thay đổi như thế nào theo kích thước mô hình, phần cứng và ngân sách thời gian. Tôi nêu rõ các giả định để bạn có thể lặp lại hoặc điều chỉnh chúng.
Giả định được sử dụng (rõ ràng)
- Công thức FLOPs cốt lõi: N≈8⋅T⋅PX⋅thời gianN \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{thời gian}}N≈8⋅X⋅thời gianT⋅P. (Xem NVIDIA Megatron.)
- Tỷ lệ số lượng mã thông báo: Tôi sử dụng ví dụ của NVIDIA về ~450B token trên mỗi tham số 1T (do đó T≈0.45⋅PT \approx 0.45 \cdot PT≈0.45⋅P) làm cơ sở và chia tỷ lệ token theo tham số cho các tình huống này. Đây là một lựa chọn hợp lý nhưng không phải là lựa chọn phổ biến - một số nhóm sử dụng nhiều hoặc ít token hơn trên mỗi tham số.
- Cửa sổ đào tạo: 90 ngày (≈ 7,776,000 giây). Lịch trình ngắn hơn yêu cầu nhiều GPU hơn theo tỷ lệ; lịch trình dài hơn yêu cầu ít GPU hơn.
- Thông lượng duy trì trên mỗi GPU (X, TFLOP): ba cấp độ thực dụng để thể hiện sự nhạy cảm:
- Lớp A100 bảo thủ / cũ hơn đã đạt được: 163 TFLOP trên mỗi GPU (thông lượng đạt được của NVIDIA trong ví dụ 1T).
- Hiệu suất truyền tải cao cấp hiện đại loại H100: ~ 600 TFLOP (một phần nhỏ có thể đạt được, bảo thủ của các đỉnh Tensor-core lý thuyết H100 sau khi tính đến các điểm kém hiệu quả ở cấp độ hệ thống).
- Blackwell/GB300 hiệu quả trên giá đỡ: ~ 2,000 TFLOP trên mỗi GPU (thể hiện hiệu suất mạnh mẽ của giá đỡ Blackwell/GB300 thế hệ tiếp theo và lợi ích tối ưu hóa/FP4; số liệu thực tế duy trì sẽ khác nhau tùy theo khối lượng công việc và cấu trúc).
Lưu ý: các giá trị X này là giả định để minh họa kỹ thuật—hãy sử dụng chúng như các núm vặn mà bạn có thể thay đổi. Mục đích là để thể hiện cấp độ lớn.
Kết quả (làm tròn)
Sử dụng công thức và các giả định trên, đối với quá trình đào tạo kéo dài 90 ngày với các mã thông báo được chia tỷ lệ là T=0.45⋅PT=0.45\cdot PT=0.45⋅P:
1 nghìn tỷ tham số (1T):
- với 163 TFLOP/GPU → ≈ 2,800 GPU.
- với 600 TFLOP/GPU → ≈ 770 GPU.
- với 2,000 TFLOP/GPU → ≈ 230 GPU.
3 nghìn tỷ tham số (3T):
- với 163 TFLOP/GPU → ≈ 25,600 GPU.
- với 600 TFLOP/GPU → ≈ 6,900 GPU.
- với 2,000 TFLOP/GPU → ≈ 2,100 GPU.
10 nghìn tỷ tham số (10T):
- với 163 TFLOP/GPU → ≈ 284,000 GPU.
- với 600 TFLOP/GPU → ≈ 77,000 GPU.
- với 2,000 TFLOP/GPU → ≈ 23,000 GPU.
Những điều này cho thấy lý do tại sao ước tính của mọi người lại khác nhau đến vậy: sự thay đổi về thông lượng duy trì trên mỗi GPU (phần cứng và phần mềm) hoặc thời gian đào tạo mong muốn sẽ làm thay đổi đáng kể số lượng GPU. Một mô hình lớn hơn gấp mười lần đòi hỏi số lượng tham số PPP gấp mười lần, và vì các token thường được điều chỉnh theo kích thước mô hình, tổng FLOP (và do đó là nhu cầu GPU) sẽ tăng theo cấp số nhân nếu bạn giữ ngân sách thời gian cố định.
Phạm vi nỗ lực tốt nhất cho GPT-5 (tổng hợp):
- Giới hạn dưới (công thức tính toán hiệu quả + thông lượng loại Blackwell/H100): ~10,000–25,000 GPU tương đương H100 được triển khai trong nhiều tháng (nếu mô hình sử dụng hiệu quả thuật toán tăng đáng kể và số lượng tham số nhỏ hơn với khả năng tăng cường/tinh chỉnh dữ liệu mạnh mẽ).
- Trung tâm (kịch bản chính thống có thể xảy ra): ~25,000–80,000 GPU tương đương H100 (tăng so với con số hàng chục nghìn được báo cáo của GPT-4 để tính đến ngân sách tính toán và số lượng mã thông báo lớn hơn).
- Giới hạn trên (mô hình tham số rất lớn, nhiều nghìn tỷ được đào tạo với một vài phím tắt thuật toán): 80,000–150,000+ GPU tương đương H100 ở mức cao nhất (nếu nhóm tìm kiếm thời gian xung nhịp cực ngắn và sử dụng nhiều thiết bị song song).
Các phạm vi này phù hợp với thông lượng của nhà cung cấp hiện tại, mức sử dụng GPU lịch sử cho các mẫu trước đó và kích thước cụm ngành được báo cáo. Chúng là dự toán, không phải thông tin trực tiếp từ OpenAI. Con số chính xác cho GPT-5 vẫn thuộc sở hữu độc quyền.
Ngoài quá trình chạy thử nghiệm trước đó, hóa đơn GPU còn phải trả thêm những gì nữa?
Các yếu tố làm tăng số lượng thiết bị
- Tham vọng về số lượng tham số và mã thông báo: Việc nhân đôi các tham số thường ngụ ý sự gia tăng tương đương về số lượng mã thông báo để duy trì tính toán tối ưu.
- Mong muốn có thời gian ngắn trên đồng hồ treo tường: Để hoàn thành khóa đào tạo trong vài tuần thay vì vài tháng đòi hỏi phải tăng số lượng GPU đồng thời theo tỷ lệ tương ứng.
- Chế độ xác thực lớn hoặc RLHF: Các chu kỳ phản hồi của con người hoặc RLHF sau đào tạo đáng kể sẽ bổ sung thêm mức sử dụng GPU có ý nghĩa ngoài các FLOP trước đào tạo cơ bản.
- Mạng lưới và cơ sở hạ tầng kém hiệu quả: Khả năng kết nối kém hoặc mức sử dụng thấp làm tăng số lượng GPU vật lý cần thiết để đạt được thông lượng đã quảng cáo.
RLHF, tinh chỉnh và đánh giá
Các giai đoạn học tăng cường từ phản hồi của con người (RLHF), tinh chỉnh nhiều giai đoạn, chạy nhóm đỏ và quét đánh giá quy mô lớn bổ sung đáng kể khả năng tính toán ngoài các FLOP "tiền huấn luyện". Các giai đoạn tiếp theo này thường yêu cầu các vòng lặp huấn luyện chính sách hiệu quả và suy luận lặp lại ở quy mô lớn (được cung cấp trên các cụm GPU khác), vì vậy dự án Dấu chân GPU lớn hơn ước tính tiền đào tạo đơn lẻ. Quá trình phát triển GPT-5 của OpenAI đề cập rõ ràng đến các quy trình đánh giá và an toàn phức tạp, bổ sung khả năng tính toán vượt ra ngoài quá trình tiền đào tạo.
Tạo dữ liệu và mã thông báo tổng hợp
Sự khan hiếm token chất lượng cao ở quy mô rất lớn khiến các nhóm phải tạo ra token tổng hợp (tự chơi, tiếp tục do mô hình tạo ra) mà bản thân chúng cũng cần tính toán để sản xuất và kiểm tra. Việc tính toán quy trình đó làm tăng tổng lượng GPU và tính toán đồng hồ treo tường được sử dụng trong một dự án mô hình.
Đội tàu phục vụ cho việc ra mắt và lặp lại
Việc triển khai một mô hình cho hàng triệu người dùng đòi hỏi một đội ngũ suy luận lớn, tách biệt với cụm đào tạo. Các báo cáo cho thấy OpenAI có hàng trăm nghìn đến hơn một triệu GPU trực tuyến, bao gồm cả khả năng phục vụ. Đây là một dòng ngân sách khác với cụm đào tạo, nhưng thường bị nhầm lẫn trong các cuộc thảo luận công khai.
Kết luận
Không có con số công khai chính xác nào cho câu hỏi "cần bao nhiêu GPU để huấn luyện GPT-5" vì câu trả lời phụ thuộc vào tham số hóa mô hình, công thức huấn luyện, và liệu ưu tiên là thời gian thực tế hay tổng chi phí. Dựa trên thông số kỹ thuật công khai của nhà cung cấp, nghiên cứu về quy luật mở rộng và báo cáo của ngành làm cơ sở, giải pháp khả thi nhất công khai ước tính là đào tạo lớp GPT-5 có thể cần thiết hàng chục nghìn GPU tương đương H100 ở đỉnh (một phạm vi trung tâm hợp lý: ~25k–80k tương đương H100), với tổng số giờ GPU trong nhiều triệu phạm vi.
Nơi truy cập GPT-5
Nếu bạn muốn truy cập theo chương trình hoặc nhúng GPT-5 Pro vào sản phẩm, hãy sử dụng API. OpenAI, CometAPI, v.v. bao gồm tên mô hình cho họ GPT-5 (gpt-5-pro / gpt-5-pro-2025-10-06) và tính phí theo từng token được sử dụng. API hỗ trợ các tính năng nâng cao như thực thi bằng công cụ, cửa sổ ngữ cảnh dài hơn, phản hồi trực tuyến và tham số mô hình để kiểm soát nỗ lực suy luận/độ dài dòng.
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập GPT-5 Pro thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
