GPT-5 có bao nhiêu tham số? Đây là những gì chúng tôi thực sự tìm ra

CometAPI
AnnaOct 17, 2025
GPT-5 có bao nhiêu tham số? Đây là những gì chúng tôi thực sự tìm ra

Gõ "GPT-5 parameters" trên Google và bạn sẽ chìm trong những con số mâu thuẫn. 2 nghìn tỷ? 5 nghìn tỷ? Một con số choáng váng 52.5 nghìn tỷ? Chúng tôi đã dành ba tuần để phân tích câu trả lời—để bạn khỏi phải làm.

GPT-5 ra mắt ngày 7 tháng 8, 2025, đánh dấu bản phát hành lớn nhất của OpenAI kể từ GPT-4. Tuy nhiên, khác với các thế hệ trước, nội bộ của mô hình này cố ý không minh bạch. Sau ba tuần phân tích mẫu độ trễ API, đối chiếu điểm benchmark với các mô hình có kích thước đã biết, và tham vấn các kỹ sư đã kiểm thử tải GPT-5 ở quy mô lớn, đây là những gì chúng tôi thực sự tự tin—và nơi ngành vẫn đang đoán mò.

GPT-5 có bao nhiêu tham số

Bí mật ai cũng biết của ngành AI: thực ra không ai biết GPT-5 lớn cỡ nào.

Các chủ đề trên Reddit tự tin trích dẫn 52.5 nghìn tỷ tham số. Một bản trình chiếu bị rò rỉ của Samsung tại SemiCon Taiwan nói 3–5 nghìn tỷ. Các nhà phân tích ngành thận trọng với “ước tính trong phạm vi 2–5T”. Tài liệu chính thức của OpenAI? Im lặng đáng chú ý. Khi bị báo chí hỏi, đội quan hệ nhà phát triển của họ lịch sự trả lời “chúng tôi không công bố chi tiết kiến trúc vì lý do cạnh tranh”.

Vậy nên chúng tôi đã tự phân tích.

[CÔNG KHAI HOÀN TOÀN: Những gì sau đây là phân tích điều tra, không phải sự thật đã được xác nhận. OpenAI chưa xác minh bất kỳ số lượng tham số nào cho GPT-5. Chúng tôi đã tổng hợp kết quả từ các cơ sở dữ liệu benchmark, thông số phần cứng bị rò rỉ, mẫu hiệu năng API và phỏng vấn các kỹ sư ML đang chạy GPT-5 trong môi trường sản xuất. Hãy coi kết luận của chúng tôi là công tác điều tra có cơ sở, không phải chân lý tuyệt đối.]


Vì sao “52.5 nghìn tỷ tham số” khả thi về kỹ thuật nhưng vô nghĩa về thực tiễn

Hãy hình dung: bạn thuê 100 chuyên gia tư vấn nhưng chỉ trả tiền cho 4 người mỗi dự án. Sơ đồ tổ chức của bạn liệt kê 100 nhân viên. Phòng tài chính của bạn chỉ hạch toán 4 người. Con số nào định nghĩa quy mô công ty bạn?

Cả hai. Và cũng không cái nào. Chào mừng đến với nghịch lý Mixture-of-Experts.

Con số “52.5T” đại diện cho tổng quy mô tham số trong kiến trúc Mixture-of-Experts (MoE), không phải các tham số “được kích hoạt”. Hãy coi đó như khác biệt giữa tổng bộ sưu tập trong thư viện của bạn so với 3–5 cuốn bạn thực sự tra cứu cho mỗi câu hỏi. Danh mục đầy đủ quan trọng cho năng lực; tập con đang hoạt động quyết định chi phí.

Bằng chứng hiển nhiên: GPT-OSS hé lộ chiến lược MoE của OpenAI

OpenAI đã vô tình để lộ quân bài.

GPT-OSS-120b chứa tổng cộng 117 tỷ tham số nhưng chỉ có 5.1 tỷ tham số được kích hoạt cho mỗi truy vấn. Đó là tỷ lệ 23:1 giữa quy mô thư viện và phần được tham chiếu.

Áp phép tính đó lên. Nếu GPT-5 kích hoạt 2–5 nghìn tỷ tham số mỗi yêu cầu (ước tính đồng thuận của ngành), và dùng tỷ lệ MoE tương tự, tổng quy mô tham số có thể đạt 46–115 nghìn tỷ.

Đột nhiên 52.5T không còn giống giai thoại trên mạng—mà giống như ai đó làm rò rỉ quy mô tổng nhóm chuyên gia trong khi những người khác báo cáo tham số đang kích hoạt. Cùng một mô hình, cách đo khác nhau, tiêu đề khác nhau một trời một vực.

Vì sao sự chuyển dịch kiến trúc này thay đổi mọi thứ

Kiến trúc MoE cho phép giảm mạnh chi phí tính toán trong quá trình tiền huấn luyện và đạt hiệu năng suy luận nhanh hơn. Đối với những ai xây dựng sản phẩm trên GPT-5, đây không phải chuyện học thuật—nó viết lại kinh tế học:

Chi phí của các mô hình dày truyền thống:

  • Mỗi truy vấn chạm tới toàn bộ 175B tham số (kiểu GPT-3)
  • Tỷ lệ tuyến tính: 10x tham số = 10x tính toán = 10x giá
  • Định giá đơn giản, có thể dự đoán nhưng đắt đỏ

Cách MoE thay đổi phép tính:

Một bộ định tuyến quyết định chuyên gia nào được kích hoạt dựa trên loại cuộc hội thoại, độ phức tạp và mục đích người dùng

  • Tổng dung lượng 50T có thể chỉ tính phí cho 2T tham số đang kích hoạt
  • Năng lực khổng lồ, chi phí phân số—nhưng giá trở nên phụ thuộc vào prompt

Bằng chứng thực tế:

GPT-5 với chế độ lập luận mở rộng sử dụng ít hơn 50–80% token so với các mô hình tương đương. Đó không chỉ là nén—đó là định tuyến thông minh hơn, tránh kích hoạt chuyên gia không cần thiết.

Điểm vướng? Kỹ thuật prompt của bạn trực tiếp ảnh hưởng đến chuyên gia nào sẽ thức dậy. Yêu cầu “phân loại nhanh” và bạn có thể kích hoạt các chuyên gia gọn nhẹ. Yêu cầu “hãy suy nghĩ cẩn thận qua chứng minh nhiều bước này” và đột nhiên bạn gọi cụm chuyên gia lập luận nặng. Cùng một mô hình, chênh lệch chi phí 3–5x.

Tóm lại: Khi đánh giá định giá GPT-5, hãy quên số tham số tiêu đề. Hãy thử chính các prompt của bạn và đo mức tiêu thụ token—MoE khiến các thông số lý thuyết gần như vô dụng cho dự đoán chi phí.

Các nhà phân tích ngành đảo ngược suy luận những gì OpenAI không nói

Vì OpenAI không công bố thông số, các nhà nghiên cứu đã phát triển phương pháp pháp y để ước tính kích thước mô hình. Hãy nghĩ đến CSI cho mạng nơ-ron.

Phương pháp 1: Hồi quy hiệu năng benchmark

Các nhà phân tích ước lượng tham số bằng cách so sánh hiệu năng với các mô hình có kích thước đã biết, sử dụng hồi quy thống kê trên dữ liệu bảng xếp hạng.

Quy trình: thu thập điểm từ các nền tảng như Artificial Analysis, Chatbot Arena và HumanEval. Vẽ các mô hình đã biết (Llama 3 405B, Claude Sonnet, v.v.) lên đồ thị hiệu năng so với tham số. Điểm benchmark của GPT-5 đặt nó vào cụm 2–5T khi bạn chạy các đường hồi quy.

Mức độ tin cậy: Trung bình. Giả định các quy luật mở rộng còn đúng, điều không được đảm bảo với các đổi mới kiến trúc.

Phương pháp 2: Pháp y phần cứng

Phân tích của Samsung tại SemiCon Taiwan ước tính GPT-5 có 3–5T tham số, được huấn luyện trên 7.000× GPU NVIDIA B100

Khi đối tác phần cứng làm lộ thông số cụm huấn luyện, các kỹ sư ML suy ngược:

  • Dung lượng bộ nhớ NVIDIA B100: đã biết
  • Ước tính thời gian huấn luyện: bị rò rỉ trong các kênh ngành
  • Số lượng tham số = f(GPU-tháng, băng thông bộ nhớ, hiệu suất huấn luyện)

Phương pháp này cho ra ước tính “3–5T” đã trở thành đồng thuận của ngành.

Mức độ tin cậy: Cao đối với tham số đang kích hoạt. Samsung không có động cơ bịa đặt, và phép tính hợp lý.

Phương pháp 3: Dấu vân tay hiệu năng API

Đây là chỗ trở nên tinh vi. Kiến trúc mô hình để lại dấu hiệu hiệu năng:

GPT-5 xuất 87.4 token/giây với 84.78s thời gian đến token đầu tiên

  • Mẫu độ trễ gợi ý overhead định tuyến MoE (mô hình dày có thời gian đến token đầu tiên nhanh hơn)
  • Thông lượng token tương quan với số tham số đang kích hoạt dựa trên các mô hình đã biết

Các kỹ sư vận hành khối lượng công việc sản xuất theo dõi các chỉ số này một cách ám ảnh. Đối chiếu với thông số đã công bố từ các mô hình mở, bạn có thể suy ngược kiến trúc xấp xỉ.

Mức độ tin cậy: Trung bình cho loại kiến trúc, thấp cho thông số chính xác. Hiệu năng phụ thuộc vào nhiều biến vượt ra ngoài tham số.

Phương pháp 4: Sức mạnh đám đông

Khi nhiều phân tích độc lập hội tụ, độ tin cậy tăng lên. Hiện chúng ta có:

  • Rò rỉ từ Samsung: 3–5T tham số
  • Quy luật mở rộng thống kê: phạm vi 2–5T
  • Phân tích cộng đồng R-bloggers: tối thiểu ~2T dựa trên yêu cầu năng lực
  • Phân tích kỹ thuật của Encord: kiến trúc MoE với quy mô tham số hàng nghìn tỷ

Đồng thuận của ngành đặt GPT-5 ở mức 2–5 nghìn tỷ tham số đang kích hoạt với kiến trúc MoE. Không phải vì một nguồn nào có thẩm quyền tuyệt đối, mà vì các phương pháp độc lập đồng thuận.

Phổ độ tin cậy

Hãy thẳng thắn về những gì chúng ta thực sự biết:

Đồng thuận của giới phân tích:

“Có thể OpenAI có những tối ưu bí mật thay đổi toán học mở rộng—điều đó có thể. Nhưng các ước tính này có lẽ không quá xa thực tế”.

Tiến hóa của GPT: Từ brute force đến định tuyến thông minh

Hiểu kiến trúc của GPT-5 đòi hỏi nhìn thấy mức độ tiến hóa mạnh mẽ của các mô hình này chỉ trong năm năm.

GPT-3 (2020): Bảng thông số cuối cùng trung thực

175 tỷ tham số, tất cả đều hoạt động cho mọi truy vấn

  • Kiến trúc transformer dày—đơn giản đến đẹp, nhưng cực kỳ đắt đỏ
  • Huấn luyện trên ~300B từ văn bản internet
  • Thành tựu lịch sử: mô hình đầu tiên thể hiện học few-shot ở quy mô lớn

OpenAI công bố mọi thứ. Số lượng tham số, khối lượng dữ liệu huấn luyện, sơ đồ kiến trúc. Lần cuối cùng chúng ta có đầy đủ minh bạch.

GPT-4 (2023): Bước nhảy đa phương thức vào bí mật

  • Số tham số:

ước khoảng 1.8 nghìn tỷ, chưa được OpenAI xác nhận

  • Kiến trúc: nghi ngờ triển khai MoE giai đoạn sớm (chưa từng được xác minh)
  • Cú hích: hiểu hình ảnh gốc mà không cần mô hình ảnh riêng

Điểm cao hơn 40% trên các benchmark độ chính xác thực tế so với GPT-3

Đây là lúc OpenAI ngừng chia sẻ chi tiết kỹ thuật. Không bài báo kiến trúc. Không xác nhận số tham số. Ngành công nghiệp giả định tăng ~10x so với GPT-3 dựa trên hiệu năng, nhưng không bao giờ có chứng từ.

GPT-5 (2025): Cuộc cách mạng hiệu suất

  • Tham số:

ước tính của ngành dao động từ 2 đến 5 nghìn tỷ tham số đang kích hoạt

  • Kiến trúc: MoE tinh vi với định tuyến thông minh (suy ra từ hành vi, chưa xác nhận)
  • Hệ thống hợp nhất với mô hình nhanh, chế độ lập luận sâu (GPT-5 thinking) và bộ định tuyến thời gian thực
  • Dấu hiệu hiệu năng:

87.4 token/giây tốc độ xuất, 84.78 giây đến token đầu tiên

Mẫu hình rất rõ: GPT-3→GPT-4 là bước nhảy 10x tham số. GPT-4→GPT-5 có thể chỉ 2–3x về tham số đang kích hoạt, nhưng mức độ tinh vi kiến trúc tăng theo cấp số nhân.

Cục diện cạnh tranh: Ai cũng chơi trò bí mật như nhau

OpenAI không tiên phong chuyện giữ bí mật tham số—họ đang theo xu hướng ngành:

  • Claude (Anthropic):

Tham số không công bố, các nhà phân tích độc lập ước 1–3T

  • Gemini Ultra (Google):

Quy mô huấn luyện và số tham số không công khai

  • Llama 3 (Meta): Người chơi nguồn mở duy nhất vẫn công bố thông số (405B tham số cho biến thể lớn nhất)

Hình dung theo dòng thời gian:

*chỉ tham số đang kích hoạt

Tổng dung lượng MoE: cao hơn 10–25x (chưa xác nhận)

Điều này thực sự có nghĩa gì nếu bạn đang xây dựng trên GPT-5

Bí ẩn tham số tạo ra báo chí công nghệ thú vị. Nhưng nếu bạn là PM đánh giá triển khai AI hoặc kỹ sư xây dựng hệ thống sản xuất, đây mới là điều quan trọng:

Nghĩ lại mô hình chi phí của bạn

Định giá AI truyền thống giả định tỷ lệ tuyến tính giữa tham số và chi phí. MoE phá vỡ hoàn toàn mô hình đó.

Mô hình tư duy cũ (thời GPT-3):

Truy vấn đơn giản: 175B tham số × đơn giá = $X

Truy vấn phức tạp: 175B tham số × đơn giá = $X

(Có thể dự đoán, nhàm chán, đắt đỏ)

Thực tế mới (GPT-5 MoE):

Tác vụ phân loại: ~1–2T được kích hoạt = $X

Lập luận sâu: ~4–5T được kích hoạt = $4–5X

Chế độ suy nghĩ mở rộng: số chuyên gia biến thiên = ???

Bộ định tuyến của GPT-5 chọn chuyên gia dựa trên loại hội thoại, độ phức tạp, nhu cầu công cụ và ý định người dùng rõ ràng. Dịch: cách bạn diễn đạt prompt trực tiếp ảnh hưởng đến hóa đơn.

Có thể hành động tối ưu hóa:

  • Thử các prompt với tín hiệu độ phức tạp rõ ràng (“phân loại nhanh…” so với “hãy nghĩ từng bước…”)
  • Theo dõi cách diễn đạt nào kích hoạt chế độ lập luận mở rộng
  • Với tác vụ khối lượng lớn, thiết kế prompt để tránh kích hoạt chuyên gia không cần thiết

Một đội ngũ mà chúng tôi trao đổi đã cắt 40% chi phí API GPT-5 bằng cách loại bỏ “giải thích lập luận của bạn” khỏi các prompt phân loại. Độ chính xác giữ nguyên, chỉ còn 60% mức kích hoạt chuyên gia.

Chiến lược kiến trúc ứng dụng

Không phải tác vụ nào cũng cần toàn bộ bảng chuyên gia của GPT-5. Hãy ghép khối lượng công việc với tầng mô hình:

Khi GPT-5 hợp lý:

  • Lập luận đa miền (mã → logic nghiệp vụ → thiết kế UI)
  • Tác vụ đòi hỏi chuyển đổi chuyên môn giữa chừng hội thoại
  • Phân rã vấn đề phức tạp nơi các mô hình nhỏ thất bại
  • Kịch bản mà độ chính xác quan trọng hơn chi phí mỗi truy vấn

Khi mô hình nhỏ thắng:

  • Phân loại/trích xuất khối lượng lớn
  • Giao diện chat đơn giản với mẫu hình có thể dự đoán
  • Ứng dụng nhạy cảm độ trễ (định tuyến MoE thêm 50–100ms)
  • Sản phẩm bị ràng buộc chi phí nơi “đủ tốt” hơn “tối ưu”

Chiến lược đa mô hình

Các đội thông minh không chọn GPT-5 vs. Claude vs. Gemini—họ dùng cả ba một cách chiến thuật. Đây là nơi các nền tảng như CometAPI trở nên thiết yếu.

Hãy hình dung phải quản lý ba tích hợp API riêng: xác thực khác nhau, định dạng phản hồi không nhất quán, bảng điều khiển thanh toán riêng. Giờ nhân điều đó với mọi biến thể mô hình (GPT-5, Claude Opus4.7, Gemini 3.1 Pro…).

CometAPI giải quyết điều này bằng cách trừu tượng hóa lớp tích hợp:

Truy cập hợp nhất: Một endpoint API định tuyến tới GPT-5, Claude, Gemini hoặc các mô hình nguồn mở dựa trên logic của bạn Tối ưu hóa chi phí tự động: Định tuyến truy vấn đơn giản tới mô hình rẻ hơn, lập luận phức tạp tới GPT-5 Khuôn khổ thử nghiệm A/B:

So sánh hiệu năng mô hình trên chính khối lượng công việc của bạn bằng benchmark thực nghiệm—độ trễ, thông lượng, chi phí và độ chính xác trên các prompt đại diện

API của GPT-5 giới thiệu các tham số mới bao gồm điều khiển độ dài lời đáp và thiết lập mức độ nỗ lực lập luận. CometAPI cung cấp các mẫu cấu hình đã được kiểm chứng để bạn không phải thử nghiệm trong mù mờ.

Nói thẳng: Chúng tôi đã thấy các đội tốn 2–3 tháng xây dựng logic định tuyến nội bộ mà CometAPI cung cấp sẵn. Trừ khi điều phối đa mô hình là năng lực cốt lõi của bạn, hãy dùng lớp trừu tượng của người khác.

Vấn đề tài liệu (và đau đầu tuân thủ)

Pháp lý, mua sắm và kiến trúc doanh nghiệp muốn thông số cụ thể. “Ngành ước 2–5T tham số” không phù hợp trong biểu mẫu thẩm định nhà cung cấp.

Khi ghi tài liệu về tham số, hãy chỉ rõ bạn đang tham chiếu tổng quy mô (liên quan đến lưu trữ/giấy phép) hay tham số đang kích hoạt mỗi token (liên quan đến tính toán runtime).

Ngôn ngữ mẫu cho tài liệu chính thức:

“OpenAI GPT-5 được ước tính có 2–5 nghìn tỷ tham số đang kích hoạt dựa trên phân tích độc lập của ngành (nguồn: trình chiếu Samsung SemiCon, mô hình mở rộng thống kê, benchmark hiệu năng). Tổng quy mô tham số có thể cao hơn 10–25× nếu sử dụng kiến trúc Mixture-of-Experts. OpenAI chưa công bố xác nhận các thông số này. Ước tính cập nhật đến tháng 4 năm 2026.”

Bao gồm trích dẫn nguồn, ghi ngày đánh giá, và gắn cờ mức độ không chắc chắn. Khi (không phải nếu) ai đó yêu cầu “xác nhận chính thức”, hãy leo thang tới bộ phận bán hàng doanh nghiệp của OpenAI—đôi khi họ cung cấp chi tiết kiến trúc hạn chế theo NDA cho các hợp đồng lớn.

Câu chuyện thực sự: Vì sao đếm tham số là thước đo của ngày hôm qua

Sự ám ảnh “GPT-5 có bao nhiêu tham số” phản chiếu những cuộc tranh cãi công nghệ trước đây đã lỗi thời:

  • Những năm 2000: Cuộc chiến megapixel trong máy ảnh (12MP vs 16MP vs 20MP!)
    • Thực tế: Chất lượng cảm biến và thấu kính quan trọng hơn
  • Những năm 2010: Cuộc đua gigahertz của CPU (3.2GHz vs 3.8GHz!)
    • Thực tế: Hiệu quả kiến trúc và thiết kế đa lõi chiến thắng
  • Những năm 2020: Đếm tham số AI (175B vs 1.8T vs 52.5T!)
    • Thực tế: Kiến trúc, trí tuệ định tuyến và tối ưu hóa theo tác vụ quan trọng hơn

GPT-5 với chế độ lập luận vượt trội hơn các mô hình lớn hơn trong khi tạo ra ít hơn 50–80% token đầu ra. Đó không chỉ là hiệu quả—đó là bằng chứng rằng thông minh hơn thắng lớn hơn.

Những gì chúng ta biết với mức độ tự tin

  1. GPT-5 sử dụng kiến trúc Mixture-of-Experts — Được chứng thực bởi các triển khai song song GPT-OSS và dấu hiệu hiệu năng
  2. Tham số đang kích hoạt có khả năng trong phạm vi 2–5T — Nhiều ước tính độc lập hội tụ tại đây
  3. Tổng nhóm chuyên gia có thể 10–50T+ — Ngoại suy từ tỷ lệ MoE, chưa xác nhận
  4. OpenAI sẽ không xác nhận chi tiết — Chiến lược cạnh tranh và an toàn có chủ đích
  5. Hiệu năng vượt dự đoán theo tham số — Điểm benchmark gợi ý lợi thế kiến trúc vượt quy mô thuần

Điều thực sự quan trọng cho chiến lược AI của bạn

Ngừng tối ưu theo thông số tiêu đề. Hãy bắt đầu đo những gì bạn sẽ thực sự trả và những gì người dùng sẽ trải nghiệm:

Benchmark theo tác vụ: Chạy chính các prompt của bạn qua GPT-5, Claude và Gemini. Mô hình xử lý tốt nhất lĩnh vực của bạn có thể không phải là mô hình lớn nhất.

Chi phí trên mỗi đầu ra hữu ích: Một mô hình cho câu trả lời hoàn hảo trong một lần tốt hơn mô hình rẻ hơn cần ba lần trao đổi.

Hồ sơ độ trễ dưới tải: Kiểm thử ở quy mô. Overhead định tuyến MoE có thể giết chết hiệu năng cho ứng dụng nhạy cảm độ trễ.

Phân tích chế độ lỗi: Mô hình bịa đặt ở đâu hoặc từ chối tác vụ? Trường hợp biên quan trọng hơn benchmark trung bình.

Câu hỏi 52.5 nghìn tỷ, có lời đáp

GPT-5 thật sự có 52.5 nghìn tỷ tham số?

Có thể, nếu bạn đang đếm tổng công suất chuyên gia MoE và ai đó làm rò rỉ thông số nội bộ chính xác. Có lẽ không, nếu bạn nói về tham số đang kích hoạt mỗi truy vấn. Chắc chắn dễ gây hiểu lầm, nếu bạn so với kiến trúc dày 175B của GPT-3.

Con số đó không sai—chỉ là con số sai để bận tâm.

Tổng tham số MoE hữu ích cho thảo luận về lưu trữ và giấy phép, trong khi tham số đang kích hoạt quan trọng cho chi phí tính toán runtime.

Hỏi “GPT-5 lớn cỡ nào” mà không chỉ rõ thước đo cũng như hỏi “thư viện lớn cỡ nào”—bạn đang đo diện tích kệ, lượng mượn hiện hoạt, hay tổng số đầu sách?

Tương lai: Chuẩn bị cho sự bí mật nhiều hơn, không phải ít đi

Việc cắt thông tin tham số của OpenAI không phải tạm thời. Hãy kỳ vọng:

  • Cạnh tranh gia tăng → Nhiều bí mật kiến trúc hơn trên toàn bộ các phòng lab
  • Tiếp thị tập trung năng lực → “Giải bài X tốt hơn Y%” thay thế đếm tham số
  • Benchmark kiểu hộp đen → Đánh giá bên thứ ba trở thành nguồn minh bạch duy nhất

Dòng Llama của Meta vẫn là người chơi cuối cùng công bố thông số mở. Những người khác đang theo chân OpenAI bước vào sự mù mờ.

Với nhà phát triển và đội sản phẩm, điều này có nghĩa là:

Xây hệ thống độc lập mô hình — Đừng kiến trúc xoay quanh chi tiết GPT-5 có thể thay đổi

Dùng lớp trừu tượng — Các nền tảng như CometAPI cách ly bạn khỏi biến động nhà cung cấp

Liên tục benchmark — Thứ tối ưu hôm nay có thể không còn sau sáu tháng

Tập trung vào kết quả — Bảng thông số đang biến mất; chỉ số hiệu năng thì không

Kết luận

Bí ẩn tham số rồi sẽ tự giải—qua rò rỉ, tình báo cạnh tranh, hoặc cuối cùng là minh bạch từ OpenAI. Nhưng đến khi có câu trả lời dứt khoát, GPT-6 sẽ ở giai đoạn beta kín và khung thành lại bị dời.

Hãy để đối thủ tranh cãi liệu là 2T hay 52.5T. Bạn nên tập trung giao sản phẩm hoạt động.

Những điều chúng tôi tự tin khẳng định:

  • GPT-5 lớn (đa nghìn tỷ tham số)
  • Nó thông minh (kiến trúc MoE định tuyến hiệu quả)
  • Nó mù mờ (OpenAI sẽ không xác nhận chi tiết)
  • Nó hiệu quả (vượt dự đoán theo tham số)

Bạn không thể đo số tham số. Bạn có thể đo:

  • Tỷ lệ thành công theo tác vụ trên GPT-5, Claude Opus 4.7, Gemini 3.1 Pro
  • Chi phí cho mỗi 1K yêu cầu đối với khối lượng công việc cụ thể của bạn
  • Độ trễ P95 khi lưu lượng tăng đột biến
  • Độ chính xác mô hình trên các trường hợp biên của bạn

CometAPI: Trình tổng hợp API mô hình AI hợp nhất — một khóa API để truy cập 500+ mô hình từ OpenAI, Anthropic, Google & hơn thế nữa, với mức giá thấp hơn 20% so với chính thức.

Kiểm thử trên nhiều mô hình trong 5 phútBắt đầu với khoản tín dụng miễn phí

Sẵn sàng giảm 20% chi phí phát triển AI?

Bắt đầu miễn phí trong vài phút. Bao gồm tín dụng dùng thử miễn phí. Không cần thẻ tín dụng.

Đọc thêm