在 Google 上输入 “GPT-5 parameters”,你会被相互矛盾的数据淹没。2 万亿?5 万亿?令人瞠目结舌的 52.5 万亿?我们花了三周时间来分析答案——这样你就不用了。
GPT-5 于 2025 年 8 月 7 日发布,这是自 GPT-4 以来 OpenAI 最大的一次发布。但与前几代不同,这一代模型的内部细节刻意保持不透明。经过三周对 API 延迟模式的分析、将基准分数与已知规模的模型进行交叉比对、并咨询在大规模场景下对 GPT-5 进行过压力测试的工程师后,我们明确了哪些是我们真正有把握的结论——以及业界仍在猜测的部分。
GPT-5 有多少参数
AI 行业里最不算秘密的秘密:没有人真正知道 GPT-5 有多大。
Reddit 帖子自信地引用 52.5 万亿参数。来自 SemiCon Taiwan 的三星演示文稿泄露称是 3-5 万亿。行业分析师保守地说“估计在 2-5T 区间”。OpenAI 的官方文档?刻意保持沉默。记者追问时,他们的开发者关系团队礼貌地回应:“出于竞争原因,我们不披露架构细节。”
所以我们做了件事: 自己分析。
[完整披露:以下为调查性分析,并非确认事实。 OpenAI 未对 GPT-5 的参数规模进行任何核实。我们的结论综合自基准数据库、泄露的硬件规格、API 性能模式,以及与在生产环境中运行 GPT-5 的 ML 工程师的访谈。请将我们的结论视为有据可查的“侦探工作”,而非绝对真理。]
为什么“52.5 万亿参数”在技术上可能但在实践中毫无意义
想象一下:你雇了 100 位专家顾问,但每个项目只付其中 4 位的费用。你的组织结构图写着 100 名员工。你的财务只为 4 名员工开账。哪个数字定义了你公司的规模?
两个都算。也都不算。欢迎来到混合专家(Mixture of Experts, MoE)悖论。
“52.5T”代表的是 Mixture-of-Experts(MoE)架构中的总参数容量,而非“激活”的参数。把它想成你图书馆的全部馆藏与在某次研究中实际查阅的 3-5 本书的区别。完整目录决定能力边界;激活子集决定成本。
决定性证据:GPT-OSS 揭示了 OpenAI 的 MoE 策略
OpenAI 不小心露了底。
GPT-OSS-120b 拥有 1170 亿总参数,而每次查询仅有 51 亿激活参数。图书馆与实际查阅的比例为 23:1。
把这个比例延展。若 GPT-5 每次请求激活 2-5 万亿参数(行业共识估计),并采用类似的 MoE 比例,则总参数容量可能达到 46-115 万亿。
突然间,52.5T 不再像是互联网民间传说——更像是有人泄露了“专家池总规模”,而其他人报告的是“激活参数”。相同的模型,不同的口径,标题天差地别。
为什么这种架构转变改变了一切
MoE 架构让模型在预训练中大幅降低计算成本,并在推理时获得更快性能。对于任何在 GPT-5 上构建产品的人,这并非纯理论——它重写了经济账:
传统稠密模型的成本:
- 每次查询都会触达全部 175B 参数(类 GPT-3 模式)
- 线性扩展:10x 参数 = 10x 计算 = 10x 价格
- 定价简单、可预测但昂贵
MoE 如何改变这套数学:
路由器会根据对话类型、复杂度与用户意图决定激活哪些专家
- 50T 的总容量可能只按 2T 的激活参数计费
- 能力巨大、成本分数——但定价将变得依赖提示词
现实世界的证据:
启用扩展推理的 GPT-5 比同类模型少用 50-80% 的 tokens。这不仅是压缩——而是更聪明的路由,避免不必要的专家激活。
代价? 你的提示工程会直接影响唤醒哪些专家。请求“quick classification(快速分类)”,你可能只激活轻量专家。要求“think carefully through this multi-step proof(仔细思考这道多步证明)”,你可能一下调用重型推理集群。是同一个模型,成本却可能相差 3-5 倍。
底线: 在评估 GPT-5 定价时,忘掉头条里的参数数量。用你的真实提示测试并测量 token 消耗——MoE 让理论规格几乎无法用于成本预测。
业界分析师如何逆向推断 OpenAI 不说的事
既然 OpenAI 不发布规格,研究者就发展了以法医方式估算模型规模的方法。把它想成神经网络版的 CSI。
方法一:基准性能回归
分析师通过将表现与已知规模的模型进行比较,使用榜单数据的统计回归来估计参数规模。
流程:抓取 Artificial Analysis、Chatbot Arena、HumanEval 等平台的分数。把已知模型(如 Llama 3 405B、Claude Sonnet 等)放在性能-参数图上。跑回归曲线后,GPT-5 的基准分数把它放在 2-5T 集群。
可信度:中等。 假设缩放定律成立,而在架构创新下这并非必然。
方法二:硬件取证
三星在 SemiCon Taiwan 的分析估计 GPT-5 为 3-5T 参数,训练使用了 7000× NVIDIA B100 GPUs
当硬件合作方泄露训练集群规格时,ML 工程师会倒推:
- NVIDIA B100 的显存容量:已知
- 训练时间估计:行业渠道泄露
- 参数规模 = f(GPU-months, 内存带宽, 训练效率)
这一方法给出了已成为行业共识的“3-5T”估计。
可信度:对激活参数为高。 三星没有捏造的动机,而且数学相符。
方法三:API 性能指纹
这招更巧妙。模型架构会留下性能签名:
GPT-5 输出 87.4 tokens/second,首个 token 时间 84.78s
- 延迟模式暗示 MoE 路由开销(稠密模型首 token 更快)
- token 吞吐量与基于已知模型的激活参数数量呈相关
运行生产工作负载的工程师会高度关注这些指标。与开源模型公开规格交叉比对,就能逆向推断出大致架构。
可信度:对架构类型为中等,对精确规格为低。 性能受参数之外的诸多变量影响。
方法四:群体智慧
当多种独立分析收敛时,信心会上升。目前我们有:
- 三星泄露: 3-5T 参数
- 统计缩放定律: 2-5T 区间
- R-bloggers 社区分析: 最低 ~2T,基于能力需求
- Encord 技术拆解: MoE 架构,具备多万亿参数容量
行业共识把 GPT-5 放在采用 MoE 架构的 2-5 万亿“激活参数”之间。不是因为单一来源权威,而是因为独立方法的结论一致。
可信度光谱
坦诚讲我们真正知道什么:
分析师共识:
“也许 OpenAI 有改变缩放数学的秘密优化——这有可能。但这些估计大概率离真实情况不远。”
GPT 进化:从蛮力到智能路由
理解 GPT-5 的架构,需要看到这些模型在短短五年里发生了多么激进的演化。
GPT-3(2020):最后一次“诚实”的规格表
1750 亿参数,每次查询全部激活
- 稠密 Transformer 架构——优雅而昂贵
- 训练于 ~3000 亿词的互联网文本
- 里程碑成就:首次在大规模上展示出少样本学习能力
OpenAI 把一切都公开了。参数规模、训练数据量、架构图。这是我们最后一次得到完整透明。
GPT-4(2023):多模态飞跃与走向保密
- 参数规模:
估计约 1.8 万亿,OpenAI 未确认
- 架构:怀疑为早期 MoE 实现(从未证实)
- 变革点:无需单独图像模型的原生视觉理解
在事实准确性基准上比 GPT-3 高 40%
从这时起,OpenAI 停止分享技术细节。没有架构论文。没有参数确认。行业根据性能推断 GPT-3 到 GPT-4 ~10 倍的参数增长,但从未拿到凭据。
GPT-5(2025):效率革命
- 参数:
业界估计活跃参数为 2-5 万亿
- 架构:复杂的 MoE 与智能路由(基于行为推断,未被确认)
- 统一系统:包含快速模型、深度推理模式(GPT-5 thinking)与实时路由器
- 性能签名:
输出速度 87.4 tokens/sec,首个 token 时间 84.78 秒
模式十分明显:GPT-3→GPT-4 是 10 倍参数跃迁。GPT-4→GPT-5 的“激活参数”或许只增长 2-3 倍,但架构复杂度呈指数级提升。
竞争格局:大家都在玩同一套“保密游戏”
OpenAI 并非首创参数保密——他们只是顺应了行业趋势:
- Claude(Anthropic):
参数未披露,独立分析估计 1-3T 区间
- Gemini Ultra(Google):
训练规模与参数数量未公开
- Llama 3(Meta): 唯一仍公布规格的开源玩家(最大变体 405B 参数)
时间线可视化:
*仅限激活参数
MoE 总容量:高出 10-25 倍(未证实)
如果你在基于 GPT-5 构建,这些才是你真正该关心的
参数之谜很适合写成科技新闻。但如果你是评估 AI 部署的产品经理,或在构建生产系统的工程师,真正重要的是:
重塑你的成本模型
传统 AI 定价假设参数与成本线性关系。MoE 完全打破了这套模型。
旧心智模型(GPT-3 时代):
简单查询:175B 参数 × 费率 = $X
复杂查询:175B 参数 × 费率 = $X
(可预测、无聊、昂贵)
新现实(GPT-5 MoE):
分类任务:~1-2T 激活 = $X
深度推理:~4-5T 激活 = $4-5X
扩展思考模式:专家数量可变 = ???
GPT-5 的路由器会基于对话类型、复杂度、工具需求与明确的用户意图选择专家。翻译一下:你的提示措辞会直接影响账单。
可执行 优化:
- 用明确的复杂度信号测试提示(“quickly classify…” vs “think step-by-step…”)
- 监控哪些表述会触发扩展推理模式
- 对高频任务,通过提示工程避免不必要的专家激活
我们采访的一支团队通过在分类提示中删除“explain your reasoning(解释你的推理)”把 GPT-5 API 成本降低了 40%。准确率不变,激活专家只用到 60%。
应用架构策略
不是每个任务都需要 GPT-5 的完整专家阵列。让工作负载匹配模型层级:
适合用 GPT-5 的场景:
- 多领域推理(代码 → 业务逻辑 → UI 设计)
- 需要在对话过程中切换专长的任务
- 复杂问题分解,小模型失效的情况
- 相比单次成本更看重准确性的场景
小模型取胜的场景:
- 高量级分类/抽取
- 模式可预测的简单聊天
- 对延迟极其敏感的应用(MoE 路由会增加 50-100ms)
- 成本受限、追求“足够好”而非“最优”的产品
多模型策略
聪明的团队并非在 GPT-5、Claude、Gemini 之间二选一——而是策略性地三者并用。这时像 CometAPI 这样的平台就变得至关重要。
想象一下要管理三个不同的 API 集成:不同的认证、响应格式不一致、分离的计费面板。再把这一切乘以每个模型变体(GPT-5、Claude Opus4.7、Gemini 3.1 Pro……)。
CometAPI 通过抽象集成层来解决:
统一接入: 一个 API 端点即可按你的逻辑路由到 GPT-5、Claude、Gemini 或开源模型 自动成本 优化:将简单查询路由到更便宜的模型,复杂推理交给 GPT-5 A/B 测试框架:
用你的真实工作负载进行实证基准比较——在代表性提示上对比延迟、吞吐、成本与准确率
GPT-5 的 API 引入了新参数,包括冗长度控制与推理投入设置。CometAPI 提供经过验证的配置模板,免去你盲目试验。
真心话: 我们见过团队花 2-3 个月构建内部路由逻辑,而 CometAPI 开箱即用。除非多模型编排是你的核心能力,否则用别人的抽象层。
文档问题(以及合规上的烦恼)
法务、采购与企业架构团队需要具体规格。“业界估计 2-5T 参数”在供应商资质表上行不通。
在撰写参数文档时,务必区分“总容量”(用于存储/许可讨论)与“每 token 激活参数”(用于运行时计算)。
官方文档模板语言:
“OpenAI GPT-5 的激活参数估计在 2-5 万亿之间,基于独立行业分析(来源:三星 SemiCon 演示、统计缩放模型、性能基准)。若采用 Mixture-of-Experts 架构,则总参数容量可能高出 10-25×。OpenAI 尚未公开确认这些规格。评估时间截止 2026 年 4 月。”
包含来源引用、标注评估日期,并标明不确定性。当(而不是如果)有人要求“官方确认”时,升级到 OpenAI 的企业销售——对大型合同他们有时会在 NDA 下提供有限架构细节。
真相:参数数量是昨天的指标
对“GPT-5 有多少参数”的痴迷,像极了早年的科技争论,最后都没什么意义:
- 2000 年代: 相机像素大战(12MP vs 16MP vs 20MP!)
- 现实:传感器质量与镜头光学更重要
- 2010 年代: CPU 频率之争(3.2GHz vs 3.8GHz!)
- 现实:架构效率与多核设计赢了
- 2020 年代: AI 参数计数(175B vs 1.8T vs 52.5T!)
- 现实:架构、路由智能与面向任务的优化更重要
启用推理模式的 GPT-5 在生成少 50-80% tokens 的同时胜过更大的模型。这不仅是效率——这证明“更聪明胜过更巨大”。
我们有把握的结论
- GPT-5 使用 Mixture-of-Experts 架构 —— 由 GPT-OSS 平行实现与性能签名所证实
- 激活参数很可能在 2-5T 区间 —— 多个独立估计相互印证
- 总专家池可能达到 10-50T+ —— 从 MoE 比例外推,未证实
- OpenAI 不会确认具体细节 —— 出于竞争与安全的策略选择
- 性能超出基于参数的预测 —— 基准分数显示存在超越纯规模的架构优势
对你的 AI 策略真正重要的事
别再为头条规格优化。开始衡量你实际会付的钱,以及用户会体验到什么:
面向任务的基准: 用你的真实提示分别跑 GPT-5、Claude、Gemini。最擅长你领域的模型未必是最大的。
单位有效输出成本: 一次给出完美答案的模型,胜过需要三次追问的更便宜模型。
负载下的延迟画像: 要在规模下测试。MoE 路由开销可能杀死对延迟敏感的应用。
失效模式分析: 模型在哪些地方会幻觉或拒绝?边缘案例比平均基准更重要。
52.5 万亿之问,答案如下
GPT-5 真的有 52.5 万亿参数吗?
也许,如果你统计的是 MoE 的专家总容量,并且有人泄露了准确的内部规格。大概不是,如果你指的是每次查询的激活参数。绝对是误导,如果你把它与 GPT-3 的 175B 稠密架构比较。
这个数字不是错的——只是你关心错了数字。
MoE 的总参数对存储与许可讨论有意义,而激活参数对运行时计算成本有意义。
不说明口径就问“GPT-5 有多大”,就像在问“图书馆有多大”——你测的是书架面积、活跃借阅,还是馆藏总量?
未来:做好迎接更多保密,而不是更少
OpenAI 的参数“停电”不会是暂时的。预期:
- 竞争加剧 → 各家实验室会更深地封锁架构细节
- 能力导向营销 → 用“在任务 X 上提升 Y%”替代参数数字
- 黑箱基准 → 第三方评估将成为唯一的透明来源
Meta 的 Llama 系列仍是最后一个披露规格的大型玩家。其他人都在跟随 OpenAI 走向不透明。
对开发者与产品团队,这意味着:
✅ 构建与模型无关的系统 —— 不要围绕 GPT-5 的特性写死架构,这些可能变化
✅ 使用抽象层 —— 像 CometAPI 这样的平台能把你与厂商变更隔离开
✅ 持续基准 —— 今天最优的,半年后可能不是
✅ 聚焦结果 —— 规格表在消失;性能指标不会
底线
参数之谜最终会通过泄露、竞争情报或 OpenAI 的迟来透明而水落石出。但等我们拿到一个明确答案时,GPT-6 可能已在私测,靶子再次移动。
让你的竞争对手去争论是 2T 还是 52.5T。你要做的是把产品交付出来。
我们有信心断言:
- GPT-5 很大(多万亿参数)
- 它很聪明(MoE 架构高效路由)
- 它很不透明(OpenAI 不会确认细节)
- 它很有效(表现超出基于参数的预测)
你无法测量参数数量。你可以测量:
- 在 GPT-5, Claude Opus 4.7、Gemini 3.1 Pro 上的任务成功率
- 针对你特定工作负载的每 1K 请求成本
- 流量激增时的 P95 延迟
- 你边缘案例上的模型准确率
CometAPI:统一的 AI 模型 API 聚合平台 —— 一个 API Key 以 8 折获取 OpenAI、Anthropic、Google 等 500+ 模型的访问。
5 分钟跨模型测试 → 从免费额度开始
