GPT-5 有多少参数?这是我们实际发现的情况

CometAPI
AnnaOct 17, 2025
GPT-5 有多少参数?这是我们实际发现的情况

在 Google 上输入 “GPT-5 parameters”,你会被相互矛盾的数据淹没。2 万亿?5 万亿?令人瞠目结舌的 52.5 万亿?我们花了三周时间来分析答案——这样你就不用了。

GPT-5 于 2025 年 8 月 7 日发布,这是自 GPT-4 以来 OpenAI 最大的一次发布。但与前几代不同,这一代模型的内部细节刻意保持不透明。经过三周对 API 延迟模式的分析、将基准分数与已知规模的模型进行交叉比对、并咨询在大规模场景下对 GPT-5 进行过压力测试的工程师后,我们明确了哪些是我们真正有把握的结论——以及业界仍在猜测的部分。

GPT-5 有多少参数

AI 行业里最不算秘密的秘密:没有人真正知道 GPT-5 有多大。

Reddit 帖子自信地引用 52.5 万亿参数。来自 SemiCon Taiwan 的三星演示文稿泄露称是 3-5 万亿。行业分析师保守地说“估计在 2-5T 区间”。OpenAI 的官方文档?刻意保持沉默。记者追问时,他们的开发者关系团队礼貌地回应:“出于竞争原因,我们不披露架构细节。”

所以我们做了件事: 自己分析。

[完整披露:以下为调查性分析,并非确认事实。 OpenAI 未对 GPT-5 的参数规模进行任何核实。我们的结论综合自基准数据库、泄露的硬件规格、API 性能模式,以及与在生产环境中运行 GPT-5 的 ML 工程师的访谈。请将我们的结论视为有据可查的“侦探工作”,而非绝对真理。]


为什么“52.5 万亿参数”在技术上可能但在实践中毫无意义

想象一下:你雇了 100 位专家顾问,但每个项目只付其中 4 位的费用。你的组织结构图写着 100 名员工。你的财务只为 4 名员工开账。哪个数字定义了你公司的规模?

两个都算。也都不算。欢迎来到混合专家(Mixture of Experts, MoE)悖论。

“52.5T”代表的是 Mixture-of-Experts(MoE)架构中的总参数容量,而非“激活”的参数。把它想成你图书馆的全部馆藏与在某次研究中实际查阅的 3-5 本书的区别。完整目录决定能力边界;激活子集决定成本。

决定性证据:GPT-OSS 揭示了 OpenAI 的 MoE 策略

OpenAI 不小心露了底。

GPT-OSS-120b 拥有 1170 亿总参数,而每次查询仅有 51 亿激活参数。图书馆与实际查阅的比例为 23:1。

把这个比例延展。若 GPT-5 每次请求激活 2-5 万亿参数(行业共识估计),并采用类似的 MoE 比例,则总参数容量可能达到 46-115 万亿。

突然间,52.5T 不再像是互联网民间传说——更像是有人泄露了“专家池总规模”,而其他人报告的是“激活参数”。相同的模型,不同的口径,标题天差地别。

为什么这种架构转变改变了一切

MoE 架构让模型在预训练中大幅降低计算成本,并在推理时获得更快性能。对于任何在 GPT-5 上构建产品的人,这并非纯理论——它重写了经济账:

传统稠密模型的成本:

  • 每次查询都会触达全部 175B 参数(类 GPT-3 模式)
  • 线性扩展:10x 参数 = 10x 计算 = 10x 价格
  • 定价简单、可预测但昂贵

MoE 如何改变这套数学:

路由器会根据对话类型、复杂度与用户意图决定激活哪些专家

  • 50T 的总容量可能只按 2T 的激活参数计费
  • 能力巨大、成本分数——但定价将变得依赖提示词

现实世界的证据:

启用扩展推理的 GPT-5 比同类模型少用 50-80% 的 tokens。这不仅是压缩——而是更聪明的路由,避免不必要的专家激活。

代价? 你的提示工程会直接影响唤醒哪些专家。请求“quick classification(快速分类)”,你可能只激活轻量专家。要求“think carefully through this multi-step proof(仔细思考这道多步证明)”,你可能一下调用重型推理集群。是同一个模型,成本却可能相差 3-5 倍。

底线: 在评估 GPT-5 定价时,忘掉头条里的参数数量。用你的真实提示测试并测量 token 消耗——MoE 让理论规格几乎无法用于成本预测。

业界分析师如何逆向推断 OpenAI 不说的事

既然 OpenAI 不发布规格,研究者就发展了以法医方式估算模型规模的方法。把它想成神经网络版的 CSI。

方法一:基准性能回归

分析师通过将表现与已知规模的模型进行比较,使用榜单数据的统计回归来估计参数规模。

流程:抓取 Artificial Analysis、Chatbot Arena、HumanEval 等平台的分数。把已知模型(如 Llama 3 405B、Claude Sonnet 等)放在性能-参数图上。跑回归曲线后,GPT-5 的基准分数把它放在 2-5T 集群。

可信度:中等。 假设缩放定律成立,而在架构创新下这并非必然。

方法二:硬件取证

三星在 SemiCon Taiwan 的分析估计 GPT-5 为 3-5T 参数,训练使用了 7000× NVIDIA B100 GPUs

当硬件合作方泄露训练集群规格时,ML 工程师会倒推:

  • NVIDIA B100 的显存容量:已知
  • 训练时间估计:行业渠道泄露
  • 参数规模 = f(GPU-months, 内存带宽, 训练效率)

这一方法给出了已成为行业共识的“3-5T”估计。

可信度:对激活参数为高。 三星没有捏造的动机,而且数学相符。

方法三:API 性能指纹

这招更巧妙。模型架构会留下性能签名:

GPT-5 输出 87.4 tokens/second,首个 token 时间 84.78s

  • 延迟模式暗示 MoE 路由开销(稠密模型首 token 更快)
  • token 吞吐量与基于已知模型的激活参数数量呈相关

运行生产工作负载的工程师会高度关注这些指标。与开源模型公开规格交叉比对,就能逆向推断出大致架构。

可信度:对架构类型为中等,对精确规格为低。 性能受参数之外的诸多变量影响。

方法四:群体智慧

当多种独立分析收敛时,信心会上升。目前我们有:

  • 三星泄露: 3-5T 参数
  • 统计缩放定律: 2-5T 区间
  • R-bloggers 社区分析: 最低 ~2T,基于能力需求
  • Encord 技术拆解: MoE 架构,具备多万亿参数容量

行业共识把 GPT-5 放在采用 MoE 架构的 2-5 万亿“激活参数”之间。不是因为单一来源权威,而是因为独立方法的结论一致。

可信度光谱

坦诚讲我们真正知道什么:

分析师共识:

“也许 OpenAI 有改变缩放数学的秘密优化——这有可能。但这些估计大概率离真实情况不远。”

GPT 进化:从蛮力到智能路由

理解 GPT-5 的架构,需要看到这些模型在短短五年里发生了多么激进的演化。

GPT-3(2020):最后一次“诚实”的规格表

1750 亿参数,每次查询全部激活

  • 稠密 Transformer 架构——优雅而昂贵
  • 训练于 ~3000 亿词的互联网文本
  • 里程碑成就:首次在大规模上展示出少样本学习能力

OpenAI 把一切都公开了。参数规模、训练数据量、架构图。这是我们最后一次得到完整透明。

GPT-4(2023):多模态飞跃与走向保密

  • 参数规模:

估计约 1.8 万亿,OpenAI 未确认

  • 架构:怀疑为早期 MoE 实现(从未证实)
  • 变革点:无需单独图像模型的原生视觉理解

在事实准确性基准上比 GPT-3 高 40%

从这时起,OpenAI 停止分享技术细节。没有架构论文。没有参数确认。行业根据性能推断 GPT-3 到 GPT-4 ~10 倍的参数增长,但从未拿到凭据。

GPT-5(2025):效率革命

  • 参数:

业界估计活跃参数为 2-5 万亿

  • 架构:复杂的 MoE 与智能路由(基于行为推断,未被确认)
  • 统一系统:包含快速模型、深度推理模式(GPT-5 thinking)与实时路由器
  • 性能签名:

输出速度 87.4 tokens/sec,首个 token 时间 84.78 秒

模式十分明显:GPT-3→GPT-4 是 10 倍参数跃迁。GPT-4→GPT-5 的“激活参数”或许只增长 2-3 倍,但架构复杂度呈指数级提升。

竞争格局:大家都在玩同一套“保密游戏”

OpenAI 并非首创参数保密——他们只是顺应了行业趋势:

  • Claude(Anthropic):

参数未披露,独立分析估计 1-3T 区间

  • Gemini Ultra(Google):

训练规模与参数数量未公开

  • Llama 3(Meta): 唯一仍公布规格的开源玩家(最大变体 405B 参数)

时间线可视化:

*仅限激活参数

MoE 总容量:高出 10-25 倍(未证实)

如果你在基于 GPT-5 构建,这些才是你真正该关心的

参数之谜很适合写成科技新闻。但如果你是评估 AI 部署的产品经理,或在构建生产系统的工程师,真正重要的是:

重塑你的成本模型

传统 AI 定价假设参数与成本线性关系。MoE 完全打破了这套模型。

旧心智模型(GPT-3 时代):

简单查询:175B 参数 × 费率 = $X

复杂查询:175B 参数 × 费率 = $X

(可预测、无聊、昂贵)

新现实(GPT-5 MoE):

分类任务:~1-2T 激活 = $X

深度推理:~4-5T 激活 = $4-5X

扩展思考模式:专家数量可变 = ???

GPT-5 的路由器会基于对话类型、复杂度、工具需求与明确的用户意图选择专家。翻译一下:你的提示措辞会直接影响账单。

可执行 优化:

  • 用明确的复杂度信号测试提示(“quickly classify…” vs “think step-by-step…”)
  • 监控哪些表述会触发扩展推理模式
  • 对高频任务,通过提示工程避免不必要的专家激活

我们采访的一支团队通过在分类提示中删除“explain your reasoning(解释你的推理)”把 GPT-5 API 成本降低了 40%。准确率不变,激活专家只用到 60%。

应用架构策略

不是每个任务都需要 GPT-5 的完整专家阵列。让工作负载匹配模型层级:

适合用 GPT-5 的场景:

  • 多领域推理(代码 → 业务逻辑 → UI 设计)
  • 需要在对话过程中切换专长的任务
  • 复杂问题分解,小模型失效的情况
  • 相比单次成本更看重准确性的场景

小模型取胜的场景:

  • 高量级分类/抽取
  • 模式可预测的简单聊天
  • 对延迟极其敏感的应用(MoE 路由会增加 50-100ms)
  • 成本受限、追求“足够好”而非“最优”的产品

多模型策略

聪明的团队并非在 GPT-5、Claude、Gemini 之间二选一——而是策略性地三者并用。这时像 CometAPI 这样的平台就变得至关重要。

想象一下要管理三个不同的 API 集成:不同的认证、响应格式不一致、分离的计费面板。再把这一切乘以每个模型变体(GPT-5Claude Opus4.7Gemini 3.1 Pro……)。

CometAPI 通过抽象集成层来解决:

统一接入: 一个 API 端点即可按你的逻辑路由到 GPT-5、Claude、Gemini 或开源模型 自动成本 优化:将简单查询路由到更便宜的模型,复杂推理交给 GPT-5 A/B 测试框架:

用你的真实工作负载进行实证基准比较——在代表性提示上对比延迟、吞吐、成本与准确率

GPT-5 的 API 引入了新参数,包括冗长度控制与推理投入设置。CometAPI 提供经过验证的配置模板,免去你盲目试验。

真心话: 我们见过团队花 2-3 个月构建内部路由逻辑,而 CometAPI 开箱即用。除非多模型编排是你的核心能力,否则用别人的抽象层。

文档问题(以及合规上的烦恼)

法务、采购与企业架构团队需要具体规格。“业界估计 2-5T 参数”在供应商资质表上行不通。

在撰写参数文档时,务必区分“总容量”(用于存储/许可讨论)与“每 token 激活参数”(用于运行时计算)。

官方文档模板语言:

“OpenAI GPT-5 的激活参数估计在 2-5 万亿之间,基于独立行业分析(来源:三星 SemiCon 演示、统计缩放模型、性能基准)。若采用 Mixture-of-Experts 架构,则总参数容量可能高出 10-25×。OpenAI 尚未公开确认这些规格。评估时间截止 2026 年 4 月。”

包含来源引用、标注评估日期,并标明不确定性。当(而不是如果)有人要求“官方确认”时,升级到 OpenAI 的企业销售——对大型合同他们有时会在 NDA 下提供有限架构细节。

真相:参数数量是昨天的指标

对“GPT-5 有多少参数”的痴迷,像极了早年的科技争论,最后都没什么意义:

  • 2000 年代: 相机像素大战(12MP vs 16MP vs 20MP!)
    • 现实:传感器质量与镜头光学更重要
  • 2010 年代: CPU 频率之争(3.2GHz vs 3.8GHz!)
    • 现实:架构效率与多核设计赢了
  • 2020 年代: AI 参数计数(175B vs 1.8T vs 52.5T!)
    • 现实:架构、路由智能与面向任务的优化更重要

启用推理模式的 GPT-5 在生成少 50-80% tokens 的同时胜过更大的模型。这不仅是效率——这证明“更聪明胜过更巨大”。

我们有把握的结论

  1. GPT-5 使用 Mixture-of-Experts 架构 —— 由 GPT-OSS 平行实现与性能签名所证实
  2. 激活参数很可能在 2-5T 区间 —— 多个独立估计相互印证
  3. 总专家池可能达到 10-50T+ —— 从 MoE 比例外推,未证实
  4. OpenAI 不会确认具体细节 —— 出于竞争与安全的策略选择
  5. 性能超出基于参数的预测 —— 基准分数显示存在超越纯规模的架构优势

对你的 AI 策略真正重要的事

别再为头条规格优化。开始衡量你实际会付的钱,以及用户会体验到什么:

面向任务的基准: 用你的真实提示分别跑 GPT-5、Claude、Gemini。最擅长你领域的模型未必是最大的。

单位有效输出成本: 一次给出完美答案的模型,胜过需要三次追问的更便宜模型。

负载下的延迟画像: 要在规模下测试。MoE 路由开销可能杀死对延迟敏感的应用。

失效模式分析: 模型在哪些地方会幻觉或拒绝?边缘案例比平均基准更重要。

52.5 万亿之问,答案如下

GPT-5 真的有 52.5 万亿参数吗?

也许,如果你统计的是 MoE 的专家总容量,并且有人泄露了准确的内部规格。大概不是,如果你指的是每次查询的激活参数。绝对是误导,如果你把它与 GPT-3 的 175B 稠密架构比较。

这个数字不是错的——只是你关心错了数字。

MoE 的总参数对存储与许可讨论有意义,而激活参数对运行时计算成本有意义。

不说明口径就问“GPT-5 有多大”,就像在问“图书馆有多大”——你测的是书架面积、活跃借阅,还是馆藏总量?

未来:做好迎接更多保密,而不是更少

OpenAI 的参数“停电”不会是暂时的。预期:

  • 竞争加剧 → 各家实验室会更深地封锁架构细节
  • 能力导向营销 → 用“在任务 X 上提升 Y%”替代参数数字
  • 黑箱基准 → 第三方评估将成为唯一的透明来源

Meta 的 Llama 系列仍是最后一个披露规格的大型玩家。其他人都在跟随 OpenAI 走向不透明。

对开发者与产品团队,这意味着:

构建与模型无关的系统 —— 不要围绕 GPT-5 的特性写死架构,这些可能变化

使用抽象层 —— 像 CometAPI 这样的平台能把你与厂商变更隔离开

持续基准 —— 今天最优的,半年后可能不是

聚焦结果 —— 规格表在消失;性能指标不会

底线

参数之谜最终会通过泄露、竞争情报或 OpenAI 的迟来透明而水落石出。但等我们拿到一个明确答案时,GPT-6 可能已在私测,靶子再次移动。

让你的竞争对手去争论是 2T 还是 52.5T。你要做的是把产品交付出来。

我们有信心断言:

  • GPT-5 很大(多万亿参数)
  • 它很聪明(MoE 架构高效路由)
  • 它很不透明(OpenAI 不会确认细节)
  • 它很有效(表现超出基于参数的预测)

你无法测量参数数量。你可以测量:

  • GPT-5, Claude Opus 4.7Gemini 3.1 Pro 上的任务成功率
  • 针对你特定工作负载的每 1K 请求成本
  • 流量激增时的 P95 延迟
  • 你边缘案例上的模型准确率

CometAPI:统一的 AI 模型 API 聚合平台 —— 一个 API Key 以 8 折获取 OpenAI、Anthropic、Google 等 500+ 模型的访问。

5 分钟跨模型测试从免费额度开始

准备好将AI开发成本降低20%了吗?

几分钟内免费开始。包含免费试用额度。无需信用卡。

阅读更多