代号为 GPT-5.3“Garlic” 的模型,在泄露信息和相关报道中被描述为 OpenAI 下一次渐进式/迭代式的 GPT-5.x 版本,旨在弥补其在推理、编码和产品性能方面的差距,以回应来自 Google Gemini 和 Anthropic Claude 的竞争压力。
OpenAI 正在试验一个更紧凑、效率更高的 GPT-5.x 迭代版本,重点提升推理能力、更快的推理速度以及更长上下文工作流,而不是一味追求更大的参数规模。这不仅仅是生成式预训练变换器系列的又一次迭代;它更是一场战略反击。诞生于 CEO Sam Altman 于 2025 年 12 月发起的内部“Code Red”, “Garlic” 代表着对过去半个十年来主导 LLM 发展的“越大越好”教条的否定。相反,它将一切押注在一个新指标上:认知密度。
什么是 GPT-5.3“Garlic”?
GPT-5.3——代号“Garlic”——被描述为 OpenAI GPT-5 系列中的下一步迭代。对这次泄露的消息来源将 Garlic 定位为并非一次简单的检查点更新或 token 调整,而是一种有针对性的架构与训练优化:目标是在一个更紧凑、推理效率更高的模型中,提取出更强的推理性能、更好的多步规划能力以及更优的长上下文表现,而不是仅仅依赖原始规模。这一定位与行业更广泛地转向“密集型”或“高效率”模型设计的趋势是一致的。
“Garlic”这个名称——与过去偏向天体(Orion)或植物甜点风格(Strawberry)的代号形成鲜明对比——据称是一个刻意设置的内部隐喻。正如一瓣大蒜可以比体积更大但味道寡淡的配料更有力地为整道菜提味一样,这个模型的设计目标是在不承担行业巨头那种庞大计算开销的情况下,提供高度浓缩的智能。
“Code Red”的起源
Garlic 的存在,无法脱离催生它的那场生存危机来理解。到 2025 年末,OpenAI 自 ChatGPT 发布以来第一次发现自己处于“防守位置”。Google 的 Gemini 3 已在多模态基准测试中夺冠,而 Anthropic 的 Claude Opus 4.5 则成为复杂编码与智能体工作流的事实标准。作为回应,OpenAI 管理层暂停了边缘项目——包括广告平台实验和消费者代理扩展——将全部重心集中到一个能够对这些竞争对手发动“战术打击”的模型上。
Garlic 就是这次打击。它的设计目标不是成为世界上最大的模型;而是成为“单位参数最聪明”的模型。它融合了此前内部项目的研究路线,尤其是 “Shallotpeat”,并纳入了错误修复和预训练效率优化,使其能够以远超其体量的表现发力。
GPT-5.3 模型当前已观察到的迭代状态如何?
截至 2026 年 1 月中旬,GPT-5.3 已进入内部验证的最后阶段,这一阶段在硅谷通常被称为“hardening(加固)”。该模型目前已出现在内部日志中,并已在严格保密协议下由部分企业合作伙伴进行抽样测试。
已观察到的迭代与“Shallotpeat”的整合
通往 Garlic 的道路并非线性发展。首席研究官 Mark Chen 泄露的内部备忘录显示,Garlic 实际上是两条不同研究路线的合成体。起初,OpenAI 正在开发一个代号为 “Shallotpeat” 的模型,作为一次直接的渐进式更新。然而,在 Shallotpeat 的预训练过程中,研究人员发现了一种新的“压缩”推理模式的方法——本质上是在训练过程的更早阶段,就教会模型丢弃冗余的神经路径。
这一发现导致独立版 Shallotpeat 被取消发布。它的架构随后与更具实验性的 “Garlic” 分支合并。结果便是一个混合迭代版本:既具备成熟 GPT-5 变体的稳定性,又拥有新架构所带来的爆发式推理效率。

我们可以推断发布时间会在什么时候?
预测 OpenAI 的发布时间向来非常困难,但“Code Red”状态加快了标准时间线。基于泄露信息、供应商更新和竞争对手周期的交汇,我们可以大致推断出一个发布时间窗口。
主要窗口:2026 年第一季度(1 月至 3 月)
业内人士的普遍共识是会在 2026 年第一季度 发布。“Code Red” 于 2025 年 12 月启动,并下达了“尽快发布”的指令。考虑到该模型已进入检查/验证阶段(且 “Shallotpeat” 的合并加快了进程),最有可能的发布时间似乎是 1 月下旬或 2 月上旬。
“Beta” 推出方式
我们可能会看到分阶段发布:
- 2026 年 1 月下旬: 向部分合作伙伴和 ChatGPT Pro 用户提供“预览版”发布(可能会使用“GPT-5.3(Preview)”标签)。
- 2026 年 2 月: API 全面开放。
- 2026 年 3 月: 集成到 ChatGPT 免费层(限制查询次数),以对抗 Gemini 的免费可访问性。
GPT-5.3 的 3 个定义性特征是什么?
如果这些传闻属实,GPT-5.3 将引入一系列更重视实用性与集成能力、而非纯粹生成创造力的特性。这套功能几乎就是系统架构师和企业开发者愿望清单的合集。
1. 高密度预训练(EPTE)
Garlic 最核心的亮点是其 增强型预训练效率(EPTE)。
传统模型通过接触海量数据并建立庞杂的关联网络来学习。据称,Garlic 的训练过程中包含一个“剪枝”阶段,模型会主动压缩信息。
- 结果: 一个在物理规模上更小(以 VRAM 需求衡量)的模型,却保留了更大系统级别的“世界知识”。
- 优势: 更快的推理速度和显著更低的 API 成本,从而解决了像 Claude Opus 这类模型阻碍大规模采用的“智能/成本比”问题。
2. 原生智能体推理
不同于以往需要依赖“封装器”或复杂提示工程才能作为智能体运行的模型,Garlic 具备 原生工具调用能力。
该模型将 API 调用、代码执行和数据库查询视为其词汇体系中的“第一类公民”。
- 深度集成: 它不仅仅是“会写代码”;它还能理解代码所处的 环境。据称,它可以浏览文件目录、同时编辑多个文件,并在没有外部编排脚本的情况下自行运行单元测试。
3. 超大上下文与输出窗口
为了与 Gemini 的百万 token 窗口竞争,Garlic 据传将配备 40 万 token 的上下文窗口。虽然仍小于 Google 的方案,但关键差异在于其号称能在这一窗口范围内实现“完美召回”,利用一种新的注意力机制,避免 2025 年模型中常见的“上下文中段遗失”问题。
- 128k 输出限制: 对开发者而言,也许更令人兴奋的是传闻中输出上限扩大到 128,000 token。这将使模型能够一次性生成完整的软件库、全面的法律简报,甚至整部中篇小说,而无需再进行“分块”。
4. 显著降低幻觉
Garlic 使用了一种以后训练强化为核心的技术,强调“认知上的谦逊”——模型经过严格训练,以明确知道自己 不知道什么。内部测试显示,其幻觉率显著低于 GPT-5.0,这使其有望适用于生物医学、法律等高风险行业。
它与 Gemini 和 Claude 4.5 等竞争对手相比如何?
Garlic 的成功不会在孤立状态下衡量,而会直接与当前主导赛场的两大巨头相比:Google 的 Gemini 3 和 Anthropic 的 Claude Opus 4.5。
GPT-5.3“Garlic” vs. Google Gemini 3
规模之战 vs. 密度之战。
- Gemini 3: 当前的“全家桶”模型。它在多模态理解(视频、音频、原生图像生成)方面占据主导地位,并拥有近乎无限的上下文窗口。对于“杂乱”的真实世界数据,它是最佳模型。
- GPT-5.3 Garlic: 无法在原始多模态广度上与 Gemini 竞争。相反,它从 推理纯度 上攻击 Gemini。对于纯文本生成、代码逻辑和复杂指令遵循,Garlic 的目标是更锋利、更不容易“拒答”或跑偏。
- 结论: 如果你需要分析一段 3 小时视频,你会用 Gemini;如果你需要为银行应用编写后端,你会用 Garlic。
GPT-5.3“Garlic” vs. Claude Opus 4.5
开发者之魂的争夺战。
- Claude Opus 4.5: 于 2025 年末发布,这个模型凭借其“温度”和“氛围感”赢得了开发者青睐。它以编写整洁、易于人类阅读的代码以及以军事级精度遵循系统指令而闻名。然而,它价格昂贵且速度较慢。
- GPT-5.3 Garlic: 这正是它的直接目标。Garlic 的目标是在 2 倍速度和 0.5 倍成本 下,达到 Opus 4.5 的编码水平。通过“高密度预训练”,OpenAI 希望以 Sonnet 级预算提供 Opus 级智能。
- 结论: “Code Red” 正是由 Opus 4.5 在编码领域的主导地位直接触发的。Garlic 的成败,完全取决于它能否说服开发者把 API key 切回 OpenAI。如果 Garlic 能像 Opus 一样擅长编码却运行更快,市场可能会在一夜之间转向。
要点总结
Garlic 的早期内部构建版本,已经在一些高价值领域超越了 Google 的 Gemini 3 和 Anthropic 的 Opus 4.5:
- 编码能力: 在内部“高难度”基准测试中(超出标准 HumanEval 的范围),与 GPT-4.5 相比,Garlic 更不容易陷入“逻辑循环”。
- 推理密度: 该模型需要更少的“思考”token 就能得出正确结论,这与 o1(Strawberry)系列偏重“思维链”的特点形成鲜明对比。
| Metric | GPT-5.3 (Garlic) | Google Gemini 3 | Claude 4.5 |
|---|---|---|---|
| Reasoning (GDP-Val) | 70.9% | 53.3% | 59.6% |
| Coding (HumanEval+) | 94.2% | 89.1% | 91.5% |
| Context Window | 400K Tokens | 2M Tokens | 200K Tokens |
| Inference Speed | Ultra-Fast | Moderate | Fast |
结论
“Garlic” 是一个活跃且可信度较高的传闻:这是 OpenAI 一条有针对性的工程研发路线,优先考虑 推理密度、效率和真实世界工具能力。它的出现,最好放在模型提供商(OpenAI、Google、Anthropic)之间日益加速的军备竞赛背景下理解——在这场竞赛中,战略奖品不仅是原始能力,还有 每一美元、每一毫秒延迟所对应的可用能力。
如果你对这个新模型感兴趣,请关注 CometAPI。它始终以实惠的价格更新最新、最优秀的 AI 模型。
开发者现在可以通过 CometAPI 访问 GPT-5.2、Gemini 3、Claude 4.5。开始之前,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API guide 获取详细说明。在访问之前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的价格,帮助你完成集成。
准备开始了吗?→ 立即注册 CometAPI!
