2025年4月17日:OpenAI 于周三推出了两款突破性的 AI 模型,o3 和 o4-mini,标志着人工智能推理能力的重大进步。这些模型旨在提升复杂任务的表现,融合视觉理解与高级问题解决能力。

o3:迈向类人水平的推理
o3 模型是迄今为止 OpenAI 最为先进的推理系统。它在多项基准测试中展现出卓越表现:
- 数学:在 AIME 2024 考试中取得 96.7% 的成绩,仅错一题。
- 科学推理:在 GPQA Diamond 基准上得分 87.7%,攻克研究生水平的科学问题。
- 软件工程:在 SWE-Bench Verified 编码测试中达到 71.7% 的准确率。
- 通用智能:在高计算设置下,以 87.5% 的得分超过 ARC-AGI 基准中的类人阈值。
这些成果使 o3 成为迈向通用人工智能(AGI)的重要一步,展示了其超越记忆化模式、适应新颖任务的能力。
另请参阅 GPT-4.1:它是什么以及如何使用?
o4-mini:高效且多功能
o4-mini 模型在不牺牲性能的前提下,提供更紧凑且更具成本效益的选择。它在数学、编码和视觉分析等任务中表现出色,适用于广泛的应用场景。
视觉推理创新与增强的工具自主性
o3 和 o4-mini 均引入了对视觉输入(包括图像、草图和白板内容)的推理能力。该集成使模型能够在分析过程中操作图像——如缩放或旋转——从而提升问题解决能力。
OpenAI 在这些模型中实施了一种称为“deliberative alignment”的全新训练范式。该方法使 AI 能够进行与人工撰写的安全标准相一致的结构化推理,强化对安全基准的遵循,并提供情境敏感的响应。
CEO Sam Altman 已承认 OpenAI 模型命名约定的复杂性,并表示更直观的命名系统即将到来。
另请参阅 GPT-4o 能生成 NSFW 图片吗?
可用性与后续发展
o3 和 o4-mini 模型现已向 ChatGPT Plus、Pro 和 Team 用户开放。此次发布与 OpenAI 近日推出的 GPT-4.1 模型相呼应,体现了公司在 AI 发展方面的快速进展。
CEO Sam Altman 已承认 OpenAI 模型命名约定的复杂性,并表示更直观的命名系统即将到来。
这些进展凸显了 OpenAI 在不断推动 AI 能力边界的同时,始终聚焦安全与可及性的承诺。
OpenAI 还发布了 Codex CLI,这是一款在用户终端本地运行的开源代码代理。其目标是为用户提供一种简洁明了的方式,将 AI 模型(包括 o3 和 o4-mini(对 GPT-4.1 的支持即将到来))与在其计算机上运行的代码与任务连接起来。Codex CLI 是开源的,现可在 GitHub 获取。
欲了解 OpenAI 最新模型及其能力的更多信息,请访问 CometAPI 的 o3 API 与 O4 Mini API,其中介绍了如何通过 CometAPI 访问并集成 o3 API 和 O4 Mini API。
